Ainda usa o Gemini 3 para criar apresentações em PowerPoint? Isso é tão ultrapassado! Confira os recursos interativos mais incríveis baseados em gestos (com dicas).

dezembro 2, 2025 gurinho

Nos dias que se seguiram ao lançamento do Gemini 3, comecei a me perguntar gradualmente: por que sempre deixamos a IA escrever sites e apresentações de PowerPoint? O Gemini já está em sua terceira geração, não poderia fazer algo mais interessante?

Estou procurando algo com temática de ficção científica, efeitos legais e um alto nível de dificuldade, mas ainda assim acessível até para iniciantes. Tipo isso:

Ou assim:

Gemini: Interação por gestos? Sem problemas, está tudo resolvido.

Antes de começarmos, prepare seu Gemini 3. Aqui estão alguns pontos a serem observados.

Atualmente, existem três maneiras de começar a jogar: modo Canvas do cliente Gemini, Google AI Studio – Playground e Google AI Studio – Build.

Dentre eles, o aplicativo para celular é o menos recomendado. Testei pessoalmente e constatei que ele não consegue elevar a câmera de forma eficaz. Além disso, todos os itens a seguir são interativos por gestos, e ao segurar o telefone, é impossível usar as mãos para operá-los.

Dos dois últimos, o Build cria diretamente um aplicativo que você pode compartilhar com amigos, mas sua desvantagem é o número limitado de tokens. O Playground, por outro lado, gera um conjunto de código que precisa ser baixado localmente antes de ser aberto. Ele pode não funcionar em outro computador, mas sua vantagem é que praticamente não há limite de tokens, com um limite diário de um milhão de tokens, o que garante um suprimento amplo.

Considerando que projetos interativos consomem muitos tokens, o Playground é mais adequado. O Build também pode ser usado para alguns projetos pequenos, dependendo das circunstâncias específicas.

Jarvis

O painel Jarvis HUD é um sucesso de vendas, com mais de 200.000 visualizações no Twitter. O painel controlado por gestos é como se o Homem de Ferro estivesse controlando o Jarvis, é incrível.

Segue abaixo um exemplo de solicitação:

Crie um aplicativo web usando JavaScript puro, HTML, CSS, Three.js moderno e MediaPipe. Ele deve ser uma experiência de ficção científica no estilo Tony Stark/Homem de Ferro/Jarvis, focada em simular uma experiência de realidade aumentada com visor de realidade aumentada. A entrada da webcam deve ser exibida em tela cheia. Adicione um visor de realidade aumentada que rastreie a cabeça do usuário (deslocada para a direita), com métricas atualizadas em tempo real. Um globo terrestre 3D minimalista deve ser exibido no centro esquerdo da tela, podendo ser rotacionado e redimensionado pelos gestos das mãos do usuário.

No modo de compilação, testei pessoalmente e confirmei que é possível concluir o processo de uma só vez. O Gemini atribuirá tarefas, escreverá o código e chamará diferentes interfaces automaticamente. Assim que a barra de progresso estiver completa, você poderá abrir o projeto diretamente clicando em "Visualizar" — lembre-se de conceder as permissões da câmera.

O Gemini 3 claramente projetou seus efeitos: a mão esquerda dá zoom in e zoom out, a mão direita gira e pontos de toque aparecem quando ambas as mãos estão dentro do alcance da câmera — todos esses recursos não estão presentes nas instruções, mas sim foram concebidos pela própria empresa. Combinado com uma tela grande ou um projetor, ele realmente transmite uma sensação semelhante à de Jarvis.

Tanto o modelo da Terra à esquerda quanto o conteúdo do painel à direita são personalizáveis. Inicialmente, o Gemini 3 exibia a temperatura corporal humana no painel da direita (obviamente um recurso fictício), mas posteriormente alterei para "exibir o diâmetro do modelo da Terra à esquerda em tempo real". De qualquer forma, com a programação em Vibe, você pode modificá-lo como quiser.

Controle de gotas de chuva

Se já temos Jarvis, então provavelmente deveríamos comprar Truque de Mestre também.

Antes, os filmes só apresentavam efeitos especiais, mas agora, com a Gemini 3, há algo diferente. Veja o seguinte exemplo para referência:

Crie um aplicativo web usando HTML, JavaScript e modelos de aprendizado de máquina. Utilize a detecção de gestos da câmera para controlar os efeitos de pausa, congelamento e câmera lenta de uma animação de gota de chuva. A animação deve permanecer vertical, com um estilo inspirado no filme *Truque de Mestre*.

A primeira versão deste texto foi escrita inteiramente com base nas minhas impressões após assistir ao filme, e cada detalhe pode ser ajustado usando o Vibe Coding. Com base nessa primeira versão, Gemini adicionará seus próprios designs; por exemplo, este gesto específico foi ideia dele(a).

Embora seja feito com IA, é muito sensível no reconhecimento de gestos, incluindo a capacidade de alternar rapidamente entre diferentes gestos.

Partículas 3D

Controlar gotas de chuva costumava ser uma técnica de efeitos especiais muito complexa. Logo após o lançamento de "Truque de Mestre 2", uma empresa de bebidas fez um comercial que usava o controle de gotas de chuva para criar um efeito de partículas estáticas.

Referindo-me ao conceito de "controle de chuva", a Gemini certamente pode alcançar o efeito descrito acima, o que requer uma combinação de filmagem com atores reais e controle de velocidade. O equivalente mais próximo são as partículas 3D. Portanto, criei outro exemplo interativo com um efeito de partículas 3D.

Muito legal! Veja o exemplo de comando abaixo:

Crie um sistema de partículas 3D interativo em tempo real usando Three.js. O dimensionamento e a dispersão do enxame de partículas são controlados pela detecção da abertura e fechamento das mãos através de uma câmera. Um painel de interface permite que os usuários selecionem modelos como corações, flores, Saturno, estátuas de Buda e fogos de artifício. Um seletor de cores permite ajustar as cores das partículas, e estas devem responder às mudanças de gestos em tempo real. A interface é limpa e moderna, incluindo botões de controle em tela cheia.

O projeto é concluído de uma só vez, resultando em uma interação muito fluida, especialmente com reconhecimento de gestos preciso e sensível.

【Pontas】
Quando se trata de detalhes como cor, layout e design de interface do usuário, ajustá-los usando a codificação Vibe a cada vez seria trabalhoso de descrever. Além disso, cada sessão de codificação Vibe envolve seleção aleatória, então uma técnica muito útil é adicionar módulos personalizados, especialmente para cores e tamanhos. Isso permite a personalização completa e independente de esquemas de cores ao seu gosto.

Habilidades em Gomoku

Das gotas de chuva às partículas, das partículas ao movimento, do movimento a—Gomoku! Finalmente posso criar um jogo de Gomoku baseado em habilidades!!

Pensando bem, Gomoku não é também um jogo interativo controlado por gestos, onde você voa pelo tabuleiro? Mova as peças com areia e pedras voando, mova o tabuleiro com força suficiente para arrancar montanhas, tudo isso está incluído!

Segue abaixo um exemplo de solicitação:

Crie um jogo interativo baseado em gestos chamado "Gomoku de Habilidade": A página principal é um tabuleiro de Gomoku com as peças já posicionadas por padrão. Quando o usuário fizer um movimento de "balanço com uma mão", as peças voarão do tabuleiro na direção do balanço. Quando o usuário fizer um movimento de "balanço com as duas mãos", o tabuleiro se moverá na direção do balanço.

O Gemini lida com a conexão entre a lógica física e os gestos por conta própria. Meu comando só precisa descrever o efeito, e eu não preciso me preocupar com os cálculos específicos do vetor de velocidade ou com os limites de detecção.

A empresa chegou até a renomear a "habilidade" para: Atração Universal.

Isso se chama areia e pedras voando, Professor Gemini!

Jogo de Música Rítmica

Com base nas tentativas acima, os méritos de Gemini são inegáveis. E lembre-se destas habilidades: reconhecimento de gestos, mudança de cor, a combinação delas, não é praticamente um minijogo?

Então, tentei um projeto mais complexo: jogos de ritmo.

Já joguei muitos jogos de ritmo, mas como sou iniciante e não tenho nenhuma experiência, descobrir como descrever o efeito que eu queria alcançar para o Gemini exigiu bastante reflexão. O primeiro rascunho da proposta é o seguinte:

Crie um jogo de música controlado por gestos com quatro faixas de áudio na tela principal. Após o usuário carregar um arquivo de música, pontos de luz aparecem nas faixas no ritmo da música. O usuário precisa tocar nesses pontos de luz com precisão usando gestos. O plano de fundo tem um estilo synthwave retrô, e as cores do plano de fundo, das faixas e dos pontos de luz podem ser personalizadas.

Basicamente, este é o protótipo que consigo imaginar. Com base na primeira versão do prompt, a Gemini escolheu o Pygame como motor de jogo, continuou a usar o MediaPipe para rastreamento de gestos e adicionou o Librosa para análise musical.

O estilo retrô synthwave foi escolhido por ter uma identidade visual clara — que a Gemini também reconhece — pores do sol, gradientes de néon, grades e estradas que levam ao horizonte, tornando-o perfeito para jogos de ritmo.

Criar um jogo é realmente muito mais complexo do que algumas das interações menores em que trabalhamos antes… Primeiro, ele só reconhecia uma mão, então tivemos que ajustar isso; depois, não conseguia carregar músicas, então tivemos que ajustar isso também; só na terceira versão que começou a ficar minimamente decente.

No entanto, durante meus testes, descobri um problema bastante incômodo: a linha de detecção estava posicionada muito perto da borda da tela e, como o alcance de reconhecimento da câmera é limitado, minha mão não era reconhecida se eu a abaixasse, mesmo que ligeiramente.

Minha abordagem inicial foi mover a linha de detecção para o centro da tela para garantir que minha mão estivesse sempre dentro do campo de visão da câmera.

No entanto, surgiu outro problema: a distância entre a saída do ponto de luz e a linha de julgamento era muito curta, deixando-me com muito pouco tempo de reação . Sem mencionar o pequeno atraso no clique, que reduziu bastante a jogabilidade geral. Mas se eu diminuísse demais a distância, minha mão ainda ficaria fora do alcance de reconhecimento.

Por um momento, realmente não consegui pensar em uma solução para esse problema, então fui direto perguntar à Gemini como resolvê-lo.

O texto destaca diretamente o cerne do problema e propõe uma abordagem de "engano visual" para otimizar a experiência. Ele também adiciona um controle deslizante personalizado para ajustar o deslocamento, de forma que, independentemente da posição da mão, o controle possa ser ajustado para se alinhar com a linha de julgamento.

gênio.

Mais tarde, observei que a aparência dos pontos de luz não parecia combinar muito bem com o ritmo. Para resolver isso, a Gemini adicionou um controle deslizante para ajustar a latência. Embora eu ainda ache que ela não analise os padrões rítmicos muito bem, o design do controle deslizante é bastante eficaz, especialmente para resolver o problema de latência causado pelo uso de fones de ouvido Bluetooth.

[Algumas dicas]
Basicamente, enquanto houver um prompt, haverá situações de sorteio de cartas, mas isso não é necessariamente ruim. Ao se deparar com bugs graves, como a impossibilidade de acessar a câmera ou fazer upload de arquivos, modificar repetidamente o código do Vibe não ajudará; é melhor simplesmente "criar um novo projeto". A funcionalidade principal está refletida no código, e o código é interconectado. Executar o projeto novamente e deixar a IA concluir todo o processo é muito mais eficiente do que programar meticulosamente com o Vibe. Claro, entender o código será ainda mais eficiente, permitindo soluções direcionadas. No entanto, para iniciantes completos, simplesmente sortear cartas novamente costuma ser a melhor opção.

Antes da IA, para criar aplicativos interativos baseados em gestos, era necessário aprender a usar o Touch Designer e, idealmente, também entender de implantação. Isso exigia a leitura de tutoriais e estudo repetido, e era fácil desistir no meio do processo.

A facilidade de uso da IA é evidente. Mais importante ainda, a interação por gestos, que originalmente era muito mais complexa do que criar imagens brutas ou apresentações em PowerPoint, ainda permite que iniciantes sem experiência em programação descubram rapidamente o lado divertido do desenvolvimento de aplicativos.

O único desafio restante é o senso estético. Esses exemplos mostram que o Gemini tem algum senso estético, mas não muito; o design, o esquema de cores e outros aspectos são bastante insatisfatórios. Ele domina as habilidades "técnicas" de programação; o que resta é o desafio do senso estético.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo