Musk não estava exagerando! O Genie 3 facilita muito a criação de um modelo do mundo de GTA 6.

Com tantos termos da moda relacionados à IA surgindo um após o outro, todos estão tão ocupados acompanhando a empolgação que as verdadeiras inovações passam despercebidas.
Hoje cedo, o Google DeepMind lançou seu tão aguardado novo projeto: o Project Genie. Esta não é apenas uma ferramenta de IA divertida, mas também um passo significativo para o Google rumo à Inteligência Artificial Geral (AGI).
Um verdadeiro protótipo de um experimento de "modelo mundial".

O Project Genie está atualmente disponível para assinantes do Google AI Ultra com 18 anos ou mais nos Estados Unidos.
Primeiramente, precisamos entender um conceito: o Project Genie essencialmente gera um ambiente interativo renderizado em tempo real. Sua base técnica consiste em três partes: o Nano Banana Pro, responsável pelo controle de imagem; o modelo Gemini, responsável pela compreensão de comandos de voz; e o Genie 3, responsável pelo feedback físico.
Já estamos bastante familiarizados com os dois primeiros, então não há necessidade de entrar em detalhes. Mas como devemos entender Genie 3?
Em termos simples, seu mecanismo é muito semelhante ao princípio do sonho humano.
Quando sonhamos, nossos cérebros constroem um mundo virtual que inclui sensações visuais, auditivas e táteis. Embora a lógica nos sonhos possa, por vezes, ser desconexa, a imersão é muito forte. O Genie, essencialmente, ensina os computadores a "sonhar" e permite que os usuários entrem e interajam com esse mundo onírico.
Além disso, diferentemente de modelos como o ChatGPT, que se baseiam em padrões estatísticos textuais, o Genie 3 é essencialmente um "modelo do mundo físico". Embora não tenha aprendido fórmulas da física, ele "aprendeu" regras físicas como gravidade e inércia assistindo a milhões de vídeos de objetos em movimento.
Experimentar o Project Genie também é muito simples.

Josh Woodward, embaixador de produtos de IA do Google, demonstrou todo o processo: primeiro, ele transformou sua foto em um personagem no estilo de um jogo retrô e, em seguida, a carregou no Genie, inserindo "cena de deserto" e uma descrição do personagem.
Após clicar em "Gerar", ele poderá explorar livremente o deserto como um cowboy.

Para proporcionar um controle mais preciso, os usuários podem visualizar o ambiente e ajustar o ponto de vista antes de entrar. Após clicar em "Iniciar", pressionar as teclas de seta WASD fará com que o sistema preveja e gere o caminho e a cena à frente em tempo real.

Todo o processo é como jogar um jogo, só que você não é apenas o espectador, mas também o diretor desse mundo.
No entanto, como um modelo experimental ainda em desenvolvimento, o Projeto Genie também apresenta limitações óbvias, como a capacidade de reprodução por apenas 60 segundos de cada vez. Em um podcast de entrevistas, a equipe de desenvolvimento do Google explicou que jogar por muito tempo causaria falhas na lógica visual, gerando alucinações, e que a geração em tempo real seria extremamente custosa em termos computacionais.

▲
https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s
Portanto, para equilibrar experiência e custo, cada exploração está atualmente limitada a 1 minuto.
É claro que, se você se cansar do deserto, pode modificar os comandos a qualquer momento para transformar instantaneamente a cena em uma cidade cyberpunk, mantendo a lógica de ação do personagem. Elon Musk afirmou recentemente nas redes sociais que a IA poderia potencialmente permitir que pessoas comuns criassem um jogo GTA 6 em minutos.
A empresa de investimentos VentureTwins também acredita que 2026 será o ano de crescimento explosivo para os modelos mundiais. A tecnologia de "geração de vídeo em tempo real" do Projeto Genie poderá rivalizar com os motores de jogos tradicionais baseados em código no futuro.
Com o Projeto Genie, esses julgamentos já não parecem tão distantes.

▲ Imagem de @AngryTomtweets
https://x.com/AngryTomtweets/status/2016986111927865430
Ao pilotar o helicóptero, o mapa no canto inferior esquerdo será atualizado em tempo real.

▲ Imagem de @fofrAI
https://x.com/fofrAI/status/2016936855607136506
O usuário @yrzhe_top relatou, após testar o jogo, que ao dirigir em um planeta alienígena, a experiência não foi tão fluida quanto nos vídeos promocionais. Houve alguns travamentos e os comandos personalizados não funcionaram; ele só conseguiu usar as configurações predefinidas oficiais.

▲ Imagem de @yrzhe_top
A equipe de desenvolvimento do Google também reconheceu que o Genie 3 ainda está em seus estágios iniciais e que a simulação física ainda não é precisa o suficiente, apresentando frequentemente problemas de recorte e trajetórias estranhas. No entanto, @yrzhe_top afirmou que, embora o projeto atinja apenas 70% de suas promessas, esses 70% já são bastante impressionantes.

▲ Imagem de @jen_w1n
https://x.com/jen_w1n/status/2016929094517088416
É claro que, se o objetivo fosse apenas criar uma versão de Minecraft com especificações avançadas, o Google obviamente não precisaria usar tantos recursos. A verdadeira ambição do Projeto Genie reside em resolver os maiores obstáculos no caminho da IA para a IAG (Inteligência Artificial Geral): o esgotamento de dados e o gargalo da inteligência incorporada.
Sim, os dados textuais de alta qualidade na internet estão se esgotando, e os robôs não conseguem aprender a lavar a louça lendo enciclopédias; eles precisam de memória muscular e feedback físico.
No entanto, obter dados sobre falhas de robôs é extremamente caro na prática. O Genie, por outro lado, pode funcionar como um gerador infinito de dados sintéticos, simulando bilhões de cozinhas, armazéns ou superfícies alienígenas diferentes, permitindo que os robôs acumulem "memória muscular" neles e a apliquem à realidade.
Da mesma forma, o LingBot-VA, cujo código-fonte foi disponibilizado hoje pela Antminer, consegue inferir sequências de ações enquanto gera imagens, permitindo que robôs "pensem e ajam" como humanos. Suas habilidades para preparar o café da manhã, pegar parafusos, desembalar pacotes, dobrar roupas e calças foram aprimoradas.
Além disso, a equipe de desenvolvimento do Google também vislumbrou, durante a entrevista, cenários de aplicação mais centrados no ser humano, como psicoterapia e educação.
Os pais podem usar o Genie para gerar uma "sala cheia de aranhas" para ajudar seus filhos a se dessensibilizarem em um ambiente virtual completamente seguro e controlado. Ou, em uma aula de história, podem gerar uma rua parisiense do século XVIII para os alunos vivenciarem a experiência em primeira mão.
Apesar de o Project Genie ainda apresentar problemas como gráficos rudimentares, tempo de jogo curto, alta latência e falta de conectividade multiplayer, ele de fato abriu as portas para a simulação da realidade física.
Relembrando a declaração de 2024, "O mundo deixará de existir", provavelmente não foi Sora quem a tornou realidade, mas sim o Gênio.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

