Resumindo, a IA construiu para mim uma cidade “Ghibli” em 3D onde eu podia correr e pular.

Além do recém-lançado Opus 4.7 da Anthropic, os modelos mundiais se tornaram outro campo de batalha para grandes lançamentos de modelos esta semana.
Em apenas alguns dias, a comunidade de IA lançou uma série de modelos mundiais inovadores em rápida sucessão.
Primeiro, a World Labs de Fei-Fei Li tornou o Spark 2.0 um projeto de código aberto, e ontem a Tencent lançou oficialmente e tornou o HY-World 2.0 um projeto de código aberto.

▲Endereço para acessar a experiência Tencent Hunyuan 3D World Model 2.0: https://3d.hunyuan.tencent.com/sceneTo3D
A Alibaba também está trabalhando incansavelmente. A recém-criada equipe da Unidade de Negócios de Inovação ATH acaba de anunciar oficialmente o HappyHorse e, imediatamente, lançou o modelo mundial HappyOyster.

▲Captura de tela do site oficial do HappyOyster da Alibaba: https://www.happyoyster.cn/
O mais facilmente ignorado é o NVIDIA Lyra 2.0. Não houve conferência de imprensa nem comunicado oficial, mas o seu Laboratório de Inteligência Espacial publicou diretamente um artigo intitulado "Mundos 3D Generativos Exploráveis".

▲Blog de pesquisa da NVIDIA: https://research.nvidia.com/labs/sil/projects/lyra2/
Esse nível de densidade cria a ilusão de que esses modelos brutos de imagem e vídeo são totalmente inadequados. A IA moderna saltou do estágio bidimensional de "gerar uma imagem ou um vídeo" para a era espacial 3D de "construir um mundo".
Não só o setor tecnológico está em franca expansão, como o mercado de capitais também tem apresentado uma forte reação.
Hoje, a Groupcore Technology abriu seu capital oficialmente na Bolsa de Valores de Hong Kong. Essa empresa de inteligência espacial tem se dedicado a integrar a IA ao mundo físico. Sua bem-sucedida abertura de capital marca o nascimento oficial da "primeira ação na indústria de modelos mundiais" e envia um sinal claro para o mundo exterior: os modelos mundiais estão realmente começando a decolar.
Em meio à empolgação, descobrimos também que, embora todas essas empresas se autodenominem modelos mundiais, suas abordagens são completamente diferentes. Uma que só consegue gerar vídeos parece ser um produto de demonstração; outra que consegue gerar modelos 3D parece que pode ser integrada ao fluxo de trabalho de desenvolvimento e design; e outra ainda vislumbra trabalhos futuros em um artigo científico, com a esperança de utilizá-la para treinamento de robôs.
Atualmente, o Hunyuan 3D World Model 2.0 da Tencent está aberto para inscrições. Nós o testamos imediatamente, na esperança de encontrar uma resposta: que problemas do mundo real esses modelos, considerados o próximo estágio da IA, podem de fato resolver?
Desde assistir a um filme até começar um jogo.
Anteriormente, quando discutíamos modelos do mundo real, era mais como falar de um "vídeo mais longo que entende melhor as leis da física e mantém maior consistência". Mas o impacto mais direto de experimentar o Hunyuan 2.0 desta vez é que ele não gera mais arquivos MP4, mas sim arquivos de recursos 3D reais.
Durante a experiência, inseri o simples comando "cidade montanhosa ao estilo Ghibli, crepúsculo". Após alguns minutos de processamento, a cena que apareceu na tela parecia um vasto mundo de jogo.

Clique para baixar. O Hunyuan 3D oferece quatro formatos de arquivo de recursos 3D: imagens panorâmicas, arquivos .spz e .ply para Splats e malha Collider.
Os quatro tipos de arquivo abrangem vários arquivos de recursos 3D, como Mesh (malha facetada triangular), 3DGS (reflexo gaussiano 3D) e nuvem de pontos. Esses arquivos podem ser importados diretamente para o Unity e o Unreal Engine, permitindo que os desenvolvedores de jogos editem, ajustem e criem níveis.

▲O mundo gerado também pode ser salvo como uma imagem panorâmica, sendo que a imagem original tem aproximadamente 20 MB.
Em termos de geração de mundos, além dos mundos comuns baseados em texto, o Hunyuan 3D também suporta mundos baseados em imagens. Encontramos uma captura de tela do filme "Plano de Resgate", onde Rocky finalmente caminha pelo mundo construído para ele pelo povo de Eridanus, e o Hunyuan recria toda a constelação de Eridanus.

▲Como as imagens do filme mostram uma concha externa envolvendo a praia onde Rocky vive, também existe uma "sombra" no mundo gerada pelo híbrido.
Ao utilizar imagens de montanhas nevadas em alta resolução baixadas do Unsplash, as cenas de neve geradas pelo Hunyuan 3D World Model 2.0 apresentam uma maior sensação de qualidade de imagem e realismo.


▲ Visão panorâmica e movimentação do personagem no modo diretor
Seja para o envio de imagens ou para o fornecimento de instruções de texto, o aplicativo oferece diretrizes relevantes. Por exemplo, as imagens enviadas devem ter uma resolução de no mínimo 512×512 pixels, evitar mostrar pessoas na imagem, evitar closes de animais/pessoas e evitar o uso de cores ou texturas sólidas; imagens com grande proporção da tela, como o céu ou um céu estrelado, também não são adequadas.
Idealmente, as sugestões de texto devem ser uma categoria de cena (deserto, mar, quarto, etc.) + características da cena (descrições visuais de objetos, céu, etc.) + estilo (opcional, estilo desenho animado/realista/pintura a óleo, etc.).
O controle de estilização do Hunyuan 3D World Model 2.0 também é excelente. Como pode ser visto nos exemplos de mundo disponíveis no site oficial, seja no estilo de livro ilustrado ou no estilo realista de jogo, sua interpretação semântica é muito precisa; a textura das paredes, as sombras e a luz da masmorra são extremamente imersivas.

Além de gerar recursos 3D utilizáveis, o que realmente fez Hunyuan 2.0 parecer um "mundo" foi o seu modo de personagem.
Agora podemos controlar diretamente um personagem para andar, acelerar, pular, virar e explorar a cena recém-gerada, como se estivéssemos jogando um jogo em grande escala. O jogo também conta com detecção de colisão baseada em física, impedindo que o personagem atravesse paredes ou caia da borda do mapa.
Essa experiência gerada e jogável instantaneamente realmente dilui as fronteiras entre a geração por IA e os motores de jogos. À medida que o leque de mundos que podem ser gerados continua a se expandir, a exploração de personagens pode se tornar ainda mais interessante.
Na geração de mundo em tempo real, podemos controlar diretamente as ações do personagem. O modelo 3D de Hunyuan irá gerar automaticamente o mundo correspondente, com cada geração durando um minuto.

Em comparação com o modelo 3D anterior do Hunyuan, esta versão 2.0 não só suporta o download de arquivos de recursos 3D e introduz um novo modo de personagem para a tarefa "Criação de Mundo em Uma Frase/Uma Imagem", como também redesenha a arquitetura subjacente do modelo em termos de detalhes e realismo da imagem.
▲Hunyuan World Model 2.0 Arquitetura Mundial Multimodal|https://3d-models.hunyuan.tencent.com/world/
A nova arquitetura do modelo estabelece um ciclo fechado de "compreensão, geração e reconstrução".
- HY-Pano-2.0: Não são necessárias configurações profissionais de câmera; imagens comuns podem ser mapeadas para criar panoramas de 360°.
- Tecnologia de Agente Espacial: Assim como equipar a IA com navegação, ela pode planejar trajetórias de deslocamento de forma inteligente para garantir uma integração perfeita entre cuidados e visão.
- HY-WorldMirror 2.0: Garante que a integridade das laterais e da parte traseira de um objeto permaneça intacta mesmo sob mudanças significativas no ângulo de visão.
Na tarefa de reconstrução do mundo real, o Hunyuan World Model 2.0 consegue reconstruir cenas realistas a partir da entrada de múltiplas imagens ou fluxos de vídeo.

No passado, construir/reconstruir um mundo 3D interativo exigia uma equipe bem organizada e meses de aprimoramento; agora, com ferramentas como o Hunyuan 2.0, tudo o que é necessário é uma ideia.
Além disso, essa ideia, seja apresentada em forma de texto, imagens ou vídeos, pode gerar um protótipo que pode ser importado para o Unity. Mesmo que a qualidade ainda precise ser ajustada e muitos detalhes precisem ser modificados manualmente, a IA está começando a desempenhar um papel em todo o fluxo de trabalho de design.
Semana dos Modelos Mundiais Loucos, IA Louca
Ao mudarmos nosso foco da geração de recursos, do modelo de personagem e da reconstrução do mundo do Hunyuan 3D World Model 2.0 para os outros modelos de mundo lançados esta semana, descobriremos que esses diferentes modelos, rompendo com diferentes dimensões, estão coletivamente construindo um modelo de mundo mais definido.
Atualmente, o HappyOyster se concentra nos modos de roaming e de diretor, permitindo-nos intervir na evolução do mundo a qualquer momento usando linguagem natural, reescrevendo o enredo e as ações dos personagens.
A NVIDIA Lyra 2.0 consegue gerar um ambiente 3D contínuo de até 90 metros de comprimento a partir de uma única imagem. As cenas geradas podem até mesmo ser inseridas diretamente no Isaac Sim para treinamento de física de robôs.
O Spark 2.0 de Fei-Fei Li preenche a "última milha" da entrega. Enquanto os modelos anteriores se concentravam em como criar o mundo, o Spark 2.0 começou a abordar como apresentá-lo aos usuários. Através de suas tecnologias exclusivas de carregamento por streaming e memória virtual, ele conseguiu compactar um mundo gigantesco de centenas de milhões de partículas 3DGS em um navegador da web em um celular comum.

▲Interface do World Lab, aviso: Cidade montanhosa ao estilo Ghibli, crepúsculo
Ao analisar essas interfaces de modelos do mundo, cada uma exibindo suas habilidades únicas, uma conclusão realista é: claramente, o modelo do mundo ainda não chegou ao seu momento ChatGPT.
A enxurrada de lançamentos dessas quatro empresas esta semana parece ser uma preparação para este momento, com cada aspecto — qualidade da imagem, interatividade, formato do conteúdo, método de entrega e precisão da simulação — sendo otimizado em sua própria direção. No entanto, nenhum modelo ainda conseguiu reunir todos esses componentes em um produto que "pessoas comuns queiram abrir todos os dias".
Nos últimos dois anos, com a codificação por IA remodelando o desenvolvimento de código e modelos como o Nano Banana revolucionando o design gráfico, os engenheiros front-end e os designers gráficos já vivenciaram o cenário de "xxx está MORTO". Agora, é provável que essa tendência se estenda ao fosso do design 3D.
Com a entrada de mais fabricantes de modelos no mercado, o fluxo de trabalho de design 3D passará gradualmente de assistido por IA para totalmente impulsionado por IA. Nesse momento, gerar e vivenciar um mundo 3D interativo será tão fluido, econômico e natural quanto navegar por vídeos curtos em nossos celulares hoje em dia.
Afinal, em todas as narrativas de ficção científica, ninguém resistiria a se tornar o "criador" e definir um novo mundo.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.




