Para o circuito de corrida modelo mundial, a VAST escolheu um percurso que ninguém jamais havia trilhado antes.

Este ano, além da categoria Agente, o World Model também se tornou um novo campo de batalha na indústria de IA. Recentemente, Fei-Fei Li e Li-Kun Yang anunciaram que receberam um financiamento de US$ 1 bilhão, e o World Model chegou a uma encruzilhada.

A APPSO analisou cinco grandes escolas de pensamento nos modelos atuais do mundo, cada uma com abordagens técnicas diferentes. Por exemplo, a escola JEPA de Yang Likun concentra-se na previsão de representação abstrata; a escola de inteligência espacial de Fei-Fei Li usa o Marble da World Labs para reconstrução 3D explícita; e a escola de simulação de aprendizado da DeepMind lançou o Genie para criar ambientes virtuais interativos.

▲ Imagem gerada por IA

Esses estudiosos de IA, até mesmo os pioneiros da IA, que vieram antes do ChatGPT, todos afirmaram que o paradigma de treinamento de texto de grandes modelos de linguagem atingiu um gargalo. A IA precisa se basear em modelos do mundo para entender o mundo físico, mas não há consenso sobre que tipo de "modelo do mundo" criar .

Nos últimos dias, a empresa de IA VAST concluiu suas rodadas de financiamento Série A+ e A++, arrecadando um total de quase US$ 200 milhões. Isso ocorre logo após a VAST ter concluído sua rodada de financiamento Série A de US$ 50 milhões no início de março deste ano.

Você pode não estar familiarizado com o VAST, mas a geração 3D do Tripo lhe parece familiar? Em nossa publicação anterior sobre a combinação dos modelos Seedance 2.0 e GPT Image 2, mencionamos diversas vezes como o Tripo AI pode ser usado para converter imagens multiview geradas pelo GPT Image 2 em um modelo 3D.

▲ Tripo é um modelo 3D de grande escala para uso geral, implementado no VAST.

O cientista-chefe da VAST, Cao Yanpei, afirmou que, desde o primeiro dia, o que a VAST realmente tem feito é desbloquear a infraestrutura subjacente para conteúdo interativo de próxima geração, além de criar uma base mundial dedicada à inteligência artificial em geral.

Essa tarefa foi dividida em duas etapas: a primeira etapa consistia em " criar tudo "; a segunda etapa consistia em " criar o mundo " dinamicamente, fornecendo aos usuários e agentes inteligentes um ambiente virtual completo, em constante evolução e com capacidade de aprendizado por tentativa e erro.

Criar tudo envolve o uso de IA 3D para gerar recursos que atendam aos padrões do pipeline; criar o mundo, por outro lado, é o que o modelo do mundo deve fazer — entender a escala espacial e a evolução do estado para suportar a interação multiusuário.

Cao Yanpei acredita que simples elementos estáticos em 3D não são suficientes para sustentar um mundo interativo. Os elementos representam apenas o "estado subjacente do mundo" e ainda carecem de um conjunto completo de regras para fazer um mundo funcionar.

Ao contrário das cinco principais escolas de pensamento, o modelo mundial do passado combina o estado e o cenário em um único modelo de previsão. O VAST separa esses dois elementos, com a camada inferior mantendo um estado mundial distinto e a camada superior renderizando o cenário sob demanda .

As vantagens disso são que o estado existe independentemente e os objetos não desaparecem quando saem do campo de visão da câmera; um estado pode renderizar diferentes perspectivas para várias pessoas ao mesmo tempo, e a interação simultânea entre várias pessoas é naturalmente possível ; as alterações feitas pelos usuários no mundo serão realmente registradas no estado, e a próxima pessoa a entrar verá o mesmo resultado.

O Projeto Éden da VAST reconstruiu o modelo mundial usando essa lógica. Ele se tornou o primeiro modelo mundial que permite a manutenção independente e o controle determinístico do estado do mundo.

Surge então a questão: por que separar o modelo do estado do mundo dos elementos visuais, e por que o VAST adotou essa abordagem em primeiro lugar?

Imagens perfeitas não significam que o mundo esteja funcionando corretamente.

Um processo de geração de vídeo mais fluido pode ser chamado de modelo de mundo. Uma cena 3D estática que permite movimento também pode ser chamada de modelo de mundo. Uma cena com pontos de vista controláveis ​​também pode ser chamada de modelo de mundo.

O termo "modelo mundial" parece abranger praticamente tudo.

No vídeo de demonstração do Google Genie, os jogadores controlam um personagem e caminham para a frente, com a cena sendo gerada de acordo. Mas se você se virar, a cena atrás de você pode mudar, ou algo que nunca existiu antes pode aparecer, porque o Genie tenta adivinhar o que está atrás de você com base na sua memória dos últimos frames.

▲ O Genie e modelos de mundo semelhantes geram essencialmente um vídeo visualmente coerente.

Chamamos esse tipo de geração de vídeo de geração de vídeo. Em sua implementação técnica, o modelo do mundo real prevê o próximo quadro, fornece ao modelo a entrada de movimento e permite que ele gere a cena seguinte. Repetindo esse processo, um mundo real pode ser simulado.

Cao Yanpei chama isso de "plano único", onde espaço, eventos, perspectiva e aparência são todos comprimidos em um único quadro de vídeo autorregressivo. Assim que a câmera se afasta, o estado daquele local não é mais preservado; ao olhar para trás, o modelo só pode ser reconstruído usando o cache KV no Transformer.

Para ser franco, não se lembra do mundo inteiro, mas de alguns poucos fotogramas.

Outro tipo é o World Labs de Fei-Fei Li e o HY World da Tencent, que podem ser chamados de escola de inteligência espacial. A característica mais comum desse tipo de modelo é a capacidade de exportar recursos 3D reutilizáveis.

Eles tentaram primeiro construir um espaço tridimensional para que a IA pudesse realmente entender as relações geométricas e físicas antes de discutir qualquer outra coisa.

Por exemplo, o Marble, da World Labs, pode gerar um mundo finito que podemos explorar livremente. Dentro desse mundo estático gerado, a consistência do ponto de vista é alcançada porque os elementos 3D são estáticos. No entanto, esse mundo também perde sua dimensão temporal; a cena permanece congelada no momento da geração, sem mudanças físicas, sem eventos e sem relações causais.

▲ O mundo gerado é estático; as luzes não se apagarão com o tempo e o céu não clareará.

Podemos entrar, mas não podemos mudar nada, e nada mudará por causa de nossas ações.

Para o VAST, o modelo do mundo não pode simplesmente gerar pixels, nem pode ser apenas um espaço estático.

Um modelo de mundo interativo deve ter um estado subjacente que persista ao longo do tempo, possa ser observado e consultado de múltiplas perspectivas simultaneamente, e esse estado deve ser constantemente atualizado.

Crie modelos do mundo como se estivesse criando um jogo em grande escala.

Já que é impossível comprimir estados como espaço, eventos e perspectivas em uma única informação visual, vamos separá-los completamente.

Assim como nos jogos de mundo aberto que jogamos, o servidor do jogo mantém um estado do mundo: quem está onde, o que foi destruído, qual baú de tesouro foi aberto. A tela do nosso computador simplesmente realiza uma renderização em tempo real com base nesse estado, combinada com centenas de gigabytes de arquivos do jogo em nossa pasta local.

Os dados do mapa e a renderização da tela são dois sistemas completamente separados. Quando alguém entra em nosso mundo, todos ainda compartilham o mesmo mundo subjacente de arquivos estáticos, e a tela de cada pessoa é apenas o resultado da renderização a partir de uma perspectiva diferente.

O que o projeto VAST Eden fez foi reescrever essa lógica usando IA generativa. Eles abandonaram a lógica tradicional e monolítica de modelos, e projetaram uma estrutura de algoritmo de três camadas que é "nativamente desacoplada entre estado e renderização".

A camada subjacente é um estado estruturado que governa o que existe e o que acontece neste mundo — geometria da cena, identidades dos objetos e lógica dos eventos — completamente independente de qualquer perspectiva da câmera. Quando um jogador realiza qualquer ação dentro do modelo do mundo, o sistema primeiro atualiza esse estado subjacente.

Na camada intermediária encontra-se a camada de transformação, que transforma o estado do mundo em um conjunto de informações condicionais locais com base em "quem está observando no momento e de qual perspectiva". Por exemplo, após a execução desta ação, quais objetos podem ser vistos desta perspectiva, suas relações espaciais aproximadas e quais eventos ocorreram e sofreram alterações.

A camada superior é a renderização generativa que, com base nessas condições, "desenha" verdadeiramente a imagem, complementando a iluminação, os materiais e os detalhes dinâmicos.

Com essa separação, a responsabilidade do modelo de vídeo se reduz a uma única coisa: renderizar com alta qualidade . Ele não precisa memorizar o mundo inteiro nem adivinhar se um determinado objeto ainda está lá; tudo isso é gerenciado pelo estado subjacente. Sua força reside em desenhar com beleza, então agora ele pode se concentrar em desenhar com beleza.

Assim que o modelo do mundo começa a manter um estado subjacente persistente, os dados de treinamento também mudam.

De acordo com a definição do Projeto Eden, os dados verdadeiramente adequados para o treinamento de modelos do mundo real devem conter duas camadas de informação: o estado de inferência subjacente e imagens visuais de alta qualidade. Se essas duas camadas não estiverem alinhadas, não são considerados "dados nativos".

De onde vêm os dados?

O VAST aproveita os recursos de modelagem básica 3D acumulados ao longo de muitos anos pelo Tripo para realizar engenharia reversa de grandes quantidades de vídeos 2D da internet, recuperando informações como profundidade, pose da câmera e trajetória geométrica, e reconstruindo o estado espacial subjacente.

Cao Yanpei afirmou categoricamente que, sem essa compreensão e capacidade de geração em 3D, "talvez nem conseguíssemos começar a fazer modelos do mundo".

Por outro lado, ao encontrar dados sintéticos, como coordenadas de objetos, relações de colisão e entradas de ação do motor de jogo, para formar uma correspondência completa entre "estado e resultado", o modelo pode aprender como o estado do mundo evoluirá após a ocorrência de uma ação.

O vídeo na internet é responsável pela generalização e abrangência, enquanto os dados do mecanismo de busca são responsáveis ​​pela precisão e controle; nenhum dos dois funciona sem o outro.

Este pode ser o futuro do mundo da IA.

Quando o estado do mundo se torna um sistema persistente e independente, essas diferenças arquitetônicas se refletem diretamente no nível de capacidades.

A mudança mais óbvia é a persistência do ambiente. Quando um usuário entra em uma cena no Project Eden, seja avançando ou realizando outras ações, ele o faz dentro da cena existente. O estado subjacente permanece inalterado e nunca desaparece, eliminando a necessidade de reconstruí-lo a partir de quadros anteriores.

Isso pode parecer trivial, mas representa um obstáculo significativo no processo de geração de vídeo, que continua difícil de superar.

O mesmo princípio se aplica a múltiplos jogadores compartilhando o mesmo mundo. Quando dois jogadores entram no mesmo estado subjacente, se o jogador A empurrar uma caixa para um ponto designado, o jogador B também verá a mesma posição da caixa. Nessa arquitetura desacoplada, múltiplos jogadores compartilham a mesma base do mundo, existe apenas um conjunto de estados e cada jogador renderiza sua própria versão.

Com base em algumas demonstrações, o VAST implementou com sucesso cenários em que dois jogadores trabalham juntos para empurrar caixas e dois carros correm na mesma pista (em telas diferentes). Isso é praticamente impossível de fazer em uma estrutura puramente de vídeo; exigiria um único estado global.

O exemplo do tiro ao alvo ilustra esse ponto ainda melhor. Quando um jogador dispara uma pistola de água, o sistema consegue determinar com precisão a orientação atual e a posição relativa do alvo, calcular corretamente se o alvo foi atingido, registrar a pontuação e esse resultado fica armazenado permanentemente no estado do sistema.

O mesmo evento, quando fornecido a geradores de vídeo, pode produzir um vídeo de "jato de água atingindo um alvo", mas não consegue salvar o resultado de forma confiável.

Os modelos de geração de vídeo se destacam na semelhança, não na precisão. Os modelos do mundo real, por outro lado, exigem esta última. Cao Yanpei afirmou que , se um modelo não consegue fazer previsões e deduções precisas sobre ações, "é difícil chamá-lo de modelo do mundo real".

Há também a generalização dos tipos de ação. No passado, a maioria dos modelos de mundo só suportava algumas ações, basicamente para cima, para baixo, para a esquerda, para a direita, além de pular, o que podia ser feito com as teclas direcionais.

A demonstração do Projeto Eden também inclui ações como pastorear ovelhas, apagar incêndios e remar barcos. Isso se deve à vantagem de eficiência de treinamento proporcionada pela arquitetura desacoplada. A inferência de estado só precisa aprender "dada esta ação, qual é o próximo estado", sem ter que aprender "como este processo se parece" ao mesmo tempo, o que é muito menos trabalhoso do que aprender tudo de uma vez.

Quando essas funcionalidades são reunidas, a sensação é de um mundo verdadeiramente funcional, em vez de apenas um vídeo dinâmico em alta definição.

A arquitetura do Éden oferece novas possibilidades para modelos mundiais.

Embora o Projeto Eden seja apenas uma prévia de uma pesquisa sobre um modelo mundial proposto pela equipe VAST, as escolhas arquitetônicas por trás dele fornecem à indústria uma direção que vale a pena explorar a longo prazo.

Hoje em dia, todos falam sobre o termo "modelo mundial", mas nem todos se referem à mesma coisa. Quem consegue garantir persistência, quem consegue suportar múltiplos usuários e quem consegue escalar de forma eficiente — além de fatores como poder computacional e financiamento, o próprio caminho escolhido também influencia na seleção dos participantes.

Um modelo de mundo baseado exclusivamente em vídeo poderia consumir centenas de vezes o poder computacional necessário para gerar um vídeo do Sora e, assim como o próprio Sora, talvez não seja um caminho comercialmente viável.

No entanto, se a manutenção do estado for feita na nuvem e a renderização da imagem for feita no dispositivo, assim como a renderização gráfica local, os usuários não precisarão pagar por cada quadro, e as coisas serão diferentes.

A VAST mencionou que sua tecnologia de geração 3D existente é precisamente a principal fonte de dados para o treinamento de modelos do mundo real. Eles usam seus recursos de modelagem 3D fundamental para realizar engenharia reversa de grandes quantidades de vídeos da internet, extraindo profundidade e trajetórias geométricas, transformando vídeos comuns em dados de treinamento com anotações de estado.

À medida que o Projeto Eden avança e as questões de concorrência multiusuário são resolvidas no nível de engenharia, ele também pode impactar ferramentas DCC tradicionais existentes, como o Blender, e engines de jogos como a Unreal Engine e a Unity.

O modelo mundial não será mais cobrado por geração, mas será usado como infraestrutura na distribuição e execução de conteúdo, semelhante ao modelo de licenças de motores de jogos ou provedores de serviços em nuvem.

Por um lado, trata-se de uma plataforma sandbox nativa de IA, onde os usuários podem criar mundos digitais interativos com lógica física, que podem ser compartilhados por várias pessoas com apenas um clique, usando linguagem natural ou ações simples, reduzindo consideravelmente a barreira de entrada para a criação de conteúdo.

O objetivo do VAST é reduzir a barreira de entrada para a criação de mundos virtuais ao nível de tirar uma fotografia. Semelhante às plataformas de conteúdo interativo gerado pelo usuário, os mundos criados poderiam entrar em nossas vidas como vídeos curtos, tornando-se um novo ecossistema de entretenimento interativo.

Por outro lado, para a pesquisa científica e a indústria, pode fornecer um ambiente de simulação com regras físicas completas, consistência temporal a longo prazo e intervenção livre, podendo tornar-se uma base de simulação de alta qualidade adaptada ao treinamento de inteligência incorporada e à avaliação de desempenho.

O modelo mundial está, portanto, cada vez mais próximo de uma base verdadeiramente sustentável para o mundo.

Cao Yanpei dividiu internamente o roteiro em três marcos:

O primeiro passo é verificar se a simulação de estado e a apresentação visual podem ser perfeitamente desacopladas. A demonstração lançada pelo Projeto Eden é a resposta a essa questão.

O segundo passo é superar a generalização da previsão de estado, para que o modelo possa deduzir resultados autoconsistentes para ações generalizadas, como "quebrar uma parede com um estalar de dedos".

O terceiro passo envolve enfrentar os complexos desafios de engenharia relacionados à concorrência multiusuário e aos custos de inferência. Ele prevê que a verdadeira comercialização será um processo de médio a longo prazo.

Assim como antes se debatia se as imagens/vídeos gerados por IA eram realistas, agora a IA consegue produzir pôsteres e vídeos promocionais de uma só vez. O modelo mundial provavelmente está seguindo o mesmo caminho, passando da questão de qual imagem é mais realista para a questão de qual mundo consegue operar continuamente, suportar interações entre várias pessoas de forma mais estável e acumular cada vez mais conteúdo criado pelos usuários.

Desde a previsão dos pixels do próximo quadro até a extrapolação do próximo estado, o objetivo final do modelo do mundo começa a ficar claro.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.