Atualização do modelo mundial de Fei-Fei Li: gere mundos 3D em tempo real, apenas com uma GPU

Enquanto Ultraman, da OpenAI, ainda comprava placas gráficas e poder de computação em todos os lugares para dar suporte ao seu modelo de geração de vídeo Sora 2.

O laboratório de Fei-Fei Li, The World Labs, consegue rodar um mundo inteiro em uma única placa de vídeo. Hoje, eles lançaram uma nova tecnologia chamada RTFM (Real-Time Frame Model), um modelo de geração de mundos em tempo real completamente novo.

Diferentemente do Marble, o mundo gerado por imagens lançado em meados de setembro, o RTFM não apenas usa uma única foto para gerar um mundo 3D que podemos explorar e percorrer livremente, mas, o mais importante, ele foi projetado para rodar eficientemente em uma única GPU H100 e gerá-lo em tempo real.

Atualmente, o RTFM foi lançado oficialmente como uma versão de pré-visualização de pesquisa, e uma demonstração é fornecida para você experimentar.

▲ Link de demonstração RTFM: https://rtfm.worldlabs.ai/

Descobri inesperadamente que o nome desta demo é FRAMEBOY. Combinado com o layout da página, rapidamente me lembrei do antigo console Game Boy.

Um mundo como esse, com iluminação, reflexos e sombras realistas, tudo acontecendo em tempo real diante dos nossos olhos, é, de certa forma, apenas outra maneira de jogar.

Mais do que geração, mais sobre interação em tempo real

A principal capacidade do RTFM é gerar vídeos interativos em tempo real. Ele pode começar com uma imagem estática e renderizar uma cena 3D livremente explorável.

Ao contrário de muitos modelos do mundo, o RTFM é capaz de aprender e renderizar efeitos visuais extremamente complexos e realistas. Sejam reflexos em pisos de mármore liso, sombras projetadas por objetos ao sol ou vistas através de vidro, o RTFM simula tudo com precisão.

O RTFM não depende da programação gráfica tradicional, mas permite que o modelo evolua continuamente por meio do aprendizado de ponta a ponta de dados de vídeo massivos.

A base dessa capacidade são três princípios fundamentais em torno dos quais o RTFM foi projetado.

Eficiência: Se quisermos aproximar o futuro do presente, os requisitos computacionais do modelo mundial são o maior obstáculo.

Seja um vídeo gerado por IA, como o Sora, ou o Genie 3 do Google, que ainda não foi lançado oficialmente, ambos representam enormes desafios computacionais. Pesquisas relacionadas observaram que, para gerar um fluxo de vídeo interativo 4K a 60 fps em tempo real, o modelo de IA precisa processar um número de tokens por segundo aproximadamente equivalente ao conteúdo de texto de um livro de Harry Potter.

Se quisermos manter a persistência desse conteúdo gerado durante uma interação com duração superior a uma hora, o contexto necessário para o processamento excederá 100 milhões de tokens. Isso não é prático nem acessível para a infraestrutura de computação atual.

O objetivo da equipe de Fei-Fei Li é “executar os modelos de amanhã no hardware de hoje e fornecer a visualização da mais alta fidelidade”.

Por meio da otimização extrema da arquitetura, da destilação do modelo e do processo de inferência, bem como de um redesenho de todo o sistema, eles alcançaram com sucesso o RTFM, usando apenas uma única GPU H100 para realizar inferência em taxas de quadros interativas e gerar resultados em tempo real.

Escalabilidade: de modelos de vídeo a modelos mundiais.

Os mecanismos 3D tradicionais utilizam estruturas explícitas, como malhas triangulares, nuvens de pontos gaussianas e renderização de voxels, baseando-se inteiramente em conhecimentos complexos de computação gráfica. Cada objeto precisa ser modelado, texturizado, iluminado e sombreado. Essa abordagem é semelhante ao mundo 3D Hunyuan que apresentamos anteriormente, com foco na geração de um pipeline 3D completo.


Método 3D tradicional (esquerda) e método RTFM (direita)

Ao contrário do Hunyuan, o World Lab adota uma abordagem diferente. O RTFM não cria modelos 3D explícitos. Em vez disso, utiliza um transformador de difusão autorregressivo semelhante ao Sora para aprender padrões do mundo diretamente a partir de sequências de quadros de vídeo.

Por exemplo, o modelo não precisa mais saber "isto é uma parede" ou "aquilo é uma luminária". Ele só aprende o que é "senso espacial" por meio de milhares de vídeos e aprende a prever a próxima nova perspectiva a partir da sequência de imagens 2D de entrada.

Diferentemente da rota de geração de ativos 3D, o RTFM pode utilizar melhor os dados e o poder de computação em constante crescimento, alcançando assim escalabilidade ilimitada.

Persistência , que mantém o modelo do mundo consistente como uma nano banana.

A maioria dos modelos de geração de vídeo tem uma falha inerente: falta memória. Embora o Sora consiga gerar 25 segundos de imagens impressionantes de uma só vez, o mundo acaba quando o vídeo é gerado, e ele não consegue proporcionar interação contínua.

Entretanto, se quisermos lembrar de todos os cenários, a carga computacional inevitavelmente se acumulará infinitamente à medida que a exploração se aprofunda.

O RTFM tenta garantir a persistência do mundo gerado. Ele introduz um mecanismo chamado "memória espacial", que atribui uma "pose" (posição e orientação) precisa no espaço 3D a cada quadro gerado.

Ao gerar novas imagens, o modelo usa uma técnica chamada "malabarismo de contexto", que usa apenas quadros próximos à nova imagem como referências, em vez do contexto global.

Isso habilita o RTFM, permitindo-nos entrar no mundo repetidamente, sair dele e retornar a ele sem aumentar a carga computacional.

Atualmente, a demonstração do RTFM dura apenas três minutos, após os quais perde a memória do mundo. Passei um bom tempo arrastando os joysticks esquerdo e direito na demonstração, e isso me lembrou da declaração de Fei-Fei Li de que a inteligência espacial deveria ser o próximo passo na IA.

Será que no futuro realmente haverá uma chance de criar uma conexão clara entre o mundo real e o virtual, como em Jogador Nº 1? Olhando apenas para o modelo de mundo atual, ainda há muito conteúdo para carregar.

Afinal, mesmo uma única GPU H100 custa mais de US$ 25.000. Mas, à medida que o preço do poder de computação cai e os algoritmos se tornam mais rápidos, podemos ver uma "atualização" verdadeiramente significativa no modelo mundial, um dia em que a realidade será totalmente gerada.

#Bem-vindo a seguir a conta pública oficial do WeChat do iFaner: iFaner (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo