O mais recente artigo extenso de Li Feifei viralizou, argumentando que o que a IA mais precisa na próxima década não são modelos de grande escala.

Quando o ChatGPT surpreendeu o mundo, pensamos que a IA era inteligente o suficiente. Mas ela ainda não consegue fazer uma coisa: determinar com precisão quantos centímetros faltam entre a borda da xícara de café e a beirada da mesa quando você estende a mão para pegá-la.
Hoje, a renomada especialista em IA, Fei-Fei Li, respondeu a essa pergunta em uma postagem de blog: A verdadeira inteligência não é apenas um jogo de palavras, mas reside em uma capacidade que usamos todos os dias sem nem mesmo perceber:
Inteligência espacial.

Trata-se de um tipo de inteligência mais antiga que a linguagem. Os momentos que transformaram a civilização humana jamais se basearam na linguagem, mas sim na percepção, na imaginação e no raciocínio espacial.
Por exemplo, os estudiosos da Grécia Antiga calculavam a circunferência da Terra observando as sombras, os cientistas manipulavam fios de metal para criar a estrutura de dupla hélice do DNA e os bombeiros previam intuitivamente se um prédio desabaria na fumaça.
Agora, a IA está prestes a adquirir essa capacidade que lhe faltava.

A versão que economiza dados é a seguinte:
1. Embora a IA atual (especialmente grandes modelos de linguagem como o LLM) tenha transformado a maneira como usamos o conhecimento abstrato e possua fortes capacidades linguísticas, ela carece de experiência no mundo real e de compreensão do mundo físico. Permanece fundamentalmente limitada em áreas como robótica, descobertas científicas e criatividade imersiva. A inteligência espacial é a próxima fronteira da IA. Ela mudará fundamentalmente a maneira como criamos e vivenciamos os mundos real e virtual, e desencadeará transformações em campos como robótica, descobertas científicas e criatividade.
A inteligência espacial é a pedra angular da inteligência humana, sendo anterior até mesmo à linguagem. Ela não só sustenta nossas interações diárias com o mundo físico (como dirigir e pegar chaves), mas também é fundamental para a imaginação, a criatividade e as descobertas científicas humanas (como a medição da circunferência da Terra pelos antigos gregos e a descoberta da estrutura de dupla hélice do DNA). É o "andaime" sobre o qual a cognição humana é construída.
2. Apesar dos avanços em modelos multimodais (MLLM), a IA ainda está muito atrás dos humanos em capacidades espaciais. Ela não consegue estimar distâncias e direções com precisão, não consegue "rotacionar" objetos mentalmente e não consegue prever leis físicas fundamentais. Sem essas habilidades, a IA não consegue se conectar verdadeiramente com a realidade física. Para alcançar a inteligência espacial, precisamos ir além dos modelos de lógica linear (LLM) e construir "modelos do mundo" mais ambiciosos. Trata-se de um modelo generativo completamente novo, com capacidades que superam em muito as dos LLMs atuais. Fei-Fei Li e a World Labs estão trabalhando nisso.
3. Fei-Fei Li definiu três capacidades que um modelo mundial deve possuir:
- Generativo: A capacidade de gerar um mundo que mantenha a consistência na percepção, geometria e leis físicas.
- Multimodal: É inerentemente projetado para ser multimodal, capaz de processar e gerar múltiplas formas de informação (como imagens, vídeos, mapas de profundidade, texto e movimento).
- Interativo: A capacidade de prever ou exibir o "próximo estado" do mundo com base na "ação" de entrada e, em última instância, possivelmente prever a "próxima ação a ser tomada".
4. Fei-Fei Li acredita que construir um modelo do mundo é muito mais difícil do que construir um modelo da linguagem, porque as dimensões do mundo excedem em muito as da linguagem. Isso exige a superação de três grandes desafios:
- A nova tarefa de treinamento exige encontrar uma função de tarefa geral e elegante, semelhante à "previsão da próxima palavra" em LLM, mas é mais difícil.
- Dados em larga escala: Requerem a capacidade de extrair informações espaciais detalhadas de grandes quantidades de imagens e vídeos da internet, complementadas por dados sintéticos e dados multimodais.
- Nova arquitetura de modelo: É necessário ir além do paradigma atual de sequência 1D/2D e desenvolver uma nova arquitetura com capacidades de percepção 3D ou 4D (como o modelo RTFM da World Labs).
5. A IA deve aprimorar as capacidades humanas, não substituí-las. A IA deve sempre respeitar a autonomia e a dignidade humanas. A inteligência espacial incorpora essa visão, visando potencializar a criatividade humana, a compaixão e a descoberta científica.
6. A aplicação da inteligência espacial será implementada em etapas:
- Novidades (Criatividade): Impulsionando a narrativa, o cinema, os jogos e o design arquitetônico. A World Labs lançou a plataforma Marble para ajudar criadores a construir mundos em 3D.
- Objetivo intermediário (Robótica): Alcançar a "inteligência incorporada em ação". O modelo do mundo será treinado por meio de simulações para permitir que os robôs se tornem assistentes colaborativos para humanos.
- A longo prazo (Ciência, Medicina e Educação): Impactos transformadores em áreas como desenvolvimento de medicamentos, ciência dos materiais, auxílios de diagnóstico, conscientização e monitoramento ambiental e educação imersiva.
7. Explorar a inteligência espacial é a "Estrela Guia" da carreira científica de Fei-Fei Li. Sem inteligência espacial, o sonho de "máquinas verdadeiramente inteligentes" não pode ser realizado. Ela convoca todo o ecossistema de IA a trabalhar em conjunto para usar essa tecnologia em benefício do mundo.
Da linguagem ao mundo: Inteligência espacial – A próxima fronteira da inteligência artificial.
Em 1950, quando os computadores ainda eram meras ferramentas para automatizar cálculos e lógica simples, Alan Turing levantou uma questão que ainda ressoa hoje: as máquinas podem pensar? Com extraordinária imaginação, ele vislumbrou uma possibilidade ousada: a de que a inteligência pudesse um dia não ser inata, mas sim "criada". Essa percepção mais tarde impulsionou uma incessante exploração científica conhecida como "inteligência artificial (IA)".
Em meus 25 anos de pesquisa em inteligência artificial, a visão de Turing continua a me inspirar. Mas quão longe estamos desse objetivo? Essa não é uma pergunta fácil de responder.
Hoje, as principais tecnologias de inteligência artificial — como os Modelos de Linguagem de Grande Porte (LLMs) — estão começando a transformar a maneira como adquirimos e usamos o conhecimento abstrato. No entanto, elas ainda se assemelham a artesãos aprimorando palavras no escuro: a linguagem é bela, mas carece de experiência; o conhecimento é abundante, mas não está verdadeiramente ancorado na realidade. A Inteligência Espacial irá redefinir a forma como criamos e vivenciamos os mundos real e virtual — ela revolucionará a narrativa, a criatividade, a robótica, a descoberta científica e muitos outros campos. Esta é a próxima fronteira da inteligência artificial.
Desde que entrei neste campo, a busca pela inteligência visual e espacial tem sido meu norte. Por isso, passei anos criando o ImageNet — o primeiro conjunto de dados de aprendizado e avaliação visual em larga escala, que, juntamente com algoritmos de redes neurais e computação moderna (como GPUs), tornou-se um dos três pilares fundamentais da inteligência artificial moderna. Na última década, meu laboratório na Universidade Stanford tem se dedicado a combinar visão computacional com aprendizado de robôs. E foi essa crença que me levou, juntamente com os cofundadores Justin Johnson, Christoph Lassner e Ben Mildenhall, a fundar a World Labs há pouco mais de um ano — na esperança de, pela primeira vez, concretizar essa visão.
Neste artigo, explicarei o que é inteligência espacial, por que ela é importante e como podemos construir um "modelo mundial" capaz de desbloquear essa inteligência — uma capacidade que irá remodelar a criatividade, a inteligência corporificada e o progresso humano.
Inteligência espacial: um arcabouço para a cognição humana
A inteligência artificial está vivenciando um momento incrivelmente empolgante. Modelos generativos de IA (como os grandes modelos de linguagem, LLMs) saíram dos laboratórios de pesquisa e entraram no cotidiano, tornando-se ferramentas utilizadas por bilhões de pessoas para criação, trabalho e comunicação. Eles demonstraram capacidades antes consideradas impossíveis — gerando com facilidade textos coerentes, grandes quantidades de código, imagens realistas e até mesmo pequenos vídeos. Hoje, não precisamos mais perguntar "A IA vai mudar o mundo?", porque, de qualquer perspectiva, ela já está mudando o mundo.
No entanto, muitos objetivos permanecem por alcançar. A visão de robôs autônomos continua fascinante, mas permanece especulativa, distante dos cenários cotidianos imaginados pelos futuristas. O sonho de que a IA impulsione rapidamente a pesquisa em áreas como cura de doenças, descoberta de novos materiais e física de partículas também não se concretizou em grande parte. E a IA que realmente compreenda e capacite os criadores humanos — seja um estudante aprendendo conceitos complexos de química molecular, um arquiteto concebendo um espaço, um cineasta construindo um mundo ou qualquer pessoa buscando experiências virtuais imersivas — ainda não chegou.
Para entender por que essas capacidades continuam difíceis de alcançar, precisamos traçar a evolução da inteligência espacial e explorar como ela moldou nossa compreensão do mundo.
A visão tem sido, há muito tempo, um pilar da inteligência humana, mas seu poder deriva de um mecanismo mais fundamental. Antes que os animais pudessem construir ninhos, criar filhotes, comunicar-se por meio da linguagem ou estabelecer civilizações, a capacidade mais primitiva de percepção — mesmo algo tão simples quanto captar um raio de luz ou um toque — silenciosamente impulsionou o caminho evolutivo rumo à inteligência.
Essa capacidade aparentemente isolada de extrair informações do mundo externo constrói uma ponte entre a percepção e a sobrevivência, uma ponte que é constantemente fortalecida e expandida a cada geração. Camadas de neurônios crescem sobre essa ponte, formando um sistema nervoso que interpreta o mundo e coordena a interação entre o organismo e seu ambiente. Portanto, muitos cientistas especulam que esse ciclo de "percepção-ação" seja a principal força motriz da evolução inteligente e a base fundamental para a natureza nos criar — uma espécie capaz de perceber, aprender, pensar e agir.

A inteligência espacial desempenha um papel crucial em nossas interações com o mundo físico. Diariamente, dependemos dela para realizar tarefas aparentemente banais: estimar nossa localização imaginando a distância gradualmente decrescente entre a frente do carro e o meio-fio ao estacionar; pegar chaves arremessadas do outro lado da sala; atravessar calçadas lotadas sem esbarrar em ninguém; ou servir café em uma xícara sem olhar, mesmo meio adormecido.
Em cenários mais extremos, bombeiros navegam por prédios desabados, avaliando intuitivamente a estabilidade estrutural e as estratégias de sobrevivência em meio à fumaça, comunicando-se por meio de gestos, linguagem corporal e um inefável instinto profissional. Enquanto isso, crianças, meses ou até anos antes de aprenderem a falar, descobrem o mundo através de interações lúdicas com o ambiente ao seu redor. Tudo isso acontece de forma natural e sem esforço — uma espécie de "fluência instintiva" que as máquinas ainda não conseguiram dominar.
A inteligência espacial também é a base da nossa imaginação e criatividade. Os contadores de histórias constroem mundos ricos em suas mentes e os transmitem aos outros por meio de diversas mídias visuais — desde pinturas rupestres antigas até filmes modernos e videogames imersivos. Seja construindo castelos na praia ou jogando Minecraft no computador, a imaginação espacial está no cerne de suas experiências interativas no mundo real ou virtual.
Em muitos setores, a simulação de objetos, cenas e ambientes interativos dinâmicos tornou-se um suporte fundamental – do design industrial aos gêmeos digitais, do treinamento de robôs a diversas aplicações comerciais, a inteligência espacial impulsiona inúmeros cenários práticos importantes.
Ao longo da história, a inteligência espacial desempenhou um papel central em muitos momentos cruciais que moldaram o curso da civilização.
Na Grécia Antiga, Eratóstenes deduziu princípios geométricos observando as "sombras" — ele mediu o ângulo de 7 graus formado pela luz solar e o solo em Alexandria e percebeu, ao mesmo tempo, que a cidade de Cines não projetava sombra, calculando assim a circunferência da Terra.

A invenção da "Spinning Jenny" por Hargreave revolucionou a indústria têxtil através de um engenhoso projeto espacial: ele instalou vários fusos lado a lado na mesma estrutura, permitindo que um trabalhador fiasse vários fios simultaneamente, aumentando assim a eficiência da produção em oito vezes.
Watson e Crick, por outro lado, construíram modelos moleculares tridimensionais manualmente, manipulando placas e fios de metal para finalmente montar a estrutura espacial do DNA, fazendo com que os pares de bases se encaixassem perfeitamente.
Nesses casos, a inteligência espacial é uma força fundamental que impulsiona a civilização humana — cientistas e inventores precisam manipular objetos, imaginar estruturas e raciocinar no espaço físico, processos que não podem ser totalmente expressos em palavras.
A inteligência espacial serve como a "estrutura" sobre a qual a cognição humana é construída. Ela desempenha um papel tanto na observação passiva quanto na criação ativa. Impulsiona nosso raciocínio e planejamento, mesmo diante dos problemas mais abstratos. Também determina como interagimos com o mundo — seja por meio da comunicação verbal ou da ação física, e se interagimos com os outros ou com o próprio ambiente.
Embora a maioria de nós não desvende os mistérios da natureza todos os dias como Eratóstenes, ainda pensamos da mesma maneira — compreendendo o mundo complexo através dos nossos sentidos e captando intuitivamente as suas leis físicas e espaciais.
Infelizmente, a inteligência artificial atual ainda não é capaz de pensar dessa forma.
A inteligência artificial realmente fez progressos tremendos nos últimos anos. Os grandes modelos de linguagem multimodais (MLLMs), treinados com quantidades massivas de dados multimídia (incluindo imagens, áudio e vídeo, além de texto), começaram a possuir um certo grau de "consciência espacial". A IA atual consegue analisar imagens, responder a perguntas relacionadas a imagens e gerar imagens e vídeos curtos extremamente realistas. Ao mesmo tempo, graças aos avanços em sensores e tecnologias táteis, robôs de última geração estão começando a ser capazes de manipular objetos e ferramentas em ambientes altamente restritos.
Sinceramente, as capacidades espaciais da IA ainda estão muito aquém do nível humano, e essa lacuna é imediatamente perceptível. Os modelos MLLM mais avançados disponíveis atualmente geralmente têm um desempenho pouco melhor do que palpites aleatórios na estimativa de distância, direção e tamanho — eles também não conseguem "rotacionar" objetos mentalmente como os humanos, nem reimaginar suas formas a partir de diferentes ângulos. Não conseguem navegar em labirintos, identificar atalhos ou prever as leis mais básicas da física. Embora os vídeos gerados por IA sejam impressionantes, muitas vezes perdem a coerência após alguns segundos.
Embora a inteligência artificial de ponta se destaque em tarefas como leitura, escrita, pesquisa e reconhecimento de padrões em dados, ela sofre de limitações fundamentais quando se trata de compreender ou interagir com o mundo físico. Nossa percepção do mundo é holística — vemos não apenas as "coisas em si", mas também compreendemos suas relações espaciais, significados e importância. O poder da inteligência espacial reside na compreensão do mundo por meio da imaginação, do raciocínio, da criação e da interação — e não meramente por meio da linguagem.
Sem essa capacidade, a IA não consegue se conectar verdadeiramente com a realidade física que deseja compreender. Ela não pode dirigir carros com segurança e eficiência, guiar robôs com flexibilidade em residências ou hospitais, proporcionar experiências interativas imersivas totalmente novas para aprendizado e entretenimento, ou acelerar significativamente descobertas na ciência dos materiais ou na medicina.

Como escreveu o filósofo Ludwig Wittgenstein: "Os limites da minha linguagem significam os limites do meu mundo."
Não sou filósofo, mas sei que, para a inteligência artificial, o mundo é mais do que apenas "linguagem". A inteligência espacial representa uma fronteira além da linguagem — é a capacidade de conectar imaginação, percepção e ação, permitindo que as máquinas expandam verdadeiramente o potencial da vida humana, da medicina à criatividade, da descoberta científica à assistência cotidiana, abrindo assim novas possibilidades.
A próxima década da inteligência artificial: construir máquinas com verdadeira inteligência espacial.
Então, como construímos IA com inteligência espacial? Como podemos capacitar os modelos a realizar raciocínio espacial como Eratóstenes, criar com a precisão de um designer industrial, ser tão imaginativos quanto um contador de histórias e se mover com flexibilidade em ambientes complexos como um socorrista?
Para alcançar esse objetivo, precisamos de mais do que apenas grandes modelos de linguagem (LLMs); precisamos de um sistema mais ambicioso: modelos de mundo. Trata-se de uma classe completamente nova de modelos generativos capazes de compreender, raciocinar, gerar e interagir em mundos semanticamente, fisicamente, geometricamente e dinamicamente complexos — sejam eles virtuais ou reais — superando em muito as capacidades dos LLMs atuais.
Este campo de pesquisa ainda está em seus primórdios, com explorações atuais que variam de modelos de raciocínio abstrato a sistemas de geração de vídeo. A World Labs foi fundada no início de 2024 com essa convicção: acreditamos que os métodos fundamentais ainda não foram estabelecidos, e esse é justamente o desafio decisivo para o desenvolvimento da inteligência artificial na próxima década.
Neste campo emergente, o mais importante é estabelecer um conjunto de princípios fundamentais para orientar o desenvolvimento. Para a inteligência espacial, defino um "modelo de mundo" como um sistema que possui as seguintes três capacidades principais:
1. Generativo: O modelo do mundo pode gerar um mundo com consistência perceptual, geométrica e física.
Para alcançar a compreensão e o raciocínio espacial, os modelos do mundo devem ter a capacidade de gerar seus próprios "mundos simulados". Devem ser capazes de gerar uma variedade infinita de mundos virtuais com base em instruções semânticas ou perceptivas — esses mundos devem manter a consistência em termos de estrutura geométrica, leis físicas e mudanças dinâmicas, independentemente de representarem um espaço real ou virtual.
A comunidade científica está explorando ativamente se esses mundos devem ser representados implícita ou explicitamente, utilizando suas estruturas geométricas inerentes. Além disso, acredito que um modelo de mundo de propósito geral, além de possuir fortes capacidades de representação latente, também deve ser capaz de gerar estados do mundo claramente observáveis para se adaptar a diversos cenários de aplicação. Fundamentalmente, a compreensão do modelo sobre o "mundo presente" deve ser coerente com o estado do "mundo passado" — ele deve ser capaz de entender como o mundo evoluiu do passado para o presente.
2. Multimodalidade: O modelo mundial foi concebido para ser multimodal.
Assim como humanos e animais, os modelos do mundo devem ser capazes de lidar com múltiplas formas de entrada — no campo da IA generativa, essas entradas são chamadas de "sugestões". Diante de informações incompletas (como imagens, vídeos, mapas de profundidade, comandos de texto, gestos ou ações), os modelos do mundo devem ser capazes de prever ou gerar o estado do mundo mais completo possível.
Isso exige que o sistema tenha precisão visual quase realista ao processar informações visuais, mantendo-se igualmente flexível na compreensão de instruções semânticas. Dessa forma, tanto agentes quanto humanos podem se comunicar com o modelo por meio de diversas entradas e receber feedbacks de saída igualmente diversos.
3. Interativo: O modelo do mundo pode gerar o próximo estado do mundo com base na ação de entrada.
Finalmente, quando uma "ação" ou "objetivo" é usado como parte do comando de entrada, a saída do modelo do mundo deve incluir o próximo estado do mundo, que pode ser implícito ou explícito.
Quando um modelo recebe uma ação (independentemente de conter ou não um estado alvo) como entrada, ele deve ser capaz de produzir um resultado consistente com o estado anterior do mundo, o estado alvo (se houver), o significado semântico, as leis físicas e o comportamento dinâmico.
À medida que os modelos espaciais inteligentes do mundo continuam a aprimorar suas capacidades de raciocínio e geração de informações, é concebível que, no futuro, ao se deparar com um objetivo específico, o modelo do mundo não apenas seja capaz de prever o próximo estado do mundo, mas também de prever "a próxima ação a ser tomada" com base nesse novo estado.
A dimensão desse desafio supera em muito qualquer coisa que a inteligência artificial já tenha enfrentado.
A linguagem é um fenômeno puramente generativo na cognição humana; no entanto, o "mundo" segue leis muito mais complexas. Tomemos a Terra como exemplo: a gravidade determina suas leis de movimento, a estrutura atômica influencia a cor e o brilho da luz, e inúmeras leis físicas restringem cada interação. Mesmo o mundo ficcional mais imaginativo ainda é composto de objetos espaciais e agentes inteligentes que obedecem a essas leis físicas e comportamentos dinâmicos. Manter a consistência entre as dimensões semântica, geométrica, dinâmica e física dentro do mesmo modelo exige métodos e abordagens inteiramente novos.
A representação do mundo é muito mais complexa do que a da linguagem, um "sinal unidimensional e sequencial". Para dotar os modelos do mundo com as capacidades universais que os humanos possuem, precisamos superar diversos obstáculos tecnológicos formidáveis. No World Labs, nossa equipe de pesquisa trabalha para lançar as bases para avanços fundamentais na conquista desse objetivo.
Aqui estão alguns exemplos de tópicos que estamos pesquisando atualmente:
Uma nova função de tarefa de treinamento geral — definindo uma função de tarefa universal para modelos do mundo que seja tão simples e elegante quanto a "previsão da próxima palavra" em grandes modelos de linguagem (LLMs) — tem sido um objetivo central na área há muito tempo. No entanto, devido à maior complexidade dos espaços de entrada e saída dos modelos do mundo, projetar tal função é muito mais desafiador. Embora muitas incógnitas ainda precisem ser exploradas, essa função objetivo e sua representação correspondente devem ser capazes de refletir leis geométricas e físicas, refletindo fielmente a essência do modelo do mundo como uma "representação enraizada que conecta imaginação e realidade".
Treinar modelos de reconhecimento de mundo com quantidades massivas de dados exige uma complexidade de dados muito maior do que a de dados textuais. A boa notícia é que já existem vastas fontes de dados. Recursos de imagens e vídeos em escala de internet fornecem materiais abundantes e prontamente disponíveis para treinamento. O verdadeiro desafio reside no desenvolvimento de algoritmos para extrair informações espaciais mais profundas desses dados com base em imagens bidimensionais ou quadros de vídeo (ou seja, sinais RGB). Pesquisas da última década mostraram que as melhorias de desempenho em modelos de linguagem seguem uma "lei de expansão do volume de dados e do tamanho do modelo"; enquanto, para modelos de reconhecimento de mundo, o principal avanço está na construção de arquiteturas de modelos que possam utilizar plenamente dados visuais em escala semelhante.
Além disso, não devemos subestimar o valor de dados sintéticos de alta qualidade e modalidades adicionais, como mapas de profundidade e feedback háptico. Estes podem complementar dados em escala de internet em estágios cruciais do processo de treinamento. Tornar esse processo mais eficiente também depende de sistemas de sensoriamento mais avançados, algoritmos de extração de sinal mais robustos e técnicas de simulação neural mais poderosas.
A pesquisa sobre novas arquiteturas de modelos e modelos de aprendizado de representação do mundo real impulsionará inevitavelmente a inovação em arquiteturas de modelos e algoritmos de aprendizado, especialmente além dos paradigmas atuais de modelos de linguagem multimodal (MLLM) e modelos de difusão de vídeo. Os métodos existentes normalmente "segmentam" os dados em sequências unidimensionais ou bidimensionais, tornando algumas tarefas espaciais simples excepcionalmente difíceis — como contar cadeiras diferentes em um vídeo curto ou recordar a disposição de uma sala uma hora atrás.
Novas arquiteturas podem trazer melhorias, como a introdução de capacidades de percepção 3D ou 4D em mecanismos de segmentação de palavras, contexto e memória. Por exemplo, o Modelo de Quadros Generativos em Tempo Real (RTFM, na sigla em inglês), desenvolvido recentemente pela World Labs, exemplifica essa mudança. Esse modelo utiliza "quadros baseados no espaço" como unidades de memória espacial para alcançar uma geração eficiente em tempo real, mantendo a continuidade e a estabilidade no mundo gerado.
Claramente, ainda temos muitos desafios formidáveis a superar antes de podermos liberar totalmente o potencial da inteligência espacial por meio da "modelagem do mundo".
Esta pesquisa é mais do que mera exploração teórica — é um motor fundamental que impulsiona uma nova geração de ferramentas criativas e produtivas. E na World Labs, já fizemos progressos empolgantes.
Recentemente, apresentamos o Marble a um número limitado de usuários — o primeiro modelo de mundo capaz de gerar e manter ambientes 3D consistentes por meio de comandos multimodais. Ele permite que usuários e criadores explorem e interajam nesses espaços virtuais, expandindo-os ainda mais durante o processo criativo. Estamos trabalhando arduamente para disponibilizar o Marble ao público o mais breve possível!
O mármore é apenas o primeiro passo em nossa jornada rumo a um modelo mundial verdadeiramente inteligente em termos espaciais.
Com o avanço acelerado das pesquisas, pesquisadores, engenheiros, usuários e líderes empresariais começam a reconhecer o extraordinário potencial dessa tecnologia. O modelo mundial de próxima geração permitirá que as máquinas alcancem um nível completamente novo de inteligência espacial, desbloqueando capacidades essenciais que estão em grande parte ausentes nos sistemas de IA atuais.
Construindo um mundo humano melhor usando "modelos mundiais"
A motivação para promover o desenvolvimento da IA é crucial.
Como cientista que participou da inauguração da era moderna da inteligência artificial, minha intenção original sempre foi clara: a IA deve aprimorar as capacidades humanas, não substituí-las.
Há muitos anos, dedico-me a garantir que o desenvolvimento, a aplicação e a governança da IA estejam mais alinhados com as necessidades humanas. Hoje, abundam narrativas extremas sobre utopias tecnológicas e cenários apocalípticos, mas continuo firmemente comprometido com a crença pragmática de que a IA é criada por humanos, serve aos humanos e é governada por humanos.
Deve sempre respeitar a autonomia e a dignidade humanas. A verdadeira magia da IA reside em expandir as nossas capacidades, tornando-nos mais criativos, mais conectados, mais eficientes e mais realizados.
A inteligência espacial incorpora essa visão:
Trata-se de um tipo de inteligência artificial que capacita criadores, cuidadores, cientistas e sonhadores humanos, ajudando-nos a alcançar objetivos que antes eram impossíveis.
É essa crença que sustenta minha determinação em considerar a "inteligência espacial" como o próximo grande campo de fronteira da inteligência artificial.
A aplicação da inteligência espacial será implementada em etapas.
Hoje, ferramentas criativas estão surgindo — o Marble, da World Labs, colocou essas capacidades nas mãos de criadores e contadores de histórias.
A robótica é um objetivo a médio prazo, e estamos constantemente aprimorando o ciclo "percepção-ação" para permitir que as máquinas operem de forma flexível no mundo físico.
As aplicações científicas mais transformadoras podem demorar mais, mas seu impacto será profundo o suficiente para promover uma melhoria abrangente no bem-estar humano.
Dentre esses diferentes estágios de desenvolvimento, várias áreas-chave se destacam — elas possuem um imenso potencial para redefinir as capacidades humanas.
Atingir esse objetivo exigirá inevitavelmente um esforço coletivo — não pode ser alcançado por uma única equipe ou empresa sozinha.
Isso exigirá a participação coletiva de todo o ecossistema de IA: pesquisadores, inovadores, empreendedores, empresas e até mesmo formuladores de políticas devem trabalhar juntos em prol de uma visão compartilhada.
Vale a pena lutar por essa visão.
O futuro se desenrolará a partir daqui:
Criatividade: Dando superpoderes à narrativa e às experiências imersivas.
"A criatividade é a inteligência em ação." Esta é a minha citação favorita, do meu herói pessoal — Einstein. Muito antes da linguagem escrita, os humanos já contavam histórias — desenhando nas paredes das cavernas, transmitindo-as oralmente e construindo culturas inteiras por meio de narrativas compartilhadas. As histórias nos ajudam a compreender o mundo, a conectar-nos através do tempo e do espaço e a explorar o que significa "humanidade". Mais importante ainda, elas nos ajudam a encontrar sentido na vida e no amor.
Hoje, a inteligência espacial tem o potencial de revolucionar a forma como criamos e vivenciamos histórias, não apenas preservando sua importância fundamental, mas também estendendo sua influência a múltiplos campos, como entretenimento, educação, design e arquitetura.
A plataforma Marble da World Labs oferece a cineastas, designers de jogos, arquitetos e contadores de histórias capacidades espaciais e controle editorial sem precedentes, permitindo-lhes criar e iterar rapidamente mundos 3D livremente exploráveis, sem o investimento significativo exigido por softwares tradicionais de design 3D. A criação em si permanece uma atividade humana e dinâmica; as ferramentas de IA simplesmente amplificam e aceleram o potencial do criador. Isso inclui:
- Experiências Narrativas Multidimensionais: Cineastas e designers de jogos estão usando o Marble para construir mundos virtuais completos, sem as limitações de orçamento ou localização. Eles podem explorar diversas cenas e perspectivas, algo quase impossível nos fluxos de trabalho de produção tradicionais. À medida que as fronteiras entre diferentes mídias e formas de entretenimento se tornam cada vez mais tênues, caminhamos para uma nova forma de experiência interativa que mescla arte, simulação e jogos — mundos personalizados que não pertencem mais exclusivamente a grandes estúdios, mas podem ser criados e vivenciados por qualquer pessoa. Com métodos mais rápidos para transformar ideias e storyboards em experiências completas, a narrativa não estará mais confinada a um único meio; os criadores podem construir mundos narrativos com elementos comuns em diversas plataformas e interfaces.
- Criando narrativas espaciais através do design: Quase todo objeto manufaturado ou espaço construído precisa primeiro passar por um projeto virtual em 3D antes de ganhar forma real. Esse processo costuma ser demorado, caro e altamente iterativo. No entanto, com modelos espacialmente inteligentes, arquitetos podem visualizar rapidamente estruturas antes de investir meses em projetos, e até mesmo "caminhar" por espaços que ainda não existem — contando histórias de como viveremos, trabalharemos e socializaremos no futuro. Designers industriais e de moda também podem traduzir instantaneamente sua imaginação em forma, explorando como os objetos interagem com o corpo humano e o espaço.
- Um novo patamar de experiências imersivas e interativas: A própria experiência é uma das formas mais profundas pelas quais nós, humanos, atribuímos significado às coisas. Durante a maior parte da história da humanidade, tivemos apenas um mundo tridimensional: o mundo real que compartilhamos. Somente nas últimas décadas, por meio de videogames e dos primórdios da realidade virtual (RV), começamos a vislumbrar outro mundo criado pela humanidade. Agora, a inteligência espacial, combinando realidade virtual (RV), headsets de realidade estendida (XR) e dispositivos de exibição imersiva, eleva essas experiências a patamares sem precedentes. Estamos caminhando para um futuro onde entrar em um mundo multidimensional totalmente construído será tão natural quanto virar as páginas de um livro. A inteligência espacial torna a construção de mundos não apenas uma questão para estúdios com equipes de produção profissionais, mas também para todos que têm histórias e ideias, incluindo criadores independentes, educadores e qualquer pessoa que queira expressar uma visão.
Robótica: Inteligência Incorporada em Movimento
Dos insetos aos humanos, os animais dependem da inteligência espacial para compreender, navegar e interagir com o mundo ao seu redor. Os robôs não são exceção. Máquinas com consciência espacial são um sonho antigo no campo da robótica, e meu trabalho com alunos e colaboradores em meu laboratório de pesquisa em Stanford gira em torno desse objetivo. Essa é uma das razões pelas quais estou tão entusiasmado com os modelos que estão sendo construídos pela World Labs — eles representam a promessa de tornar esse sonho realidade.
- Expandindo as Capacidades de Aprendizagem de Robôs por Meio de Modelos do Mundo Real: Os avanços na aprendizagem de robôs dependem de dados de treinamento escaláveis e de alta qualidade. Dado o vasto espaço de estados que os robôs devem aprender a compreender, raciocinar, planejar e interagir, muitos pesquisadores acreditam que robôs verdadeiramente de propósito geral devem combinar dados da internet, simulações sintéticas e dados de demonstração humana no mundo real. No entanto, diferentemente dos modelos de linguagem, a pesquisa em robótica atualmente carece de dados de treinamento suficientes. Os modelos do mundo real desempenharão um papel crucial nesse sentido. À medida que seu realismo perceptual e eficiência computacional melhoram, a saída dos modelos do mundo real pode preencher rapidamente a lacuna entre simulação e realidade. Isso facilitará o treinamento de robôs em simulações de inúmeros estados, interações e ambientes.
- Tornando-se Parceiros e Assistentes Colaborativos: Como parceiros colaborativos, os robôs podem desempenhar um papel vital no enfrentamento da escassez de mão de obra e da necessidade urgente de aumentar a produtividade, seja auxiliando cientistas em laboratórios ou ajudando idosos que vivem sozinhos em casa. No entanto, para alcançar esse objetivo, os robôs devem possuir inteligência espacial: a capacidade de perceber, raciocinar, planejar e agir e — o mais importante — manter a coerência emocional com os objetivos e comportamentos humanos. Por exemplo, robôs de laboratório podem operar instrumentos, permitindo que os cientistas se concentrem em tarefas que exigem habilidades motoras finas ou raciocínio lógico; enquanto robôs domésticos podem auxiliar idosos no preparo de refeições sem privá-los de prazer e autonomia. Um modelo de mundo verdadeiramente inteligente espacialmente, capaz de prever o próximo estado do ambiente e até mesmo antecipar ações que estejam alinhadas às expectativas humanas, é crucial para atingir esse objetivo.
- Expandindo a diversidade de formas corporificadas: Robôs humanoides são certamente adequados para o mundo que criamos para nós mesmos, mas todo o potencial da inovação tecnológica reside em uma variedade mais rica de formas de design: como nanorrobôs capazes de administrar medicamentos, robôs flexíveis que podem se mover em espaços confinados e máquinas especializadas projetadas para ambientes de águas profundas ou espaço sideral. Independentemente da forma, os futuros modelos de inteligência espacial devem integrar o ambiente do robô com suas próprias capacidades de percepção e movimento. No entanto, um dos principais desafios no desenvolvimento desses robôs é a falta de dados de treinamento aplicáveis a diversas formas corporificadas. Modelos do mundo real desempenharão um papel crucial na geração de dados de simulação, na construção de ambientes de treinamento e na avaliação comparativa de tarefas.
Uma perspectiva de longo prazo: ciência, medicina e educação.
Além de suas aplicações em criatividade e robótica, a inteligência espacial terá um impacto profundo em outros campos, particularmente onde a IA pode aprimorar as capacidades humanas, salvar vidas e acelerar descobertas. Abaixo, destacarei três áreas com potencial transformador; é claro que as aplicações da inteligência espacial vão muito além dessas, e ela desempenhará um papel significativo em muitos outros setores.
Na pesquisa científica, os sistemas de inteligência espacial podem simular experimentos, testar hipóteses em paralelo e explorar ambientes inacessíveis aos humanos — desde as profundezas do oceano até planetas distantes. Essa tecnologia revolucionará a modelagem computacional em áreas como climatologia e pesquisa de materiais. Ao combinar simulações multidimensionais com a aquisição de dados do mundo real, essas ferramentas podem reduzir a barreira computacional e expandir o escopo de observação e compreensão disponível para todos os laboratórios.
Na área da saúde, a inteligência espacial irá remodelar cada etapa, do laboratório ao leito do paciente. Em Stanford, meus alunos e parceiros têm colaborado com pacientes em hospitais, lares de idosos e em domicílio há muitos anos. Essa experiência me convenceu do imenso potencial transformador da inteligência espacial na medicina. A IA pode acelerar o desenvolvimento de medicamentos ao modelar interações multidimensionais entre moléculas; melhorar a precisão diagnóstica ao auxiliar radiologistas na identificação de padrões em imagens médicas; e viabilizar sistemas de monitoramento ecologicamente conscientes para apoiar pacientes e cuidadores sem substituir as conexões humanas cruciais no processo de saúde. Sem mencionar que os robôs também têm um papel significativo a desempenhar no auxílio a profissionais de saúde e pacientes em diversos cenários.
Na educação, a inteligência espacial possibilita a aprendizagem imersiva, tornando conceitos abstratos ou complexos concretos e tangíveis, e criando uma experiência de aprendizagem que se assemelha aos métodos de aprendizagem do cérebro e do corpo humanos, permitindo a prática repetida. Na era da IA, a aprendizagem e o treinamento de habilidades mais rápidos e eficazes são cruciais tanto para crianças em idade escolar quanto para adultos. Os alunos podem "entrar" em mecanismos celulares ou "percorrer" eventos históricos; os professores podem usar ambientes interativos para alcançar um ensino personalizado; e profissionais, de cirurgiões a engenheiros, podem praticar com segurança habilidades complexas em simulações realistas.
Embora as aplicações potenciais nessas áreas sejam praticamente ilimitadas, nosso objetivo permanece o mesmo: usar a IA para aprimorar a expertise humana, acelerar as descobertas humanas e ampliar a compaixão humana — em vez de substituir o discernimento, a criatividade e a empatia que constituem a essência da humanidade.
Conclusão
Na última década, a inteligência artificial tornou-se um fenômeno global, desencadeando mudanças significativas na tecnologia, na economia e até mesmo na geopolítica. Mas, como pesquisador, educador e agora empreendedor, o que mais me entusiasma ainda é o espírito por trás da questão que Turing propôs há 75 anos. Ainda compartilho da mesma curiosidade e admiração que ele sentia. É esse desafio de explorar a inteligência espacial que alimenta minha motivação diária.
Pela primeira vez na história da humanidade, temos a oportunidade de criar máquinas altamente coordenadas com o mundo físico, tornando-as verdadeiras parceiras no enfrentamento de grandes desafios. Seja acelerando nossa compreensão de doenças em laboratório, revolucionando a forma como contamos nossas histórias ou oferecendo suporte quando estamos mais vulneráveis devido a doenças, lesões ou ao envelhecimento, estamos no limiar de uma tecnologia que aprimorará as experiências de vida que mais valorizamos. Esta é uma visão mais profunda, rica e poderosa para a vida.
Há cerca de 500 milhões de anos, a natureza dotou os primeiros animais com os rudimentos da inteligência espacial. Hoje, temos a sorte de fazer parte desta geração de tecnólogos que em breve poderá conferir essa capacidade às máquinas — e ter a oportunidade de usá-la para beneficiar pessoas em todo o mundo. Sem inteligência espacial, nosso sonho de "máquinas verdadeiramente inteligentes" não poderá ser realizado.
Esta jornada de exploração é a minha estrela guia. Você está convidado a se juntar a mim nesta busca.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

