Entrevista de 10.000 palavras de Fei-Fei Li: A inteligência espacial é a próxima fronteira da IA
No mundo da IA, modelos de linguagem de grande porte já impressionaram as pessoas. Mas Fei-Fei Li disse que o verdadeiro avanço ainda está por vir. Ela acredita que, se a IA não consegue entender o mundo tridimensional, ela não está completa. Este é seu próximo objetivo insano.
Há dois dias, a Y Combinator atualizou seu canal no YouTube com uma entrevista em vídeo com Fei-Fei Li na AI Startup School, em São Francisco. Nesta conversa, Fei-Fei Li revisou a criação do projeto ImageNet, o rápido desenvolvimento do aprendizado profundo, desde o reconhecimento de objetos até os modelos generativos atuais, e destacou uma das fronteiras mais desafiadoras da inteligência artificial em que ela está trabalhando atualmente: a inteligência espacial.
Fei-Fei Li é atualmente fundadora e CEO da World Labs, uma empresa de inteligência espacial dedicada à construção de modelos mundiais em larga escala para perceber, gerar e interagir com o mundo 3D. Nesta conversa, ela também levantou uma série de questões sobre a importância da modelagem mundial 3D para a inteligência artificial geral (AGI) e por que a inteligência espacial pode ser mais difícil de alcançar do que a linguagem .
Salve a vazão para ver a versão:
Esta é uma mudança de paradigma na aprendizagem de máquina
O nascimento do ImageNet não é apenas o sonho pessoal de Fei-Fei Li, mas também uma mudança de paradigma no campo da visão computacional e do aprendizado profundo. Ela compartilhou que era obcecada em "fazer as máquinas enxergarem" naquela época, e essa persistência e trabalho árduo criaram um momento importante em que dados, GPUs e redes neurais se uniram . Agora, ela tem uma nova obsessão e planeja continuar a liderar uma nova revolução da IA.
Queremos fazer da inteligência espacial o novo campo de batalha da IA
Do reconhecimento de objetos à compreensão de cenas, a IA começou gradualmente a compreender informações visuais complexas. Uma nova rodada de transformações chegou à era atual da IA. Ela acredita que o mundo não é puramente generativo e que somente permitindo que a IA compreenda o mundo tridimensional poderemos realmente avançar em direção à IA. A aquisição de dados para grandes modelos de linguagem é simples, e modelos de inteligência espacial são o próximo desafio que ela precisa superar.
Não posso revelar muitos detalhes sobre o World Labs.
Questionada sobre os cenários de aplicação previstos pelo World Labs e como eles diferem da arquitetura atual dos LLMs, Li Feifei afirmou que a integração de software e hardware, bem como a concretização do metaverso, exigirá inteligência espacial. Ao contrário da concretização dos LLMs, ela mencionou que os humanos não têm uma percepção aguçada do mundo tridimensional, o que é muito difícil, mas acredita em sua equipe, que conta com as pessoas mais inteligentes do mundo, e que, junto com elas, poderão resolver esse problema no mundo bidimensional.
No campo da IA, nunca tenha medo do fracasso
Ao final da entrevista, Fei-Fei Li compartilhou sua própria experiência de crescimento, desde a imigração para os Estados Unidos para estudar, passando por se tornar diretora do Laboratório de Inteligência Artificial de Stanford, vice-presidente do Google e agora abrindo seu próprio negócio. Ela disse que sempre começou do zero e trabalhou duro . Ela também incentivou os jovens a seguirem seus interesses e curiosidades, a enfrentar desafios com coragem e a resolver problemas impossíveis.
Vídeo original: https://youtu.be/_PioN-CpOP0
A seguir está a transcrição da entrevista, com pequenos ajustes na tradução
O campo da aprendizagem de máquina precisa de uma mudança de paradigma
Moderador: Estou muito animado por ter a Dra. Fei-Fei Li aqui conosco, que tem uma longa carreira em IA. Acredito que muitas pessoas a conheçam. Você também é conhecida como a "madrinha da IA", e um dos primeiros projetos que fundou foi o Imagenet em 2009, há 16 anos. Este projeto foi citado mais de 80.000 vezes e, de fato, lançou uma pedra fundamental importante para a IA: o problema dos dados. Pode falar sobre como este projeto surgiu? O trabalho naquela época foi realmente inovador.
Fei-Fei Li: Sim, antes de mais nada, obrigada, Diana, Gary e a todos aqui, por me convidarem. Estou muito animada por estar aqui, porque me sinto como todos os outros. Também sou empreendedora agora, acabei de abrir uma empresa, então estou muito animada por estar aqui.
Sim, você tem razão, na verdade, concebemos este projeto há quase 18 anos, o tempo voa mesmo. Eu estava no meu primeiro ano como professor assistente na Universidade de Princeton. O mundo da inteligência artificial e do aprendizado de máquina naquela época era completamente diferente do que é hoje. Havia pouquíssimos dados e, pelo menos no campo da visão computacional, os algoritmos não funcionavam de jeito nenhum. Não havia indústria naquela época, e o público mal conhecia a palavra "inteligência artificial". Mas ainda havia um grupo de pessoas, começando pelos fundadores da inteligência artificial, como John McCarthy, e depois pessoas como Jeff Hinton. Acho que todos nós sonhamos com a inteligência artificial e realmente queremos que as máquinas tenham a capacidade de pensar e trabalhar. E meu sonho pessoal é dar às máquinas capacidades visuais, porque a visão é a base da inteligência, e inteligência visual não é apenas percepção, mas também compreender o mundo e fazer coisas no mundo.
Então, eu estava muito obcecado com o problema de "fazer as máquinas enxergarem". No processo da minha obsessão por desenvolver algoritmos de aprendizado de máquina, tentamos redes neurais, mas não funcionou. Recorremos a outros métodos, como máquinas de vetores de suporte, mas havia um problema que sempre me incomodou: o problema da generalização. Se você trabalha com aprendizado de máquina, precisa entender que a generalização é o fundamento matemático e o objetivo principal do aprendizado de máquina. Para que esses algoritmos generalizem, os dados são cruciais, mas quase não havia dados na área de visão computacional naquela época. E eu fui a primeira geração de estudantes de pós-graduação a começar a trabalhar com dados, porque fui a primeira geração de estudantes de pós-graduação a testemunhar o surgimento da internet e da internet das coisas.
Por volta de 2007, meus alunos e eu decidimos que precisávamos dar um passo ousado. Apostamos que a área de aprendizado de máquina precisava de uma mudança de paradigma, e que essa mudança precisava ser liderada por métodos baseados em dados. Mas não havia dados suficientes na época. Então, pensamos: já que não há dados, vamos à internet e baixar bilhões de imagens, que é o maior número que podemos encontrar na internet, e então construiremos um sistema global de classificação visual para treinar e avaliar algoritmos de aprendizado de máquina. É por essa razão que o projeto ImageNet surgiu e foi efetivamente colocado em prática.
Dados e código aberto inauguram a primavera do aprendizado profundo
Apresentador: De fato, foi somente com o surgimento de alguns algoritmos promissores que os avanços começaram a surgir. Foi somente com o lançamento do AlexNet, em 2012, que este foi o segundo fator-chave no caminho para a IA: obter poder computacional suficiente e investir recursos suficientes. E os algoritmos revelaram um momento crítico, que é quando você semeia a IA com dados, e a comunidade gradualmente começa a encontrar mais soluções, o que impulsiona o desenvolvimento da IA, certo?
Fei-Fei Li: Em 2009, publicamos um pequeno artigo apenas como um pôster do CVPR.
De 2009 a 2012, até o advento do AlexNet, realmente acreditávamos que os dados impulsionariam a IA, mas quase não tínhamos sinais claros de que essa abordagem funcionaria.
Então, fizemos algumas coisas . Primeiro, decidimos torná-lo de código aberto. Desde o início, pensamos que ele precisava ser de código aberto para que toda a comunidade de pesquisa pudesse usá-lo e trabalhar em conjunto para resolver esse problema.
Em segundo lugar, criamos um desafio porque queríamos que os estudantes e pesquisadores mais inteligentes do mundo viessem trabalhar neste problema. É o que chamamos de Desafio ImageNet. Todos os anos, lançamos um conjunto de dados de teste. Todos os dados ImageNet da plataforma são usados para treinamento, mas lançamos um conjunto de dados de teste separado e convidamos todos a participar publicamente.
Os primeiros anos foram realmente dedicados a estabelecer o padrão. A taxa de erro de desempenho era de cerca de 30%, o que não era erro zero, nem completamente aleatório, mas também não era ótimo. Mas no terceiro ano, em 2012, também escrevi sobre essa experiência no meu livro publicado.
▲ O primeiro lugar no Desafio ImageNet é a SuperVision
Ainda me lembro, era final do verão e estávamos executando todos os resultados do desafio ImageNet em nossos servidores. Tarde da noite, recebi uma mensagem do meu aluno de pós-graduação dizendo que havia um resultado que realmente se destacava e que deveríamos testá-lo. Pesquisamos e descobrimos que era uma rede neural convolucional. Não era AlexNet na época, mas um trabalho da equipe de Geoffrey Hinton chamado "SuperVision". Era um trocadilho muito inteligente, combinando "super" e "aprendizado supervisionado". Analisamos o trabalho feito pelo SuperVision, que na verdade é um algoritmo antigo. Redes neurais convolucionais já haviam sido publicadas na década de 1980, mas eles apenas fizeram alguns ajustes no algoritmo. Quando o vimos pela primeira vez, ficamos realmente surpresos com um avanço tão grande.
Claro, a próxima coisa que vocês sabem é que apresentamos isso no workshop do Desafio ImageNet em Florença, na ICCV (Conferência Internacional de Visão Computacional) daquele ano, e Alex Krizhevsky e sua equipe compareceram, e muitas pessoas compareceram. Hoje, todos chamam esse momento de "momento AlexNet" do Desafio ImageNet.
Gostaria também de acrescentar que não foi apenas o sucesso da rede neural convolucional, mas também a primeira vez que Alex e sua equipe combinaram duas GPUs para cálculos de aprendizado profundo. Este foi realmente o primeiro grande momento para a combinação de dados, GPUs e redes neurais.
Minha carreira não é só contar cenas
Moderador: Seguindo a tendência de desenvolvimento da inteligência de visão computacional, o ImageNet de fato lançou as bases para a solução do problema de reconhecimento de objetos. A inteligência artificial atingiu o ponto em que pode resolver o problema de compreensão de cenas. Porque você e seus alunos, como Andre Karpathy, começaram a ser capazes de descrever cenas. Você pode falar sobre a transição do reconhecimento de objetos para a compreensão de cenas?
Fei-Fei Li: Sim, o ImageNet resolve o problema de como identificar objetos em uma imagem quando você a vê, como "isto é um gato, isto é uma cadeira", que é um problema básico em reconhecimento visual. Mas desde que entrei na área de inteligência artificial como estudante de pós-graduação, tenho um sonho. Acho que esse sonho pode levar cem anos para se realizar, ou seja, para contar a história do mundo. Imagine que, quando os humanos abrem os olhos, você simplesmente abre os olhos e não vê "pessoas, cadeiras, mesas", mas sim uma sala de conferências, vê a tela, o palco, a plateia, a câmera, etc. Você pode descrever toda a cena, que é uma habilidade humana, a base da inteligência visual e é crucial para o nosso dia a dia. Por isso, sempre pensei que esse problema ocuparia minha vida. Quando me formei como estudante de pós-graduação, disse a mim mesmo que, se conseguisse criar um algoritmo que contasse a história de uma cena, eu teria sucesso. Essa era a minha visão de carreira na época.
No entanto, esse momento realmente chegou com o surgimento do aprendizado profundo, e então Andre e Justin Johnson se juntaram ao meu laboratório, e começamos a ver sinais da colisão entre linguagem natural e visão.
André e eu criamos o problema da descrição de imagens ou narrativa. E, resumindo, por volta de 2015, André e eu publicamos uma série de artigos, incluindo alguns publicados ao mesmo tempo que nós, que foram, na verdade, alguns dos primeiros trabalhos sobre como permitir que computadores gerassem legendas de imagens. Quase pensei: como vou seguir em frente com a minha vida? Este tem sido o meu sonho de vida. Foi um momento realmente poderoso para nós dois.
Ano passado, dei uma palestra no TED e usei um tuíte que o Andre havia postado alguns anos antes, logo depois de terminar seu trabalho sobre legendagem de imagens. Era praticamente a tese de doutorado dele. Eu disse a ele, brincando: "Ei, Andre, por que não fazemos o inverso? Gerar uma imagem a partir de uma frase? ". Claro, ele sabia que eu estava brincando e respondeu: "Haha, vou embora primeiro". O mundo claramente não estava pronto para isso. Mas agora, avançando para os dias de hoje, todos sabemos que a IA generativa pode gerar belas imagens a partir de uma frase. Então, a moral da história é que a IA passou por uma enorme evolução.
Pessoalmente, sinto que sou a pessoa mais sortuda do mundo, porque toda a minha carreira começou com o fim do inverno da IA e o início da ascensão da IA, e muito do meu trabalho e carreira estão intimamente relacionados a essa mudança, ou de alguma forma impulsionaram essa mudança. Então, me sinto muito sortuda, grata e orgulhosa de alguma forma.
Apresentador: Acho que o mais louco é que, mesmo tendo realizado seu sonho de descrever cenas, e até mesmo gerar cenas por meio de modelos de difusão, você ainda sonha alto. Porque toda a trajetória da visão computacional passou do reconhecimento de objetos para a compreensão de cenas, e agora para o conceito de "mundo". E você decidiu deixar a academia, a cátedra, para se dedicar ao empreendedorismo, tornando-se fundador e CEO da World Labs. Pode falar sobre o que é "mundo"? É mais desafiador do que cenas e objetos?
Fei-Fei Li: Sim, é realmente uma loucura. Claro, todos sabem o que aconteceu no passado e, para mim, é muito difícil resumir o progresso dos últimos cinco ou seis anos. Estamos em um momento civilizado de progresso tecnológico. Como cientista de visão computacional, testemunhamos um crescimento incrível, desde imagens a descrições de imagens e geração de imagens usando técnicas de difusão. Embora esses avanços sejam empolgantes, ao mesmo tempo, também vemos outra área extremamente empolgante, que é o campo da linguagem, especialmente LLMs (Large Language Models). Por exemplo, em novembro de 2022, o surgimento do ChatGPT realmente abriu as portas para modelos generativos, que podem basicamente passar no teste de Turing e assim por diante. Então, mesmo pessoas mais velhas como eu se sentem muito animadas e começam a pensar com ousadia sobre qual é o próximo objetivo.
Como cientista de visão computacional, tenho o hábito de me inspirar frequentemente na evolução e na neurociência. Muitas vezes, ao longo da minha carreira, busco o próximo problema "estrela polar" para resolver. Eu me perguntava: o que a evolução ou o desenvolvimento do cérebro fizeram? Algo muito notável e gratificante é que a evolução da linguagem humana levou cerca de 300 a 500 milhões de anos; mesmo que sejamos muito generosos, é apenas menos de um milhão de anos. Os humanos são a única espécie com linguagem complexa. Podemos falar sobre a linguagem animal, mas em termos da função da linguagem como ferramenta de comunicação, raciocínio e abstração, apenas os humanos têm essa capacidade. Esse processo evolutivo levou menos de 500.000 anos.
Mas se você pensar sobre visão, pense sobre a capacidade de entender o mundo tridimensional, descobrir como se mover nesse mundo tridimensional, como navegar, interagir, entender, se comunicar com ele, tudo isso levou 540 milhões de anos para evoluir.
Há cerca de 540 milhões de anos, os primeiros trilobitas começaram a desenvolver a percepção visual subaquática. Desde então, a visão tornou-se a chave para impulsionar a corrida evolutiva. Antes do surgimento da visão, as formas de vida animal eram relativamente simples, com quase nenhuma mudança complexa por quase 500 milhões de anos. Mas, nos 540 milhões de anos seguintes, foi precisamente por causa da capacidade de compreender o mundo que a corrida evolutiva começou e a inteligência dos animais continuou a melhorar.
▲ Equipe fundadora do iWorld Labs, Fei-Fei Li (primeiro da direita para a esquerda), Justin Johnson, Christoph Lassner, Ben Mildenhall
Então, para mim, resolver o problema da inteligência espacial, entender o mundo 3D, gerar o mundo 3D, raciocinar sobre o mundo 3D, fazer coisas no mundo 3D, é um problema fundamental para a IA. Para mim, a IA é incompleta sem inteligência espacial. Eu quero resolver esse problema. E isso envolve criar "modelos de mundo" que vão além de pixels planos, além da linguagem, para realmente capturar a estrutura 3D e a inteligência espacial do mundo. Felizmente, não importa a minha idade, sempre trabalho com os jovens mais incríveis. Então, agora estou começando esta empresa com três jovens tecnólogos incríveis, mas de classe mundial: Justin Johnson, Ben Mildenhall e Christoph Lassner. Vamos tentar resolver o que considero o problema mais difícil da IA atualmente.
É muito mais difícil obter dados sobre inteligência espacial do que dados de linguagem.
Apresentador: De fato, são todos pessoas muito talentosas. Chris é o fundador do Pulsar, uma tecnologia de renderização diferenciável e agora um backend de renderização baseado em esferas para o PyTorch3D. E Justin Johnson, como ex-aluno seu, tem uma forte mentalidade de engenharia de sistemas e implementou transferência de estilo em tempo real com base em redes neurais. E Ben, autor do artigo NeRF (Neural Radiance Fields). Então, esta é realmente uma equipe de elite. Você precisa de uma equipe de elite porque já falamos sobre isso antes: a visão é, na verdade, mais difícil do que a linguagem. Talvez seja um pouco controverso dizer isso porque os LLMs são essencialmente unidimensionais, certo? Mas você está falando sobre entender muitas estruturas 3D. Então, por que isso é tão difícil? Por que é mais poderoso do que as grandes linguagens atuais?
Fei-Fei Li: Sim, você entende a dificuldade do nosso problema. A linguagem é inerentemente unidimensional, e a gramática surge em sequência, e é por isso que a modelagem sequência a sequência é tão clássica. Outro ponto é que a linguagem é um sinal puramente generativo, o que muitas pessoas não percebem. Não existe linguagem na natureza, você não pode tocar a linguagem, você não pode ver a linguagem, a linguagem é completamente gerada pela cabeça de cada um. A linguagem é um sinal puramente generativo. É claro que, quando você a escreve no papel, ela está lá, mas a geração, a construção e a utilidade da linguagem são inerentemente muito generativas, e o mundo é muito mais complexo do que isso.
Em primeiro lugar, o mundo real é tridimensional. Se adicionarmos o tempo, ele se torna quadridimensional, mas consideraremos apenas o espaço por enquanto. O mundo real é essencialmente tridimensional, o que, por si só, é um problema mais desafiador em termos de combinação.
Em segundo lugar, você precisa entender como é difícil perceber o mundo visual como um processo de projeção, seja com os olhos, a retina ou a câmera, que sempre comprime informações tridimensionais em duas dimensões. Matematicamente, esse é um processo irreversível, e é por isso que humanos e animais têm múltiplos sentidos para resolver esse problema.
Terceiro, o mundo não é puramente generativo. Sim, podemos gerar um mundo virtual 3D, mas ele ainda precisa seguir as leis da física, e o mundo real existe fora de nós. Na verdade, agora você alterna fluidamente entre geração e reconstrução. O comportamento do usuário, a praticidade e os cenários de aplicação são completamente diferentes. Se você se concentrar na generatividade em todos os aspectos, podemos falar sobre jogos, metaversos e outras coisas; se você se concentrar no mundo real em todos os aspectos, falaremos sobre robótica e assim por diante. Mas tudo isso está no continuum da modelagem de mundos e da inteligência espacial.
Claro, o grande desafio agora é que há muitos dados sobre linguagem na internet, e os dados sobre inteligência espacial, embora estejam todos em nossos cérebros, não são tão fáceis de acessar quanto os dados sobre linguagem. Então, essas são todas as razões pelas quais esse problema é tão difícil. Mas, francamente, é isso que me empolga, porque se esse problema fosse fácil, significaria que outra pessoa o teria resolvido. E toda a minha carreira tem sido sobre perseguir problemas extremamente difíceis, quase ilusórios. Acho que esse é o problema ilusório. Obrigado pelo seu apoio neste problema.
Nossos laboratórios mundiais têm as pessoas mais inteligentes do mundo
Apresentador: Sim, mesmo partindo dos princípios mais básicos, o córtex visual do cérebro humano tem muito mais neurônios processando dados visuais do que neurônios processando linguagem. Como essa diferença se manifesta nos modelos? Inclusive, as coisas em que você está trabalhando também serão muito diferentes na arquitetura em comparação com o LLM, certo?
Fei-Fei Li: Essa é uma ótima pergunta. Na verdade, atualmente existem duas abordagens diferentes para essa questão.
Uma delas é a abordagem dos LLMs, na qual muitos dos padrões de escrita e extensão da escrita que vemos nos LLMs podem ser aprimorados quase diretamente por meio da aprendizagem autossupervisionada até que um "final feliz" seja alcançado. Você pode quase forçar a autossupervisão até atingir seu objetivo.
A outra é construir um modelo de mundo, que pode ser mais detalhado e hierárquico, porque o mundo é estruturado e podemos precisar de alguns sinais para guiá-lo. Você pode pensar nisso como conhecimento prévio ou como um sinal de supervisão nos dados; de qualquer forma, é uma forma de orientar o aprendizado.
Acho que essas são algumas das questões em aberto que precisamos resolver, mas você tem razão. Se pensarmos na percepção humana, em primeiro lugar, ainda não resolvemos completamente todos os problemas da visão humana, certo? Como o 3D se encaixa na visão humana? Ainda não é um problema resolvido. Sabemos que, mecanicamente, os olhos precisam obter informações por meio da triangulação, mas, mesmo assim, não temos um modelo matemático perfeito e, na realidade, os humanos não são particularmente bons em percepção 3D. Não somos muito bons em entender e manipular o mundo tridimensional, então há muitas perguntas esperando para serem respondidas.
▲ Capturas de tela de alguns membros do World Labs
Então, estamos realmente na fase dos "Laboratórios Mundiais" agora. A única coisa em que posso confiar é que acredito que temos as pessoas mais inteligentes do mundo para resolver esse problema no "Mundo Pixel".
A convergência de hardware e software acabará por acontecer
Moderador: Podemos dizer que o resultado final desses modelos básicos que o World Labs está construindo é um mundo 3D? Quais cenários de aplicação você está visualizando? Vi que você mencionou várias possibilidades, da percepção à geração. Há sempre uma tensão entre modelos generativos e modelos discriminativos, então qual é o papel desses mundos 3D?
Fei-Fei Li: Sim, talvez eu não consiga revelar muito sobre os detalhes específicos do World Labs, mas em termos de inteligência espacial, é de fato um lugar que me empolga. Assim como a linguagem, os cenários de aplicação são muito amplos. Desde o início da criação, designers, arquitetos, designers industriais e até mesmo artistas, artistas 3D e desenvolvedores de jogos podem usá-lo. Robótica e aprendizado de robôs também são áreas de aplicação muito importantes, e os usos de modelos de inteligência espacial ou modelos de mundo são muito amplos. Além disso, muitos setores relacionados, como marketing, entretenimento e até mesmo o metaverso, serão afetados. Estou muito animado com o metaverso. Embora ainda não tenha sido totalmente implementado, sei que não está muito maduro agora, mas é justamente por isso que estou mais animado. Acredito que a integração de hardware e software eventualmente virá, e o potencial no futuro é enorme. Esta também é uma direção de aplicação muito empolgante.
Apresentador: Pessoalmente, estou muito animado por você estar resolvendo o problema do metaverso. Eu também já tentei essa direção na minha empresa antes, então estou muito animado em ver que você está fazendo isso agora.
Li Feifei: Sim, acho que há mais sinais agora de que o Metaverso está gradualmente se concretizando. Acho que o hardware é de fato um dos obstáculos, mas, mais importante, você precisa de criação de conteúdo, e a criação de conteúdo para o Metaverso requer modelos de mundo.
Começando do zero, essa é minha zona de conforto
Moderador: Mudando de assunto. Para alguns espectadores, sua transição da academia para a posição de fundador e CEO pode parecer um pouco repentina. Mas, na verdade, toda a sua experiência de vida é extraordinária, e esta não é a primeira vez que você passa do zero para o zero. Certa vez, você me contou como imigrou para os Estados Unidos, não falava inglês no começo e administrou uma lavanderia com sua equipe por vários anos. Pode falar sobre como essas experiências a moldaram hoje?
Fei-Fei Li: Certo? Sei que vocês estão aqui para ouvir minha história sobre como abri uma lavanderia. Haha.
Eu tinha 19 anos e estava completamente desesperada. Não tinha como sustentar minha família, meus pais precisavam que eu fizesse faculdade e eu queria cursar física em Princeton. Então, abri uma lavanderia a seco. Nos moldes do Vale do Silício, eu era arrecadadora de fundos, fundadora e CEO, caixa e fazia todas as tarefas, e finalmente "saí" depois de sete anos.
Voltando ao ponto de Diana, especialmente para todos vocês, eu olho para vocês e é realmente emocionante porque vocês são metade, até um terço, mais jovens do que eu e são muito talentosas, vão em frente, não tenham medo.
Tenho sido assim durante toda a minha carreira, incluindo, é claro, trabalhando em uma lavanderia, e mesmo como professor, fiz algumas escolhas. Certa vez, escolhi ir para alguns departamentos que não tinham um professor de visão computacional, para ser o primeiro, o que contrariava muitos conselhos. Como um jovem professor, todos recomendariam que você fosse para um lugar onde houvesse uma comunidade e um mentor sênior. Claro, também espero ter um mentor sênior, mas se não tiver, ainda seguirei meu próprio caminho. Então, não tenho medo disso. Mais tarde, fui para o Google e aprendi muito sobre negócios, sobre o Google Cloud e B2B, e então comecei uma startup em Stanford, porque em 2018, a IA não é mais apenas um problema da indústria, tornou-se um problema humano.
Os humanos sempre impulsionarão o progresso tecnológico, mas não podemos perder nossa humanidade. Estou muito focado em como criar um raio de luz no avanço da IA, como a IA pode ser centrada no ser humano e como a IA pode ajudar os humanos. Então, voltei para Stanford e fundei um instituto de IA centrado no ser humano e o administrei como uma startup por cinco anos. Algumas pessoas podem não gostar de eu tê-lo administrado como uma startup por tanto tempo na faculdade, mas tenho muito orgulho disso. Então, de certa forma, acho que simplesmente gosto de ser um empreendedor. Gosto da sensação de começar do zero, como estar no ponto zero, esquecendo o que você fez no passado, esquecendo o que os outros pensam de você e simplesmente fazendo. Essa é a minha zona de conforto, e eu realmente adoro essa sensação.
O que busco é destemor intelectual.
Apresentador: É muito legal que você tenha feito todas essas coisas incríveis e tenha orientado muitos pesquisadores lendários, como Andrej Karpathy, Jim Fan (agora na Nvidia) e Jia Deng (colaboração no projeto ImageNet). Todos eles se tornaram líderes na indústria. Quando ainda eram estudantes, o que te fez ver que eles alcançariam feitos extraordinários no futuro? Que conselho você pode nos dar para identificarmos essas pessoas que mudarão o campo da IA?
Fei-Fei Li: Em primeiro lugar, sinto-me muito sortuda e não acho que tenha contribuído mais para os meus alunos do que eles. Eles realmente me tornam uma pessoa melhor, uma professora melhor e uma pesquisadora melhor. É realmente a honra da minha vida trabalhar com tantos alunos lendários como você disse. Cada aluno é muito diferente. Alguns são cientistas puros que se concentram em resolver problemas científicos; alguns são líderes na indústria; e alguns são grandes disseminadores de conhecimento em IA. Mas acho que há uma coisa que todos eles têm em comum, e encorajo todos os alunos aqui presentes a refletir sobre essa questão.
Este também é o critério que procuro em empreendedores, especialmente na hora de contratar. Procuro coragem intelectual.
Acredito que não se trata apenas de onde você vem ou do problema que está tentando resolver, mas da coragem de encarar o desafio e se comprometer a resolvê-lo. Essa coragem é realmente a qualidade essencial do sucesso. Aprendi isso com esses alunos e, como CEO do nosso laboratório, também valorizo muito isso no meu processo de recrutamento.
Apresentador: Vocês também estão recrutando muitas pessoas para o World Labs, então estão procurando pelas mesmas posições?
Fei-Fei Li: Sim, estamos contratando em larga escala. Estamos contratando talentos de engenharia, de produto, 3D e de modelagem generativa. Se você não tem medo e é apaixonado por resolver problemas inteligentes, entre em contato comigo ou visite nosso site.
Perguntas e respostas do público
Pergunta 1: Olá, Feifei, obrigado pela sua palestra. Sou muito seu fã! Minha pergunta é: você trabalhou com reconhecimento visual há mais de 20 anos. Quero começar um doutorado agora. Que direção devo seguir para me tornar uma lenda como você?
Fei-Fei Li: Quero lhe dar uma resposta atenciosa porque sempre posso dizer: faça o que lhe excita.
Em primeiro lugar, acredito que a pesquisa em IA mudou porque, se você está fazendo um doutorado, você está na academia. Hoje, a academia não possui mais a maioria dos recursos de IA, o que é muito diferente da minha situação. O poder computacional e os recursos de dados são muito limitados na academia, enquanto a indústria pode realizar pesquisas em um ritmo muito mais rápido. Portanto, como doutorando, recomendo que você busque direções que não entrem em conflito com os problemas que a indústria pode resolver com maior poder computacional, dados mais ricos e as vantagens do trabalho em equipe. Ainda existem alguns problemas muito fundamentais que a academia pode continuar a explorar e, mesmo com mais chips, você pode fazer um grande progresso.
Em primeiro lugar, a IA interdisciplinar é uma área muito empolgante para mim no meio acadêmico, especialmente em termos de descoberta científica. Existem muitas disciplinas que podem se cruzar com a IA. Acredito que esta seja uma área que pode ser desenvolvida em profundidade. Por outro lado, em termos teóricos, acho muito interessante que as capacidades da IA tenham superado completamente a teoria. Não sabemos como fazer isso, carecemos de interpretabilidade e não sabemos como revelar relações causais. Ainda há muitas incógnitas em nossa compreensão do modelo, e ainda há muitas direções para promover ainda mais o desenvolvimento desta área no futuro. No campo da visão computacional, ainda existem alguns problemas não resolvidos. Além disso, small data também é uma área muito interessante e cheia de possibilidades.
Pergunta 2: Obrigado, Professor Fei-Fei Li, e parabéns novamente por receber o título de doutor honoris causa da Universidade de Yale. Tive a honra de testemunhar esse momento pessoalmente há um mês. Minha pergunta é: da sua perspectiva, a IAG tem mais probabilidade de emergir como um modelo único e unificado, ou como um sistema "modelo-agente"?
Fei-Fei Li: Duas definições foram propostas para a pergunta que você fez. Uma definição é mais teórica, definindo AGI como inteligência medida por algum tipo de teste de QI, e a outra parte da pergunta é mais pragmática, focando em quais tarefas um agente inteligente pode realizar. Francamente, estou um pouco confuso com a definição de AGI.
Isso ocorre porque, na Conferência de Dartmouth, em 1956, os fundadores da inteligência artificial, incluindo John McCarthy e Marvin Minsky, queriam resolver o problema das máquinas que podem "pensar", que já havia sido proposto por Alan Turing antes deles. Portanto, essa proposição não é um problema restrito de inteligência artificial, mas uma proposição ampla sobre inteligência. Portanto, não sei como distinguir esse problema fundamental da inteligência artificial do novo termo "IAG".
Para mim, AGI e IA são a mesma coisa, mas entendo que a indústria tende a ver AGI como algo além da IA. Tenho dificuldade em entender isso porque não sei exatamente o que é AGI e como ela difere da IA. Se dissermos que os sistemas "semelhantes a AGI" atuais têm melhor desempenho em certas tarefas do que os sistemas de IA mais restritos das décadas de 1970, 1980 e 1990, acho que isso está correto, e é apenas uma progressão natural da área. Mas, fundamentalmente, acredito que a essência da inteligência artificial é criar máquinas que possam pensar e fazer coisas como humanos, ou até mesmo mais inteligentes que humanos. Portanto, não sei como definir AGI e, como não consigo defini-la, não posso dizer se é um sistema único.
Se olharmos da perspectiva do cérebro, ele é um todo, e podemos chamá-lo de um sistema único, mas suas funções são diversas, e há até mesmo a área de Broca no cérebro que é responsável pela linguagem, o córtex visual pela visão, o córtex motor pelo movimento, etc. Portanto, eu realmente não sei como responder a essa pergunta.
Pergunta 3: Olá, meu nome é Yasna. Antes de mais nada, quero agradecer. É realmente inspirador ver uma mulher assumindo um papel de liderança nesta área. Como pesquisadora, educadora e empreendedora, gostaria de perguntar, no campo atual de inteligência artificial em rápido desenvolvimento, que tipo de pessoa você acha que deveria cursar uma pós-graduação?
Fei-Fei Li: Essa é uma ótima pergunta, e até pais me perguntam isso. A pós-graduação é um período de quatro a cinco anos de intensa curiosidade.
Você é movido pela curiosidade, e essa curiosidade é tão forte que não há lugar melhor para persegui-la do que aqui. Isso é diferente de uma startup, porque em uma startup, você não pode ser movido apenas pela curiosidade. Você tem que ter cuidado para que uma startup não seja movida apenas pela curiosidade, e os investidores fiquem insatisfeitos com você. Ela é mais focada em atingir objetivos de negócios e, embora haja um elemento de curiosidade, não é completamente movida pela curiosidade. E para estudantes de pós-graduação, a curiosidade para resolver problemas ou a capacidade de fazer perguntas é muito importante, e eu acho que aqueles que entram na pós-graduação com essa forte curiosidade vão realmente aproveitar esses quatro ou cinco anos, e mesmo que o mundo exterior se desenvolva rapidamente, você ainda se sentirá satisfeito porque seguiu sua curiosidade.
Questionador 4: Primeiramente, gostaria de agradecer por ter dedicado seu tempo para compartilhar sua opinião conosco. Você mencionou que o código aberto desempenhou um papel importante no desenvolvimento da inteligência de imagem. Agora, com o lançamento e o desenvolvimento de grandes modelos de linguagem, vemos diferentes organizações adotando estratégias diferentes em termos de código aberto. Algumas organizações são completamente de código fechado, outras completamente de código aberto em toda a sua estrutura de pesquisa, e algumas organizações adotam uma abordagem de compromisso, ponderando o modelo de código aberto ou adotando licenças restritivas, etc. Então, eu gostaria de perguntar: o que você acha dessas diferentes abordagens de código aberto? Qual você considera a abordagem correta? Como uma empresa de IA, como o código aberto deve funcionar?
Fei-Fei Li: Acredito que, quando há diferentes formas de código aberto no ecossistema, todo o ambiente é saudável. Não sou inflexível quanto a se deve ser código aberto ou fechado. Depende da estratégia de negócios da empresa. Por exemplo, a Meta (antiga Facebook) é muito clara sobre o motivo de sua escolha de código aberto. Seu modelo de negócios atual não é lucrar com modelos de vendas, mas desenvolver o ecossistema usando esses modelos e atrair mais pessoas para usar sua plataforma. Portanto, o código aberto faz muito sentido para eles. E para algumas outras empresas que realmente lucram com essas tecnologias, pode-se considerar uma combinação de código aberto e código fechado, operando em camadas. Portanto, estou aberto a essas abordagens.
▲ O modelo de código aberto de lhama da Meta está no ranking de modelos de linguagem de código aberto Hugging Face
Em um nível mais alto, acredito que o código aberto deve ser protegido, seja no setor público, como a academia, ou no setor privado. Se houver iniciativas de código aberto, é muito importante. É crucial para o ecossistema de startups e muito importante para o setor público. Acredito que essas iniciativas devem ser protegidas e não ignoradas.
Pergunta 5: Olá, meu nome é Carl, sou da Estônia e tenho uma pergunta sobre dados. Você mencionou a mudança no aprendizado de máquina a partir de abordagens baseadas em dados, especialmente o progresso feito no ImageNet, e agora você está estudando modelos de mundo, e mencionou que nos faltam dados espaciais, que não existem na internet, apenas em nossos cérebros. Como você resolve esse problema? Qual é a sua direção de pesquisa? Você está coletando dados do mundo real ou gerando dados sintéticos? Você acredita em dados sintéticos? Ou acredita mais no conhecimento prévio tradicional? Obrigado.
Fei-Fei Li: Você deveria se juntar a mim no World Labs e eu vou te contar. Como empresa, não posso compartilhar muito, mas acho importante reconhecer que adotamos uma abordagem híbrida. É muito importante ter muitos dados, mas é igualmente importante ter dados de alta qualidade. No fim das contas, se você não prestar atenção à qualidade dos dados, o resultado final é lixo que entra, lixo que sai.
Pergunta 6: Olá, Dra. Fei-Fei Li, meu nome é Annie, muito obrigada por falar conosco. Em seu livro, "The World", vi que você falou sobre os desafios de ser uma menina e mulher imigrante em áreas STEM. Gostaria de saber se você já se sentiu uma minoria no ambiente de trabalho? Se sim, como superou esse dilema ou convenceu outras pessoas?
Fei-Fei Li: Obrigada pela sua pergunta. Serei cuidadosa e atenciosa ao responder, porque cada um de nós tem uma história diferente e cada um de nós tem uma experiência única. Sabe, quase não importa. Todos nós temos momentos em que nos sentimos como uma minoria ou a única pessoa na sala. Então, é claro, eu já tive esses sentimentos.
Às vezes, tem a ver com quem eu sou, às vezes tem a ver com como eu penso, às vezes é só a cor das roupas que visto, sempre há um motivo. Mas quero encorajá-las nesse sentido. Talvez seja porque cheguei a este país ainda jovem e tive algumas experiências. Aceitei que sou uma mulher imigrante. Quase desenvolvi a capacidade de não levar isso tão a sério. Estou aqui, assim como cada uma de vocês. Estou aqui para aprender, para fazer, para criar coisas.
Quero muito dizer a cada um de vocês que, se vocês estão prestes a começar algo, ou já estão no processo de fazer algo, terão momentos de fraqueza ou confusão. Sinto isso todos os dias, especialmente na vida empreendedora. Às vezes penso: "Meu Deus, não sei o que estou fazendo. Não se preocupem com isso, apenas se concentrem em fazer". Assim como na descida gradual, avancem passo a passo em direção à solução ideal.
#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.