Após expor a equipe do GPT Image 2, encontrei uma rede chinesa de mentores e aprendizes.

Com o lançamento oficial do GPT Image 2, o campo da geração de imagens por IA agora possui apenas dois níveis: GPT Image 2 e outros.

No quesito de modelos em larga escala, o GPT Image 2 lidera com ampla vantagem, com um saldo absoluto de 241 pontos, mas a lista de desenvolvimento é, na verdade, mais interessante do que as pontuações de referência.

A equipe principal da OpenAI que desenvolveu esse modelo é composta por apenas 13 pessoas.

Além disso, metade da equipe é composta por chineses. Se você analisar atentamente seus currículos, verá que muitos deles já se conheciam de alguma universidade, laboratório ou até mesmo de um acampamento de pesquisa de verão na China antes de ingressarem na OpenAI.

A comunidade de IA é basicamente um enorme círculo de conhecidos.

Gigantes da tecnologia do Vale do Silício vêm e vão, mas a relação entre mentor e aprendiz permanece constante.

Chen Boyuan é um membro fundamental do GPT Image 2, e seu crescimento é um exemplo perfeito do modelo de "mentoria" na academia chinesa.

Durante o ensino médio, Chen Boyuan participou de um acampamento de pesquisa de verão em Wuxi. Naquela época, ele ainda não havia aprendido programação e lá conheceu Xia Fei, um acadêmico chinês que mais tarde se tornou pesquisador sênior no Google DeepMind. Xia Fei o apresentou ao aprendizado profundo e se tornou seu guia no campo da IA.

Os dois mantêm contato desde então. Durante sua graduação, Chen Boyuan formou-se em Ciência da Computação e Matemática na UC Berkeley, ingressando no programa de honra em Engenharia Elétrica e Ciência da Computação (EECS) com um GPA de 3,96. Ele estudou com Pieter Abbeel e também fundou uma empresa de educação em robótica em 2017, que operou até 2020.

Durante seu primeiro ano como estudante de doutorado no MIT, Chen Boyuan enfrentou dificuldades devido à falta de publicações. Xia Fei ofereceu apoio crucial, auxiliando-o na publicação de seu primeiro artigo influente, NLMap. Xia Fei também o convidou para estagiar na DeepMind duas vezes. Durante seu estágio em 2023, ele liderou a construção de um pipeline de síntese de dados para modelos de linguagem multimodais de grande porte, e as técnicas de ajuste fino de instruções que ele sintetizou foram utilizadas no desenvolvimento do Gemini 2.0.

Com essa experiência, Chen Boyuan ingressou na OpenAI em junho de 2025. Além disso, ele também é membro da equipe de geração de vídeo Sora, ocupando diversos cargos.

Durante seu período no MIT, Chen Boyuan estudou com o professor assistente Vincent Sitzmann no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL), com foco em modelagem do mundo real. Kiwhan Song era seu colega no mesmo laboratório, orientado pelo mesmo professor.

 https://kiwhan.dev/

O foco principal da pesquisa do Laboratório Sitzmann é a "modelagem do mundo", que, em termos simples, envolve permitir que a IA preveja mudanças no mundo físico por meio de simuladores mentais, em vez de simplesmente imitar pixels. Essa abordagem de pesquisa pode ter influenciado diretamente a direção tecnológica do GPT Image 2.

Os dois colaboraram diversas vezes durante seus estudos de doutorado e publicaram conjuntamente dois artigos, "History-Guided Video Diffusion" e "Large Video Planner", que exploraram principalmente como combinar modelos de difusão e geração de sequências, permitindo que o modelo esclareça a lógica causal temporal e espacial antes de gerar o conteúdo.

 https://arxiv.org/abs/2502.06764

Vale mencionar que Kiwhan Song é o criador do avatar de desenho animado em estilo adesivo com "pescoço comprido".

Além desses dois colegas estudantes, a equipe também conta com dois membros chineses que fazem parte de uma rede de pesquisadores chineses com anos de experiência acumulada no setor.

Jianfeng Wang trabalhou na Microsoft por quase nove anos, concentrando-se em aprendizado de representação multimodal em larga escala como pesquisador principal. Durante o desenvolvimento do DALL-E 3, ele colaborou profundamente com a equipe da OpenAI. Após ingressar na OpenAI, foi o principal responsável por aprimorar as capacidades de obediência às instruções do modelo e sua compreensão do mundo.

 https://scholar.google.com/citations?user=vJWEw_8AAAAJ&hl=en

Bing Liang trabalhou por mais de cinco anos no Google, onde atuou como engenheiro de software sênior na pesquisa e desenvolvimento do Imagen 3, do modelo de vídeo Veo e da série multimodal Gemini. Ele ingressou na OpenAI em agosto passado para liderar a pesquisa em geração de imagens.

 https://www.linkedin.com/in/bing-liang/

Eles trouxeram não apenas suas habilidades pessoais, mas também a experiência em engenharia acumulada por seus concorrentes ao longo de muitos anos, bem como os obstáculos que haviam encontrado, evitando muitos desvios para a equipe.

Proporcione um palco para gênios

Weixin Liang e Yuguang Yang são outra dupla notável na equipe. Ambos se formaram na Faculdade de Honra Chu Kochen da Universidade de Zhejiang e têm a mesma formação de graduação.

O currículo de Yuguang Yang abrange uma ampla gama de experiências. Ele estudou engenharia no Chu Kochen Honors College para sua graduação e, em seguida, cursou doutorado em química computacional, física e aprendizado de máquina na Universidade Johns Hopkins. Após concluir o doutorado, trabalhou na Amazon Alexa com pesquisa em aprendizado profundo para reconhecimento de fala e, posteriormente, ingressou na Microsoft Bing, onde foi responsável pela compreensão de consultas e recuperação em larga escala.

Ele também realizou pesquisas como pesquisador visitante na Universidade de Tsinghua, com foco em algoritmos de aprendizado por reforço para navegação de nanorrobôs em vasos sanguíneos humanos, período durante o qual publicou sete artigos em periódicos com revisão por pares. Essa formação interdisciplinar é diretamente evidente na demonstração da versão GPT Image 2.

Em comparação com Yuguang Yang, a trajetória profissional de Weixin Liang é mais voltada para a área acadêmica. Ele cursou seu doutorado no Laboratório de Inteligência Artificial de Stanford (SAIL), período em que colaborou com diversos professores renomados, incluindo Christopher Manning, Li Fei-Fei e James Zou.

 https://ai.stanford.edu/~wxliang/

Durante seu estágio na Meta, ele publicou o artigo "Mixture-of-Transformers (MoT)", que introduziu uma arquitetura de modelo especialista híbrida com desacoplamento modal. O artigo implementou o processamento de esparsidade com reconhecimento modal em todos os parâmetros não incorporados do Transformer, incluindo a rede feedforward, a matriz de atenção e a normalização de camadas, reduzindo, em última análise, o custo computacional do pré-treinamento multimodal em 66% e concluindo a validação do pré-treinamento em uma escala de parâmetros de 30 bytes.

Modelos multimodais, que precisam processar simultaneamente texto e imagens de alta resolução, podem facilmente sofrer um aumento exponencial nos custos computacionais. O MoT, no entanto, resolve esse problema de forma eficaz, alocando pesos entre diferentes modalidades de maneira eficiente durante a fase de pré-treinamento por meio de seu mecanismo de atenção de desacoplamento modal. Essa pesquisa, posteriormente considerada uma "contribuição fundamental para a unificação da compreensão e geração multimodal", atraiu considerável atenção na área de modelagem multimodal.

 https://arxiv.org/abs/2411.04996

Nos últimos anos, graduados da Turma Yao da Universidade de Tsinghua, da Faculdade de Honra Chu Kochen da Universidade de Zhejiang, da Turma Júnior da Universidade de Ciência e Tecnologia da China, da Universidade Jiao Tong de Xangai e de outras instituições tornaram-se a força motriz de laboratórios de IA no exterior, como OpenAI, Anthropic, DeepMind e Meta.

Além dos membros já mencionados, a equipe também conta com diversos pesquisadores principais, cada um desempenhando um papel importante:

Kenji Hata: Mestre em Ciência da Computação pela Universidade de Stanford, trabalhou anteriormente no Google Research. Após ingressar na OpenAI, participou do desenvolvimento de diversos modelos, incluindo o de geração de imagens 4o (GPT-Image-1) e o Sora 2, sendo um dos membros da equipe com a experiência mais completa em iteração de modelos.

Ayaan Haque: Antes de ingressar na OpenAI, ele era pesquisador na Luma AI, onde participou do treinamento do modelo de geração de vídeo Dream Machine. Essa experiência lhe proporcionou a capacidade de processar dados temporais de alta dimensionalidade. Na OpenAI, ele foi o principal responsável pelo desenvolvimento do GPT Image 2 e pelo reconhecimento de padrões de pensamento.

Dibya Bhattacharjee: Bacharelado e mestrado em Ciência da Computação pela Universidade de Yale e quase 5 anos de experiência no Google. Ela ingressou na OpenAI em fevereiro de 2024 para liderar a pesquisa em geração de imagens, demonstrando as capacidades de geração multiformato do modelo no evento de lançamento, e é uma peça fundamental para tornar o formato de saída do modelo "pronto para uso".

Mengchao Z.: Bacharel pela Universidade Jiao Tong de Xangai, mestre pela Universidade Texas A&M, com sólida formação em engenharia. Antes de ingressar na OpenAI, liderou o projeto de arquitetura de sistemas de recomendação em larga escala e atualmente é responsável por transformar as capacidades da tecnologia de modelos em produtos utilizáveis.

Além disso, as identidades de vários outros membros da equipe estão atualmente indisponíveis.

A rede de mentores fomenta o gosto pela pesquisa, e a formação universitária estabelece a base para a compreensão fundamental. Essa rede de talentos, formada por mentores, colegas de turma e ex-colegas, cria naturalmente um alto grau de confiança. Devido ao elevado grau de unidade em valores e linguagem da engenharia, o custo da inovação é praticamente nulo.

Contratar um ou dois Chen Boyuans com somas consideráveis ​​é apenas uma medida paliativa. Sem parceiros, é difícil replicar essa inovação espontânea. A estrutura organizacional de grandes empresas, com sua hierarquia e objetivos claros, é benéfica para a comercialização, mas muitas vezes cria restrições à pesquisa básica que exige exploração livre.

A competição em IA é, em última análise, uma história sobre "pessoas". Em vez de procurarmos o próximo Chen Boyuan, precisamos construir um ecossistema onde pessoas como Chen Boyuan possam se encontrar naturalmente em seu contexto local e alcançar o sucesso mútuo.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.