Primeiro post extenso de Lin Chun-yang desde que deixou o emprego: Refletindo sobre os ganhos e perdas de mil perguntas, prevendo que a segunda metade da IA exigirá “pensamento de agente inteligente”.
Liderando a equipe que lançou a série de modelos em miniatura Qwen 3.5 e recebeu elogios públicos de Elon Musk, Lin Junyang anunciou sua saída da Alibaba nas redes sociais apenas 20 horas depois. A saída de Lin Junyang da Alibaba é, por si só, um dos eventos mais marcantes da indústria de IA em 2026.
Aos 32 anos, o mais jovem membro do P10 do Alibaba, ele construiu sozinho a Qianwen, transformando-a em uma plataforma com mais de 1 bilhão de downloads globais e mais de 200.000 modelos derivados, tornando-se o novo rei dos modelos de código aberto em todo o mundo. Sua saída ocorreu devido a uma divergência sobre uma reestruturação organizacional.
A Alibaba quer dividir horizontalmente a equipe Qwen de acordo com dimensões como pré-treinamento, pós-treinamento, visão e fala, e fundi-la com outras equipes do Tongyi Lab; Lin Junyang acredita firmemente que as equipes de pré-treinamento, pós-treinamento e até mesmo de infraestrutura devem ser mais integradas verticalmente, em vez de separadas. Isso não é apenas uma disputa sobre estilos de gestão, mas uma divergência de abordagens para a questão fundamental de "como treinar o melhor modelo".
Quase um mês após sua saída, Lin Junyang publicou este longo artigo. Ele não comentou nenhuma turbulência interna, mas revelou diretamente seu julgamento sobre o próximo estágio da IA: Estamos passando da era do "treinamento de modelos" para a era do "treinamento de agentes inteligentes" .
Vale a pena ler este artigo palavra por palavra, não só porque o autor supervisionou pessoalmente o pós-treinamento de toda a série Qwen nos últimos dois anos, mas também porque Lin Junyang oferece uma análise rara dos ganhos e perdas do Qwen3 em termos de "modo de pensamento híbrido".

Segue abaixo a tradução da APPSO da obra de Lin Junyang:
original
https://x.com/JustinLin610/status/2037116325210829168
Da "análise racional" à "análise de agentes"
Os últimos dois anos mudaram completamente a forma como avaliamos os modelos de IA.
O modelo o1 da OpenAI provou uma coisa: "pensar" pode ser uma capacidade essencial de um modelo, algo que pode ser especificamente treinado e entregue diretamente aos usuários. O DeepSeek-R1 veio logo em seguida, provando que esse "pós-treinamento baseado em inferência" não é patente de grandes empresas, mas pode ser reproduzido e expandido para além dos laboratórios originais. Em termos simples: o1 é um modelo que foi treinado para "pensar antes de responder", enquanto o R1 é uma versão de código aberto do mesmo modelo, competindo diretamente com o o1.
Essa fase é importante. Mas o tema principal do setor no primeiro semestre de 2025, em essência, ainda gira em torno de uma coisa: como fazer o modelo "pensar" mais . Fazer com que ele consuma mais poder computacional durante a fase de inferência, treiná-lo com sinais de recompensa mais fortes e expor ou controlar esses "processos de pensamento" extras.
A questão agora é: E depois?
Acredito que a resposta seja o pensamento inteligente, semelhante ao de um agente . Pensar para agir, interagindo com o ambiente real e revisando constantemente os planos com base no feedback do mundo.
1. O que o surgimento do O1 e do R1 realmente nos ensinou?
A primeira geração de modelos de inferência nos ensinou uma lição simples: para executar aprendizado por reforço em modelos grandes, você precisa de um padrão de pontuação confiável.
O que significa "confiável"? Significa que a resposta pode ser julgada como certa ou errada, o resultado pode ser verificado e o sinal de feedback é suficientemente claro. Problemas matemáticos têm respostas padrão, o código pode executar testes e o raciocínio lógico pode verificar as etapas. Essas áreas se tornaram o principal campo de batalha para o aprendizado por reforço, porque os sinais de recompensa recebidos pelo modelo são muito mais fortes do que "fazer um anotador humano pensar que esta resposta está correta". Em outras palavras, o aprendizado por reforço pode finalmente otimizar a correção e não precisa mais se limitar a buscar algo que pareça plausível.
Então, a importância da infraestrutura tornou-se repentinamente evidente.
Uma vez que você começa a treinar modelos para cadeias de inferência mais longas, o aprendizado por reforço deixa de ser tão simples quanto adicionar um pequeno acessório ao ajuste fino supervisionado; ele se torna um projeto complexo de engenharia de sistemas. Você precisa de simulações em larga escala (implementação), verificação de respostas de alto rendimento, iteração de políticas estável e processos de amostragem eficientes. O surgimento de modelos de inferência, embora superficialmente represente um avanço nos algoritmos, é fundamentalmente uma vitória para a infraestrutura .
A OpenAI define o1 como uma linha de produtos de inferência treinada com aprendizado por reforço; o DeepSeek R1 assume e valida a mesma direção, demonstrando também o quão exigente o aprendizado por reforço baseado em inferência é em termos de algoritmos e infraestrutura subjacentes.
Destaques da APPSO: A primeira grande mudança ocorreu. O foco da indústria mudou de "expandir o pré-treinamento" para "expandir o pós-treinamento para inferência". Os modelos não estão mais se tornando mais robustos consumindo mais dados, mas aprendendo "como pensar" na fase de pós-treinamento.
2. O verdadeiro desafio nunca é apenas "integrar padrões de pensamento e instrução".
No início de 2025, nossa equipe da Qwen tinha uma grande visão em mente.
O sistema ideal seria assim: um modelo que lidasse simultaneamente com os modos de "pensamento" e "execução". Você poderia ajustar manualmente a profundidade do seu raciocínio — leve, médio ou profundo — assim como ajusta a temperatura de um ar-condicionado. Melhor ainda, o próprio modelo poderia determinar: este problema é fácil, responda diretamente; este problema é um pouco difícil, pense mais; este problema é extremamente difícil, mobilize todo o poder computacional para resolvê-lo.
A direção estava correta. O Qwen3 foi uma das tentativas públicas mais claras da época. Ele introduziu um " modo de pensamento híbrido ", que suportava tanto o comportamento de "pensar antes de responder" quanto o de "responder diretamente" dentro de uma família de modelos. Também descrevia um pipeline de pós-treinamento de quatro estágios, que incluía explicitamente uma etapa de "fusão de modos de pensamento" após a inicialização a frio da inferência de cadeia longa e o aprendizado por reforço da inferência.
Mas a integração é uma questão complexa; é fácil falar sobre ela, mas incrivelmente difícil de implementar .
Qual é a dificuldade? A dificuldade reside nos dados.
Quando muitas pessoas ouvem falar em "pensamento integrado e modos de comando", imediatamente pensam em questões de nível de modelo: um arquivo de modelo pode ser executado em dois modos simultaneamente? Um modelo de diálogo pode alternar entre dois estilos? Um serviço de inferência pode expor o botão liga/desliga correto? Essas são, de fato, questões que precisam ser abordadas, mas não são os maiores obstáculos.
A maior dificuldade reside no fato de que os dois modelos são fundamentalmente diferentes em seus objetivos .
Pense bem: como deve ser um bom "modelo de instruções"? Ele deve ser conciso, simples, formatado corretamente e responsivo. Usuários corporativos o utilizam para reescrita de texto em lote, marcação, atendimento ao cliente baseado em modelos e extração de dados estruturados — cenários que priorizam eficiência e estabilidade, sem a necessidade de complicação.
Um bom "modelo de pensamento"? Muito pelo contrário. Ele deve dedicar mais tempo a problemas difíceis, manter etapas intermediárias de raciocínio claras, explorar diferentes caminhos de solução e reservar "margem de reflexão" suficiente para garantir a correção da resposta final.
Essas duas características de personalidade são inerentemente incompatíveis. Se os dados de treinamento combinados não forem cuidadosamente projetados, o modelo resultante frequentemente falha em satisfazer qualquer um dos lados: ele é prolixo, hesitante e indeciso ao pensar; e não é preciso, estável, caro ou mais lento do que a versão que o cliente realmente precisa ao executar instruções.
Para ser sincero, não acertamos em tudo no processo de equilibrar integração e qualidade dos dados .
Durante o processo contínuo de revisão, também observamos cuidadosamente como os usuários realmente utilizavam esses dois modos. A conclusão é clara: esses dois perfis comportamentais, de fato, se opõem.
A realidade era clara. Mais tarde, em 2025, seguindo a arquitetura híbrida inicial do Qwen3, nossa versão 2507 ainda apresentava versões separadas para Instrução e Processamento, incluindo variantes distintas de 30 bits e 235 bits. Muitos clientes corporativos não precisavam se preocupar com padrões ; eles queriam alto desempenho, baixo custo e comportamento de instrução altamente controlável para executar tarefas em lote. Para esses clientes, a convergência não era uma vantagem, mas um custo desnecessário. Separar as versões permitiu que as equipes de ambas as linhas se concentrassem mais intensamente na solução de seus respectivos problemas.
Outros laboratórios adotaram a abordagem oposta:
A Anthropic apostou publicamente em uma abordagem integrada. O Claude 3.7 Sonnet é um modelo de inferência híbrido onde os usuários podem escolher entre respostas padrão ou raciocínio expandido, e a API também permite definir um "orçamento de raciocínio". A Anthropic afirmou explicitamente que a inferência deve ser uma capacidade integrada do modelo, e não um modelo separado e independente.
O GLM-4.5 também se concentra no raciocínio híbrido, unificando raciocínio, programação e capacidades do agente em um único modelo.
O DeepSeek V3.1 posteriormente fez algo semelhante, lançando uma solução de inferência híbrida "Think & Non-Think".
Então a pergunta é: quem está certo?
A resposta não reside na escolha entre "integração" e "separação", mas sim na naturalidade dessa integração. Se o modo de pensar e o modo de instruir forem forçados a caber no mesmo modelo, como duas pessoas com personalidades muito diferentes sendo obrigadas a usar uma mesma roupa, a experiência do usuário não será boa.
Uma fusão verdadeiramente bem-sucedida requer um espectro suave : o modelo pode alternar livremente entre diferentes intensidades de inferência e, idealmente, pode até determinar quanto esforço usar . O controle de esforço no estilo GPT aponta nessa direção; é uma estratégia contínua sobre "quanto poder computacional gastar pensando", não uma alternância binária de "pensar/não querer".
Destaques da APPSO: Lin Chun-yang raramente fala abertamente sobre a integração do Qwen3, afirmando que "não foi feita completamente da maneira correta". A principal contradição é, na verdade, fácil de entender: combinar à força um executor implacável e de ritmo acelerado com um pensador ponderado e deliberado resulta facilmente em um desempenho incompleto em ambas as partes.
3. Por que a direção antrópica é uma forma benéfica de correção?
A abordagem da Anthropic com Claude 3.7 e Claude 4 é um notável exercício de contenção.
Em vez de se concentrarem em quanto o modelo consegue "pensar", eles enfatizaram: raciocínio integrado, orçamentos de pensamento controlados pelo usuário, tarefas do mundo real, qualidade da programação e uma etapa crucial posterior: permitir que o modelo use ferramentas enquanto pensa . O Claude 3.7 é um modelo de raciocínio híbrido com um orçamento controlado; o Claude 4 vai além, permitindo que o raciocínio e o uso de ferramentas sejam intercalados, pensando e agindo simultaneamente. Enquanto isso, o Anthropic prioriza a programação, tarefas de longa duração e fluxos de trabalho do agente.
Aqui reside uma percepção profunda:
Uma cadeia de raciocínio mais longa não equivale a um modelo mais inteligente . Na verdade, muitas vezes ocorre o oposto. Se um modelo usa a mesma abordagem de raciocínio extensa para todos os problemas, significa que ele não consegue priorizar. É provável que esteja falhando em três aspectos: o que priorizar (priorização), o que condensar (condensação de informações) e quando parar de pensar e começar a agir (tomada de decisão).
A abordagem da Anthropic sugere uma perspectiva mais disciplinada: o pensamento deve servir a objetivos de trabalho específicos . Se você está programando, o pensamento deve ajudá-lo a navegar pelas bases de código, planejar a arquitetura, decompor problemas, recuperar-se de erros e orquestrar chamadas de ferramentas. Se você está trabalhando em um fluxo de trabalho de agente, o pensamento deve ajudá-lo a manter a qualidade ao longo do longo processo de execução, em vez de produzir uma série de documentos intermediários impressionantes, mas, em última análise, improdutivos.
Essa ideia de que "o pensamento deve servir à ação" aponta para uma proposição mais ampla:
Estamos passando da era do treinamento de modelos para a era do treinamento de agentes inteligentes .
Já declaramos isso explicitamente no blog da Qwen3. O que é um agente inteligente? É um sistema capaz de fazer planos, decidir quando agir, usar ferramentas, perceber o feedback do ambiente, ajustar estratégias e operar continuamente por longos períodos. Em resumo, sua essência é: interação em circuito fechado com o mundo real .
O ponto-chave da APPSO : extensão não é sinônimo de força. A prática da antropologia oferece um importante sinal corretivo. O valor do pensamento reside em sua capacidade de realmente servir ao objetivo final da ação, e não na quantidade de palavras de raciocínio produzidas. Trata-se de uma mudança do "raciocínio ostentoso" para o "pensamento prático".
4. O que significa exatamente "pensamento autônomo inteligente"?
Tendo preparado o terreno por tanto tempo, vamos ao que interessa.
O pensamento de um agente inteligente e o raciocínio lógico têm objetivos de otimização completamente diferentes.
Para ilustrar: o raciocínio é como uma prova sem consulta; o critério é se a sua resposta está correta no momento em que você entrega a prova. A capacidade do modelo de resolver teoremas, escrever demonstrações, produzir código correto e passar em testes de desempenho é fundamental. Não importa o quão elaborado seja o seu raciocínio, no final das contas, apenas o resultado importa.
O pensamento inteligente se assemelha mais ao trabalho em um projeto no mundo real . O critério de avaliação não é a resposta em um determinado momento, mas sim a capacidade de avançar continuamente e resolver problemas no processo de interação constante com o ambiente.
A questão central mudou.
A questão mudou de "Por quanto tempo o modelo consegue pensar?" para " O modelo consegue pensar de uma forma que sustente uma ação eficaz? "
Isso exige que o modelo lide com uma série de problemas que os modelos de inferência tradicionais podem contornar:
- Quando você deve parar de pensar e começar a agir? Pensar demais fará com que você perca a oportunidade; pensar de menos levará a erros.
- Qual ferramenta deve ser acionada e em que ordem? Este é um problema de planejamento e programação.
- Como processamos as informações ruidosas e incompletas do ambiente? O mundo real não nos fornece informações claras e objetivas.
- E se falharmos? Não podemos desistir; temos que rever o plano e continuar.
- Como podemos manter a consistência após dezenas de interações e chamadas de ferramentas? Este é um problema de memória de longo prazo e consistência.
Se eu tivesse que resumir em uma frase:
O pensamento de um agente inteligente é um modelo que raciocina por meio da ação. Ele pensa continuamente enquanto age.
A APPSO destaca este ponto crucial : o raciocínio baseado em fatos é como uma prova sem consulta, enquanto o pensamento baseado em agentes é como concluir um projeto no mundo real. O primeiro se concentra em saber se a resposta final está correta, enquanto o segundo avalia sua capacidade de avançar continuamente em ambientes complexos, dinâmicos e imprevisíveis. Isso representa uma mudança fundamental nos sistemas de avaliação da capacidade da IA.
5. Por que a infraestrutura para aprendizado por reforço (RL) baseado em agentes é mais difícil?
Quando o objetivo muda, todo o trabalho de engenharia subjacente deve ser alterado em conformidade.
A infraestrutura utilizada na aprendizagem por reforço de inferência clássica já não é suficiente.
Para entender a diferença intuitivamente: em aprendizado por reforço baseado em inferência, o modelo resolve um problema, fornece uma resposta e o avaliador atribui uma pontuação. Todo o processo é essencialmente autocontido e o avaliador é relativamente imparcial. É como corrigir provas em uma sala de exame fechada.
No entanto, em aprendizado por reforço baseado em agentes, o modelo não responde a perguntas em uma sala de exame; ele opera em um ambiente complexo do mundo real . Servidores de ferramentas, navegadores, terminais de linha de comando, mecanismos de busca, simuladores, ambientes de execução de código, interfaces de API, sistemas de memória, frameworks de agendamento… as estratégias do modelo estão incorporadas em todo esse sistema. O ambiente não é mais um juiz observando e atribuindo notas; ele próprio faz parte do sistema de treinamento.
Isso introduz um novo requisito crítico: o treinamento e a inferência devem ser mais claramente desacoplados . Caso contrário, o desempenho de todo o sistema entrará em colapso.
Para dar um exemplo concreto: um agente de programação gera um código e precisa executá-lo em um ambiente de teste real para ver os resultados. Nesse ponto, o mecanismo de inferência está aguardando o feedback da execução e não pode fazer mais nada; o mecanismo de treinamento está aguardando os dados de trajetória completos e também está com recursos limitados. A utilização da GPU em todo o pipeline é muito menor do que o esperado em aprendizado por reforço com inferência clássica. Some a isso a latência de resposta da ferramenta, a visibilidade incompleta do estado do ambiente e o fato de que cada interação altera o estado do ambiente, e essas ineficiências são amplificadas exponencialmente. O resultado é: você está longe de atingir o nível de capacidade desejado e os experimentos já são frustrantemente lentos.
O próprio meio ambiente tornou-se um tema de pesquisa ao nível de cidadãos de primeira classe .
Na era do Ajuste Fino Supervisionado (SFT), todos competiam com base na diversidade de dados; quem tivesse mais dados e dados melhor rotulados levava vantagem. Na era dos agentes inteligentes, a competição muda para a qualidade do ambiente : o ambiente é estável? É realista o suficiente? Quantos cenários ele abrange? O gradiente de dificuldade é razoável? O espaço de estados é suficientemente rico? Os sinais de feedback são suficientemente informativos? O modelo consegue encontrar brechas para explorar? A eficiência na geração de trajetórias de treinamento em larga escala é suficientemente alta?
A construção de ambientes está se transformando de um "componente experimental montado de forma aleatória" em uma vertente empreendedora independente . Se o agente inteligente que você treina for operar em um ambiente semelhante ao de produção, então esse ambiente em si faz parte do seu conjunto de competências essenciais.
A principal conclusão da APPSO: Resumindo essa mudança em uma frase, a era da SFT (Sistemas de Treinamento de Forças) era focada em dados, enquanto a era dos agentes inteligentes é focada no ambiente. Construir ambientes de treinamento de alta qualidade está evoluindo de "o trabalho sujo no laboratório" para "um ativo estratégico que determina o quão longe você pode chegar".
6. A próxima fronteira é um pensamento mais prático.
A meu ver, o pensamento inteligente baseado em agentes se tornará a forma dominante de pensamento .
É provável que eventualmente substitua o raciocínio monólogo estático antiquado, que é o tipo de abordagem em que o modelo se isola e murmura um longo processo de raciocínio interno para si mesmo, tentando compensar a deficiência fundamental de "não consigo interagir com o mundo exterior" com cada vez mais palavras.
Mesmo diante de problemas matemáticos ou de programação extremamente difíceis, um sistema verdadeiramente avançado deve ter a capacidade de pesquisar, simular, executar, verificar e corrigir. O objetivo é resolver o problema de forma eficaz, robusta e eficiente . Não se trata de quem escreve a cadeia de raciocínio mais longa ou elegante.
No entanto, treinar tais sistemas apresenta um desafio mais difícil do que qualquer outro: a manipulação de recompensas .
Uma vez que o modelo adquire capacidades verdadeiramente significativas, semelhantes a ferramentas, o risco de apropriação indevida de recompensas aumenta exponencialmente. Como podemos entender isso?
- Um modelo pesquisável pode ter aprendido a buscar respostas diretamente durante o treinamento de aprendizado por reforço, em vez de por meio de raciocínio; ele encontra as respostas diretamente.
- Um agente de programação pode aprender a explorar informações futuras em um repositório de código (como casos de teste que contêm implicitamente a resposta), abusar de registros ou descobrir um atalho para fazer uma tarefa "passar" diretamente sem realmente fazer nada.
- Se houver vazamentos de informações ocultas no ambiente de treinamento, o modelo pode parecer ter um desempenho sobre-humano, mas, na realidade, ele foi treinado apenas para ser um trapaceiro eficiente.
É aqui que a era dos agentes inteligentes se mostra muito mais sofisticada e perigosa do que a era do raciocínio . Quanto mais poderosas as ferramentas, mais úteis se tornam os modelos, mas também mais brechas podem ser exploradas. Ferramentas melhores também ampliam a superfície de ataque das "otimizações espúrias".
Prevejo que o próximo gargalo de pesquisa que irá atrasar todo o setor virá destas áreas: projeto do ambiente, robustez dos avaliadores, protocolos antifraude e uma interface mais pautada em princípios entre as políticas públicas e a realidade.
Mas a direção é clara: pensar em capacitação por meio de ferramentas é mais útil e tem maior probabilidade de gerar melhorias reais de produtividade do que pensar nisso a portas fechadas.
O pensamento de agentes inteligentes também implica um tipo completamente novo de engenharia de sistemas. A inteligência central virá cada vez mais da forma como múltiplos agentes são organizados: um orquestrador responsável pelo planejamento geral e distribuição de tarefas, um grupo de agentes especialistas e subagentes que executam tarefas mais específicas, que ajudam a controlar a janela de contexto, evitar a contaminação de informações e manter limites claros entre o raciocínio em diferentes níveis.
O roteiro futuro consiste em um salto em três etapas: do treinamento de modelos, para o treinamento de agentes e, em seguida, para o treinamento de sistemas .
A principal conclusão da APPSO: as ferramentas tornam os modelos mais úteis, mas também mais fáceis de manipular. O desvio de recompensas é uma "bomba-relógio" na era dos agentes inteligentes. Quem resolver primeiro as questões de design ambiental e combate à manipulação terá a vantagem na próxima fase da competição.
para concluir
A primeira fase da onda de inferência estabeleceu um ponto crucial: quando os sinais de feedback são confiáveis e a infraestrutura consegue suportar a carga, o aprendizado por reforço em modelos de grande porte pode produzir um salto qualitativo na cognição.
Mas a mudança mais profunda é da mentalidade baseada no raciocínio para a mentalidade baseada em agentes: de "pensar por mais tempo" para "pensar para agir" .
O foco principal do treinamento mudou. Não se trata mais de um modelo isolado, mas sim de todo o sistema, composto pelo modelo e pelo ambiente . Mais especificamente, trata-se do próprio agente, além de toda a engenharia que o envolve. Isso significa que a importância da pesquisa também mudou: a arquitetura do modelo e os dados de treinamento ainda são importantes, mas o design do ambiente, a infraestrutura de implantação, a robustez do avaliador e as interfaces de coordenação entre múltiplos agentes são igualmente cruciais.
Isso também altera a definição de "bom raciocínio": a melhor linha de raciocínio é aquela que consegue manter uma ação eficaz sob as restrições do mundo real . Não é a linha mais longa, nem a mais elegante, mas sim a mais útil.
Isso também alterou a fonte da vantagem competitiva:
Na era da inferência, a competição reside em melhores algoritmos de aprendizado por reforço, sinais de feedback mais robustos e fluxos de treinamento mais escaláveis.
Na era dos agentes inteligentes, a chave para o sucesso reside em melhores ambientes de treinamento, maior integração entre treinamento e inferência, capacidades mais robustas de engenharia de sistemas e a habilidade de fechar o ciclo "decisão → consequência → aprendizado" .
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.


