Musk gastou 10 bilhões de dólares para descobrir uma coisa: não se tornar um agente de programação é o mesmo que esperar a morte.

1.

Os dois maiores rivais da OpenAI, Anthropic e Musk, finalmente formaram uma aliança no início do mês, após deixarem de lado seus preconceitos.

Antes disso, a Anthropic e Musk tinham uma relação tensa: em fevereiro deste ano, Musk acusou a Anthropic em sua conta X de ser "progressista", "má" e "misantropa", dizendo que a empresa era "anti-civilização".

Em retrospectiva, esse ataque não se deveu à personalidade pouco convencional de Musk, mas sim porque algo que a Anthropologie fez o incomodou profundamente, e havia um motivo por trás disso.

Antes disso, a xAI utilizava o Cursor internamente, mas no início deste ano, os funcionários descobriram que o modelo Claude estava repentinamente inutilizável na conta corporativa do Cursor da xAI.

Wu Yuhuai, o cofundador que ainda trabalhava na xAI na época, disse o seguinte em um e-mail para todos os funcionários: "A Anthropic atualizou sua política, exigindo que o Cursor não forneça aos seus principais concorrentes a capacidade de chamar modelos Claude."

Na ocasião, Wu Yuhuai escreveu uma frase bastante interessante em sua carta:

"Isso é uma notícia boa e ruim ao mesmo tempo. Nossa produtividade será afetada, mas também nos incentiva a desenvolver nossos próprios produtos e modelos de codificação."

Por que a alta administração da xAI acreditava que desenvolver seus próprios produtos de programação era crucial naquele momento?

O que aconteceu em seguida é bem conhecido. Toda a equipe fundadora da xAI abandonou o projeto e Musk, num acesso de raiva, usou seu poder financeiro para dar o golpe final na Cursor.

No final do mês passado, a SpaceX e a Cursor anunciaram conjuntamente uma parceria estratégica sem precedentes para treinar modelos de IA para programação e empregos baseados em conhecimento; além disso, a SpaceX também adquiriu o direito de comprar a Cursor por US$ 60 bilhões ou pagar à Cursor US$ 10 bilhões em taxas de cooperação.

Observe o qualificador chave " programação ", que será usado posteriormente na seção de retorno de chamada.

2.

Recentemente, assisti a um vídeo de Theo Browne, um dos primeiros investidores da Cursor, crítico ferrenho da Anthropic e fundador da T3.

Inicialmente, cliquei para ver suas críticas à AstraZeneca e à SpaceX por suas práticas desonestas, mas, inesperadamente, encontrei uma análise singular e extremamente sensata sobre a colaboração entre a SpaceX e a Cursor:

Deixando de lado a aquisição de 60 bilhões, considerando apenas a taxa de cooperação de 10 bilhões , Theo afirmou no vídeo que acredita que "mesmo que seja apenas a troca de dados de usuários da Cursor, esses 10 bilhões valem a pena".

Então, que dados são esses? Se você assistir ao vídeo do Theo, ele explicará tudo muito claramente. Mas, para economizar tempo, vamos resumir brevemente aqui:

Nosso diálogo com a IA é um processo de vai e vem: você faz perguntas/solicitações e ela fornece respostas; o agente de codificação funciona de maneira semelhante, exceto que retorna código.

Um diálogo de alta qualidade, todo o processo incluindo as instruções do usuário, o raciocínio do modelo, o planejamento do agente, a saída do código e a verificação — tudo isso combinado pode ser chamado de Ciclo Agético completo — torna-se dados de treinamento de alto valor. Alimentar o modelo com esses dados para aprendizado por reforço pode melhorar ainda mais o desempenho do modelo em cenários do mundo real.

Cursor tem essa informação, e são exatamente esses dados que a SpaceX quer.

Mas de onde vêm esses dados?

A resposta é simples: como fornecedor de modelos, a fonte mais direta desses dados de alta qualidade só pode ser o seu próprio produto de agente de codificação — ou seja, o Claude Code da Anthropic, o Codex da OpenAI e o Kimi Code da Kimi.

Agora você deve entender por que, após ser "banido" pela Anthropic, Wu Yuhuai propôs, em um e-mail para toda a equipe, o desenvolvimento de produtos e modelos de codificação próprios para a xAI. A xAI já havia compreendido isso claramente naquela época:

Sem nossos próprios produtos de codificação, carecemos de dados de aprendizado por reforço de alta qualidade; sem dados de alta qualidade, não podemos treinar modelos de codificação verdadeiramente práticos.

Embora isso possa parecer um pouco extremo, podemos agora chegar ao ponto principal: para que os fabricantes de modelos criem modelos de programação verdadeiramente competitivos, desenvolver seus próprios produtos de agentes de codificação é a única maneira.

3.

Os grandes modelos de linguagem são como bolas de cristal, treinadas usando corpora de toda a internet, e parecem capazes de responder a tudo, mas isso não significa que possam fornecer respostas de alta qualidade para todas as perguntas.

Treinar com centenas de milhões de entradas de código no GitHub certamente pode treinar um modelo de codificação. Essa é a lógica por trás dos "resultados de aprendizado", e é válida. Afinal, os resultados das tarefas de codificação são verificáveis: se o código funciona ou passa nos testes, essa é a evidência.

No entanto, o processo que leva ao resultado é uma cadeia complexa que envolve tomada de decisão em várias etapas, correção de erros e alinhamento de intenções. Cada instância de aceitação, rejeição, conclusão, desistência, questionamento de acompanhamento ou mesmo abuso verbal por parte do usuário, quando o modelo falha várias vezes ou comete um erro completo, são sinais de processo ao longo dessa cadeia.

Existem dois tipos de supervisão em aprendizado por reforço. Um deles é chamado de supervisão de resultado, que verifica apenas se o código é executado com sucesso no final. No entanto, a supervisão de resultado pode levar ao fenômeno de "recompensar hackers": para fazer o código funcionar, o modelo pode escrever código redundante, frágil e logicamente falho, mas, como ele foi testado, o modelo pensa que aprendeu corretamente.

Outro tipo é chamado de supervisão de processo, que pontua cada etapa no caminho de inferência. Esses sinais de processo só podem ser gerados dentro do ambiente de execução do agente de codificação. Um repositório do GitHub contém apenas resultados; mesmo analisando o histórico de commits ou pull requests individuais, não serão revelados sinais de processo válidos.

Quando há falta de sinais de processo eficazes e obtidos de forma independente, alguns fabricantes de modelos utilizam o método de "destilação", que você provavelmente já conhece.

A lógica da destilação é simples: dada a mesma entrada, qualquer que seja a saída do modelo do professor, o modelo do aluno aprenderá a produzir a mesma saída. No entanto, embora a destilação possa capturar o processo de pensamento, o que obtemos ainda está mais próximo do resultado final do que a distribuição de probabilidade dentro do modelo do professor destilado.

Se um aluno se desviar da linha de raciocínio do professor, mesmo uma única resposta incorreta pode causar esse desvio.

Isso decorre de uma limitação fundamental do aprendizado por reforço: o teorema do gradiente de política exige que as amostras de otimização sejam idealmente geradas pelo próprio modelo que está sendo otimizado. Esse tipo de dado é chamado de dados on-policy. Treinar um modelo próprio usando dados gerados a partir de produtos de outros modelos (derivados de outros modelos) se enquadra na categoria de dados off-policy. Embora o modelo certamente possa aprender com esses dados off-policy, ele não pode aprender as informações de distribuição de probabilidade presentes no modelo original.

Empresas como a Cursor, que são produtos de agentes de codificação, possuem os dados de treinamento mais autênticos, eficazes e de alta qualidade. O próprio produto Cursor é o melhor campo de treinamento para modelos de codificação em ambientes do mundo real.

Podemos usar a "quebra" do Cursor no início do ano para comprovar essa lógica.

4.

Os leitores da APPSO talvez se lembrem de que a Cursor lançou o Composer 2 no início do ano, anunciado como o "modelo de programação dedicado de próxima geração". Os relatórios técnicos sobre ele foram relativamente conservadores e não forneceram informações específicas sobre o modelo subjacente.

Logo depois, internautas descobriram o ID do modelo de Kimi em trechos de código disponíveis publicamente, e capturas de tela se espalharam pela comunidade de desenvolvedores, forçando o vice-presidente da Cursor, Lee Robinson, a esclarecer: "O Composer 2 realmente se originou de uma plataforma de código aberto. No entanto, apenas cerca de 1/4 do poder computacional do modelo veio da plataforma, enquanto os 3/4 restantes foram treinados por nós."

Algumas horas depois, Aman Sanger, cofundador da Cursor, também publicou um pedido de desculpas: "Foi um erro não mencionar a base Kimi no início."

Cinco dias depois, a Cursor divulgou o relatório técnico completo do Composer 2, mostrando que a base era de fato o Kimi K2.5, o licenciante era a Firworks AI e o processo geral consistia em treinar no K2.5 e depois continuar com o aprendizado por reforço (RL) em larga escala.

O ponto crucial é que o RL do Composer 2 é executado em uma sessão Cursor real, usando exatamente as mesmas ferramentas e recursos da implementação de produção.

A Cursor chama esse processo de "aprendizado por reforço em tempo real", o que significa implantar o ponto de verificação do modelo diretamente no ambiente de produção da Cursor para observar as respostas do usuário, coletar dados e agregá-los em sinais de recompensa — ela pode iterar a versão do modelo a cada 5 horas e, em seguida, continuar a implantá-la na Cursor, repetindo o ciclo.

O exemplo mais extremo é o recurso Tab do Cursor para preenchimento automático de código, que processa mais de 400 milhões de solicitações por dia. Sempre que um usuário digita caracteres ou move o cursor, o modelo prevê a próxima ação. Se a confiança da previsão for alta, ele exibe sugestões e o usuário pressiona Tab para aceitar o preenchimento automático.

Este recurso utiliza aprendizado por reforço online, uma característica exclusiva do setor. O Cursor pode atualizar as capacidades do modelo do Tab para os usuários com uma frequência extremamente alta (a cada uma hora e meia ou duas horas), coletando dados de acordo com as políticas diretamente no produto para treinamento.

Esse ciclo de feedback de alta frequência e quase em tempo real permite que o Tab aprenda intenções extremamente sutis do usuário. A Cursor revelou que esse método reduziu a taxa de rejeição do Tab em 21% e aumentou sua taxa de aceitação em 28%.

Voltando ao modelo Composer em si, após os esclarecimentos, alguns funcionários da Kimi apagaram seus tweets sarcásticos anteriores, e a conta oficial da Kimi publicou uma mensagem de parabéns.

Uma empresa de camada de aplicação de agentes de codificação avaliada em US$ 60 bilhões (com base nos números de Musk) que não constrói sua própria base de modelos ainda pode usar seu próprio ciclo de dados para extrair modelos de programação proprietários que vão além do modelo base.

Portanto, em vez de dizer que o Cursor travou, é mais preciso dizer que este é um exemplo perfeito da importância de produtos de agentes de codificação.

Em outro artigo sobre aprendizado por reforço em tempo real, Cursor escreveu: "(Treinando um modelo de programação) O maior desafio reside na modelagem do usuário. No ambiente de produção do Composer, não há apenas um computador executando comandos, mas também pessoas supervisionando e orientando-o. Simular um computador é fácil, mas simular as pessoas que o utilizam é ​​difícil."

Essa afirmação está gradualmente se tornando um consenso entre os principais fornecedores de modelos na área de programação. Se você observar listas de benchmarks e avaliações gerais de usuários, verá que os principais fornecedores estão investindo pesadamente em seus próprios agentes de codificação/produtos de programação. A única diferença reside em quem está mais próximo do usuário.

Tomando como exemplo listas de classificação relativamente confiáveis, como SWE-bench e LLM-Stats, modelos como Claude, GPT, Gemini e Kimi praticamente dominam o top dez. Todos são fornecedores de modelos que desenvolveram seus próprios produtos de agentes de codificação (incluindo CLI, IDE e clientes de desktop que integram agentes de codificação).

Em algumas listas aparecem alguns contraexemplos, como Meta ( Muse Spark) e DeepSeek, que não desenvolveram seu próprio agente de codificação.

No entanto, você descobrirá que esses modelos de contraexemplo têm dificuldade em se classificar em benchmarks mais confiáveis, que se aproximam mais de cenários do mundo real e evitam contaminação. Por exemplo, o DeepSeek atinge 70% e fica em nono lugar apenas no SWE-bench bash, mas sua pontuação cai para cerca de 15% no SWE-bench Pro.

Os dados de tráfego do OpenRouter no mundo real podem explicar essa discrepância: o relatório da plataforma de 2025 mostra que mais de 80% do consumo de tokens Claude foi usado para programação e tarefas técnicas, enquanto o consumo de tokens DeepSeek foi focado principalmente em conversas informais e jogos de interpretação de papéis.

Fornecedores sem produtos de codificação próprios podem até conseguir boas classificações em alguns benchmarks de tarefas de programação, mas serão expostos como incompetentes em benchmarks de engenharia mais desafiadores do mundo real e no tráfego real, onde os usuários consomem tokens para votar.

Não apenas a Cursor, mas a Anthropic também revelou explicitamente em um artigo publicado em novembro de 2025 que estava fazendo exatamente a mesma coisa: "Nós treinamos no próprio ambiente de programação de produção real da Anthropic." Ou seja, a Anthropic retroalimenta os dados de interação de seus funcionários que usam o Claude Code para o modelo Claude para treinamento.

5.

Na evolução da IA, a definição de fatores de produção sofreu uma transformação profunda. Embora os três elementos centrais tradicionais — poder computacional, pesquisa e dados de treinamento — continuem a crescer em quantidade total, eles se tornaram gravemente desequilibrados em sua estrutura.

As principais empresas de IA da atualidade aumentaram significativamente seus investimentos em poder computacional, tornando a infraestrutura de computação o tema dominante no discurso público atual. No entanto, na realidade, especialmente na área de programação, à medida que os fornecedores de modelos exploram dados de código disponíveis publicamente na internet, como repositórios do GitHub e Stack Overflow, numa estratégia de "esvaziar o lago para pegar todos os peixes", os limites dos modelos na geração de código e no raciocínio lógico estão se tornando gradualmente evidentes.

É por isso que o consenso da indústria está gradualmente se deslocando para uma nova posição estratégica privilegiada:

Para qualquer fornecedor de modelos que deseje dominar as capacidades de codificação de alto nível, construir seu próprio produto de agente de codificação deixou de ser uma opção e se tornou uma necessidade essencial para garantir a evolução contínua do modelo subjacente.

Como a APPSO argumentou anteriormente, aprender apenas com dados disponíveis publicamente é como aprender somente o resultado de pessoas bem-sucedidas, sem entender o caminho percorrido até o sucesso. Definitivamente, essa não é a verdadeira definição de sucesso. Em um ambiente de programação real, saber quais erros ocorreram, como ocorreram e como entender e implementar os requisitos de forma correta e eficiente — entender o processo correto — é muito mais valioso do que obter o resultado correto em si.

Somente possuindo seus próprios produtos de codificação, os fornecedores de modelos podem obter sinais de "supervisão de processos" de alta qualidade, garantindo assim que mantenham uma vantagem tecnológica na próxima etapa da competição em capacidades de codificação/inferência.

Caso contrário, teriam que fazer o que a SpaceXAI fez e gastar dinheiro para firmar parcerias com empresas de produtos de agentes de codificação.

Contudo, nem todos os fabricantes de modelos são tão ricos quanto Musk, e a divisão de poder, as alianças e as disputas territoriais entre os gigantes a partir de 2026 se intensificarão ainda mais. Quando um fabricante de modelos que não possui seus próprios produtos de programação finalmente perceber isso, poderá não ter parceiros suficientes para escolher, e o preço da cooperação também aumentará proporcionalmente.

A situação dos principais fabricantes de modelos dos EUA é geralmente bem conhecida, portanto não entraremos em detalhes aqui. A APPSO também observou que a maioria dos principais fabricantes de modelos nacionais e gigantes da IA ​​já entraram no mercado de produtos de agentes de codificação.

As grandes empresas nacionais estão trabalhando principalmente em IDEs de IA nativas ou plugins para IDEs: a ByteDance lançou o TRAE no início do ano passado, a Alibaba tem o Qoder, a Tencent tem o CodeBuddy e a Baidu tem o Comate, entre outras.

Entre as empresas de IA, a Moon's Dark Side foi a primeira a desenvolver um produto de agente de codificação independente, principalmente o Kimi Code com uma interface de linha de comando (CLI). No entanto, a Kimi já havia revelado anteriormente que a CLI não seria a forma final de produtos de programação nativa .

Outra abordagem consiste em os fornecedores de modelos disponibilizarem seus próprios serviços de API e planos de codificação. Dessa forma, independentemente do ambiente de desenvolvimento de IA utilizado pelo usuário, o fornecedor do modelo pode obter dados de processo que se aproximam bastante do produto de codificação nativa por meio de registros de API do lado do servidor.

No entanto, esta é apenas uma aproximação razoável, não uma semelhança exata. A questão central é que os registros de requisição e resposta da API do lado do servidor ainda diferem significativamente dos padrões de interação do produto, que são profundamente herdados.

Os fornecedores com seus próprios produtos integrados (como Cursor, Claude Desktop e Codex) possuem os sinais de feedback explícitos mais diretos, enquanto a API fornece inferências implícitas relativamente vagas. Simplificando, a API consegue ver as solicitações e respostas do usuário, mas não tem como saber se o usuário adotou o código, se o código foi executado com sucesso ou quais erros foram causados. Ela não consegue compreender esse indicador crucial do comportamento final do usuário, falhando, portanto, em alcançar o aprendizado por reforço da mais alta qualidade.

Metafisicamente falando, a linguagem é o mundo, e o código é a solução. O código pode expressar a vasta maioria das tarefas neste mundo, e também atua como um amplificador, permitindo que os melhores talentos multipliquem sua produtividade muitas vezes.

Somente os melhores modelos de codificação merecem os melhores talentos. Se os principais fornecedores de modelos não valorizarem a codificação, inevitavelmente sairão do topo.

É claro que, na realidade, todos os fabricantes de modelos valorizarão a codificação — mas, sob o novo paradigma, os produtos sem um agente de codificação nativo controlável provavelmente ficarão gradualmente para trás em relação aos fabricantes que possuem tais produtos.

Há poucos dias, a MiniMax também lançou uma grande atualização para seu produto cliente para desktop: o recurso Mavis, com uma arquitetura de orquestração multiagente totalmente nova, que também melhora significativamente o suporte do cliente para tarefas de programação.

Anteriormente, o MiniMax lançou apenas uma versão para desktop, mas não incluía recursos de codificação nativa e de agente.

Na sequência, em 15 de maio, a Alibaba lançou oficialmente o Qoder 1.0 – este produto foi oficialmente atualizado de uma IDE para um produto Agent completo (o nome oficial da Alibaba é Intelligent Agent Self-Development Workbench).

Ao mesmo tempo, o Grok Build CLI da xAI foi finalmente lançado oficialmente.

Isso mesmo, é o agente de codificação que a xAI criou depois que suas contas foram banidas pela Anthropic e pela Cursor no início deste ano.

E agora, existem vários outros casos prontos.

Parece que todos concordam que os clientes de desktop Cursor, Codex e Claude estão no caminho certo.

6.

O mesmo se aplica se estendermos a discussão da codificação para o próprio agente.

Embora alguns dados de trajetória para tarefas de codificação possam ser encontrados em corpora disponíveis publicamente (como registros de commits/PRs do GitHub, embora a qualidade não seja alta), dados de trajetória para tarefas de agentes, incluindo, entre outras, mover e clicar com o mouse, manipular a tela sensível ao toque e preencher caixas de entrada, não podem ser encontrados em corpora disponíveis publicamente.

Portanto, vemos que mesmo na implementação mais simples da operação do agente — o plugin do navegador, algo que não parece nada sofisticado — quase todos os fornecedores de modelos criam a sua própria solução.

A OpenAI lançou o Operator em janeiro de 2025 — em vez de chamá-lo de "navegador automatizado por IA", ele é essencialmente um dispositivo de coleta de dados em larga escala. Cada usuário que experimenta o Operator fornece à OpenAI dados relevantes e gratuitos.

Posteriormente, a OpenAI lançou o ChatGPT Agent e uma nova versão do aplicativo Codex para desktop; o mesmo se aplica ao Anthropic; recentemente, Kimi criou discretamente um projeto chamado WebBridge, que é essencialmente um plugin para navegador.

Até mesmo a Deepin, a gigante chinesa do ramo da moda que se mostrou mais discreta em suas ações nos últimos dois anos, começou recentemente a demonstrar interesse na Agents.

Em uma entrevista anterior, o CEO Liang Wenfeng mencionou que a matemática e a programação são campos de teste naturais para a Inteligência Artificial Geral (IAG), de forma semelhante ao Go, um sistema fechado e verificável que tem o potencial de atingir alta inteligência por meio do autoaprendizado.

O subtexto desta declaração é que a DeepSeek sempre tratou a programação e os agentes como campos de pesquisa e teste, e não como comercialização.

No entanto, em março deste ano, a DeepSeek lançou mais de uma dúzia de vagas relacionadas a agentes de uma só vez, incluindo a primeira vaga de Gerente de Produto de Estratégia de Modelo (com foco em agentes). A descrição da vaga na época abrangia "liderar o design de sistemas de avaliação de agentes e soluções de dados de treinamento" e exigia "uso profundo de produtos como Claude Code e Manus".

A APPSO observou que a DeepSeek publicou recentemente vagas de emprego para cargos como Gerente de Produto de Agente e Gerente de Produto de Harness — claramente, a DeepSeek vai criar um produto independente e nativo de Codificação/Agente.

Relatórios anteriores indicavam que o DeepSeek V3.2 incorporava quase dois mil ambientes sintéticos de treinamento de agentes e mais de oitenta mil instruções complexas durante seu processo de treinamento. No entanto, parece que os dados sintéticos de treinamento só podem levar o DeepSeek até certo ponto; a parte restante — os sucessos e fracassos reais de usuários reais em ambientes do mundo real — só pode ser obtida por meio de seus próprios produtos de agentes.

A DeepSeek vem desenvolvendo seus modelos e produtos com extrema cautela há três anos ( adicionando recursos multimodais ao seu site oficial apenas no mês passado). No entanto, hoje, está se tornando cada vez mais difícil para a DeepSeek alcançar desempenho de última geração (SOTA) em tarefas de codificação, e mesmo aqueles que ela alcançava anteriormente são rapidamente superados.

Quando a principal fonte de renda, baseada apenas em pesquisas, deixou de ser capaz de sustentar o projeto, a DeepSeek finalmente entrou em ação.

7.

Finalmente, voltemos à história do início.

Segundo o The Information, citando fontes familiarizadas com o assunto, embora tenha aceitado a oferta de aquisição de Musk de US$ 60 bilhões/cooperação de US$ 10 bilhões, a Cursor afirmou que não colaborará com a xAI para desenvolver novos modelos, mas se concentrará na otimização de seu próprio modelo Composer.

Isso pode significar que, mesmo se a Cursor for comprada ou adquirida por Musk, ainda precisará manter o núcleo de seu ciclo virtuoso de dados.

A propriedade dos dados em si é o ponto de discórdia oculto mais crucial.

Quando todos os principais fabricantes de modelos tiverem produzido seus próprios produtos, e todos os principais fabricantes de produtos tiverem começado a treinar seus próprios modelos, a linha já tênue entre "empresas de modelos" e "empresas de produtos" parecerá estar desaparecendo cada vez mais…

Este jogo está apenas começando.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.