A história por trás do fracasso do GPT-5.2 foi revelada: a equipe técnica não cometeu erros, mas os usuários foram as maiores vítimas.

A comemoração do décimo aniversário da OpenAI não foi muito digna.

O GPT-5.2, lançado naquele dia, teve um desempenho perfeito: venceu diversos testes de benchmark de última geração e seu desempenho em cenários competitivos, como matemática e programação, foi excepcional. Ele também foi oficialmente descrito como um "supercérebro" de IA.

Mas quando se tratava de redes sociais, a ideia não era recebida com aplausos, e sim com uma enxurrada de insultos por parte dos usuários.

No X e no Reddit, raiva e decepção eram expressas em quase todos os comentários. As pessoas sentiam falta, mais uma vez, do GPT-4o, outrora "brilhante": alguns diziam que o GPT-5.2 havia se tornado insosso, entediante e como se suas arestas tivessem sido suavizadas; outros o ridicularizavam como uma mensagem moralista que "trata adultos como crianças do jardim de infância".

Com a opinião pública se voltando contra a OpenAI e seu CEO, Sam Altman, surgiu uma pergunta crucial: por que os usuários estão menos satisfeitos com os modelos agora que eles são "mais inteligentes"?

Por que os modelos "mais inteligentes" deixaram de ser populares?

A última reportagem do The Information, publicada hoje pela manhã, revelou os bastidores da história.

Ao longo do último ano, a OpenAI seguiu uma regra de ouro: cada salto geracional em seus modelos era acompanhado por um crescimento explosivo no número de usuários, pois a melhoria na experiência do usuário proporcionada pelo "aumento da inteligência" era imediatamente perceptível. Mas agora, essa regra de ouro foi quebrada.

É claro que as melhorias do modelo em computação inteligente e científica continuam sendo significativas. A equipe de pesquisa passou meses aprimorando suas capacidades de raciocínio, permitindo que ele resolvesse problemas matemáticos e científicos mais complexos, mas para a maioria dos usuários comuns, essa melhoria é insignificante.

 https://www.theinformation.com/articles/openais-organizational-problems-hurt-chatgpt?rc=qmzset

Em outras palavras, melhorias na inteligência não equivalem necessariamente a melhorias na experiência do usuário.

Usuários comuns raramente precisam de um "cérebro de nível competitivo"; eles precisam de um "assistente útil para tarefas cotidianas". A análise em larga escala de 1,5 milhão de conversas realizada pela OpenAI corrobora essa avaliação, mostrando que as necessidades básicas dos usuários são extremamente práticas: orientação prática (29%), recuperação de informações (24%) e escrita (24%), enquanto conversas relacionadas a tarefas de programação representam apenas 4,2%.

A contradição se torna muito específica: enquanto a equipe técnica trabalha freneticamente em matemática, física, química e testes de desempenho no laboratório, os usuários querem apenas uma frase para resolver seus problemas no chat — sem rodeios, sem sermões, sem prolongamentos.

O alongamento excessivo das linhas de batalha é uma grande desvantagem.

Durante a maior parte deste ano, a Ultraman lançou vários projetos novos simultaneamente: o aplicativo de geração de vídeo Sora, IA para música, navegador, agente de IA, dispositivos de hardware, robôs… O escopo dos negócios está se expandindo e os recursos estão sendo fragmentados.

Na verdade, esse é um erro clássico, muito comum entre as gigantes da tecnologia: a pressa em abrir uma segunda ou terceira frente antes de consolidar suas posições principais. No curto prazo, pode parecer uma estratégia para "espalhar a notícia", mas, a longo prazo, é como dar um passo maior que a perna, um pecado capital na guerra — cada frente carece de mão de obra, poder computacional e paciência para aprimorar os produtos.

A disputa interna entre "prioridade de pesquisa" e "crescimento do produto" na OpenAI é particularmente evidente na geração de imagens:

Embora os gráficos no estilo Ghibli do GPT-4o tenham impulsionado brevemente o uso e o crescimento de usuários do ChatGPT em março, a OpenAI priorizou inicialmente o desenvolvimento de modelos de imagem. Assim que o Nano Banana ganhou boa repercussão, a OpenAI reavaliou o projeto com urgência, o que levou a desentendimentos internos.

Altman acredita que os modelos de imagem são a chave para o crescimento da base de usuários, enquanto o diretor de pesquisa, Mark Chen, prefere investir recursos em outros projetos.

Além disso, à medida que os benefícios marginais das Leis de Escala diminuem, para superar o gargalo dos modelos de grande porte, a OpenAI apostou em modelos de inferência no último ano, com uma equipe de pesquisa de mais de 1.000 pessoas concentrando seus recursos nisso, resultando na marginalização da otimização para a experiência diária do ChatGPT.

Essa abordagem não apenas dispersou recursos, como também resultou em degradação de desempenho durante os testes beta iniciais — a busca pela adaptação a cenários de "bate-papo" acabou enfraquecendo a pureza do modelo de raciocínio. Embora o "Modo de Pensamento" e a "Pesquisa Profunda" tenham sido introduzidos posteriormente para redirecionar o tráfego e remediar a situação, a adesão dos usuários foi muito baixa e a experiência real de conversação no dia a dia não se tornou mais atraente como consequência.

Além disso, problemas de compatibilidade costumam surgir entre os modelos antigos e os novos.

Por exemplo, antes do lançamento do GPT-5, os pesquisadores descobriram que o modelo apresentava um desempenho pior em algumas tarefas de programação após ser integrado ao ChatGPT, porque o sistema ajustava suas respostas com base em informações personalizadas, como a profissão do usuário, o que, por sua vez, interferia na compreensão do modelo e levava a respostas incorretas.

É verdade que os modelos de inferência estão se tornando cada vez mais poderosos, mas a experiência com o ChatGPT está se tornando cada vez pior.

Quando a direção do progresso tecnológico e a direção das necessidades do usuário começam a divergir, quem cederá primeiro? A resposta é óbvia.

O lançamento estrondoso do Gemini 3 Pro acabou por encurralar a OpenAI, levando à cena icônica de Ultraman emitindo um "alerta vermelho", exigindo que os funcionários da OpenAI se concentrassem novamente no ChatGPT e melhorassem o apelo do produto.

Ao mesmo tempo, Fidji Simo, chefe de aplicações da OpenAI, também detalhou a visão do ChatGPT em seu blog pessoal, que é a de migrar de um sistema de diálogo baseado principalmente em texto para uma interface de usuário totalmente generativa, capaz de gerar interfaces dinamicamente com base na intenção do usuário.

Simo também admitiu que a empresa ainda é fundamentalmente centrada na pesquisa e que "o produto em si não é o objetivo final".

Do ponto de vista empresarial, essa afirmação é, na verdade, bastante perigosa.

Diferentemente da Anthropic, que se concentra mais no mercado de APIs, a principal receita da OpenAI vem de assinaturas individuais. No mercado consumidor, ninguém paga pelos "ideais supremos" de uma empresa; os usuários estão dispostos a pagar apenas pela experiência imediata. É como um chef de restaurante obcecado em desenvolver pratos dignos de estrelas Michelin, enquanto os clientes no saguão simplesmente querem uma tigela de macarrão bem quente.

No entanto, se você concluir que a OpenAI está em desordem por causa disso, poderá estar subestimando a resiliência da empresa.

Segundo Mark Chen, citado pela Bloomberg, o "alerta vermelho" não é um conceito novo, mas sim uma ferramenta de gestão de rotina para situações de crise. Esse mecanismo é ativado sempre que a OpenAI precisa concentrar seus esforços em um único objetivo ou exige que a equipe deixe de lado tarefas de menor prioridade.

▲Link do podcast: https://x.com/Kantrowitz/status/2001790090641645940

Em seu podcast mais recente, Ultraman também negou a ansiedade excessiva causada pelo acionamento do alerta vermelho.

"Em primeiro lugar, o chamado 'alerta vermelho' é, na nossa opinião, uma medida de resposta de baixo risco, mas absolutamente necessária", admitiu Altman. "É bom ser um pouco 'paranoico' e reagir rapidamente quando surgem potenciais ameaças competitivas."

Ele chegou a mencionar a ascensão do DeepSeek no início deste ano, acreditando que ele, assim como o atual Gemini 3, é uma espécie de estímulo externo positivo.

"Até o momento, o Gemini 3 não teve o impacto devastador que inicialmente temíamos. Embora, assim como o DeepSeek, tenha atingido em cheio um ponto sensível da nossa estratégia de produto, também nos obrigou a fazer ajustes extremamente rápidos."

Segundo Altman, esse estado de emergência geralmente dura apenas de seis a oito semanas. "Fico feliz que tenhamos esse mecanismo de resposta rápida; não ficaremos nessa situação por muito tempo."

A OpenAI compreende claramente que slogans por si só não bastam, e hoje lançou oficialmente o GPT-5.2-Codex.

Como um modelo de programação de agentes inteligentes projetado para resolver problemas complexos de engenharia de software do mundo real, o GPT-5.2-Codex integra os recursos de operação de terminal do GPT-5.1-Codex-Max com base em inteligência geral, tornando-o mais adequado para lidar com tarefas de longo prazo, como refatoração e migração de código.

Ao final do podcast, quando o apresentador perguntou: "Quanto tempo falta para o GPT-6?", Altman respondeu francamente: "Não sei quando daremos oficialmente o nome de GPT-6 a um modelo, mas espero que um novo modelo com melhorias significativas em relação ao 5.2 seja lançado no primeiro trimestre do próximo ano."

Desde o alerta vermelho até o contra-ataque com a série GPT-5.2, e depois com o anúncio ambíguo do GPT-6, a OpenAI está tentando reconstruir a confiança com novos modelos e um novo ritmo. No entanto, o que determinará o resultado a longo prazo ainda são as barreiras intransponíveis, como o acesso à distribuição, a colaboração do ecossistema e os custos de poder computacional.

A estratégia explícita do Google e o plano de "cidade vazia" de Ultraman, avaliado em 830 bilhões de dólares.

A vantagem do Google nunca se limitou ao modelo Gemini 3 Pro; ela reside principalmente em seus canais de distribuição quase incomparáveis.

Busca, Chrome, suítes de escritório. No campo da IA, a vantagem competitiva é talvez a mais superficial entre todos os produtos tecnológicos. O custo de mudança para os usuários é quase zero. Quando os produtos de IA do Google se tornam tão onipresentes quanto o ar, a estratégia se torna praticamente infalível: você não precisa ser "convencido", simplesmente "usa sem hesitar".

Mais importante ainda, em sua competição com o Google, a maior fraqueza da OpenAI reside em suas deficiências de hardware.

Em comparação com a vantagem de eficiência que o Google conquistou ao desenvolver chips de IA dedicados (TPUs) há doze anos, a OpenAI ainda gasta bilhões de dólares anualmente alugando poder computacional. Mesmo que tente "alcançar" a concorrência construindo seus próprios data centers e chips, o fato é que a experiência do usuário está sendo aprimorada e o custo, drasticamente reduzido.

Nas palavras dos internautas:

A OpenAI não precisa de um modelo mais poderoso agora; ela precisa da AMD. Se a OpenAI adquirir a AMD, essa guerra da IA ​​terminará. O Google não teme a OpenAI porque possui sua própria TPU. Mas o que realmente deveria preocupá-lo é a OpenAI ser dona da AMD.

Em um vídeo recente, o presidente da OpenAI, Greg Brockman, admitiu que, devido à capacidade computacional limitada, sempre que um novo recurso é lançado (como o recurso no estilo Ghibli do GPT-4 no início do ano), o poder computacional precisa ser redirecionado do departamento de pesquisa para o departamento de produto. Isso cria um ciclo vicioso: para manter a experiência do usuário atual, o desenvolvimento tecnológico futuro precisa ser adiado.

Mas, em última análise, o poder computacional se resume a duas palavras: queimar dinheiro. E queimar dinheiro em larga escala.

Segundo o WSJ, a OpenAI planeja lançar uma rodada de financiamento massiva de US$ 100 bilhões; se tudo correr bem, esse super unicórnio voltará a impressionar o mercado de capitais com uma avaliação de US$ 830 bilhões até o primeiro trimestre do próximo ano.

No início deste ano, o SoftBank concordou em investir US$ 30 bilhões na OpenAI e, no mês passado, vendeu suas ações da Nvidia no valor de US$ 5,8 bilhões para levantar fundos para o investimento, com os US$ 22,5 bilhões restantes a serem concluídos o mais breve possível.

Mas a questão financeira não é tão simples. A previsão é de que o consumo de caixa da OpenAI ultrapasse US$ 200 bilhões até 2030. Em contrapartida, o Google é financeiramente sólido e pode até mesmo afetar indiretamente as perspectivas de financiamento da OpenAI por meio das flutuações no preço das ações de parceiros como a Oracle.

A OpenAI, que está arrecadando fundos em todos os lugares, parece estar correndo contra o tempo. Isso levou à piada: dada a capacidade de arrecadação de fundos do Ultraman, ele poderia um dia "tirar do poder" também o Google e a Nvidia.

Mas, brincadeiras à parte, dinheiro pode comprar tempo, mas não pode comprar uma boa reputação.

Assim, no inverno de 2025, após três anos de rápido crescimento, a OpenAI fez bem em frear: consolidar seus esforços, retirar recursos e redirecionar suas atividades para a experiência diária do ChatGPT.

Essa foi uma correção cara, mas necessária.

Liderança tecnológica não se traduz em um produto fácil de usar, e ser o número um em testes de benchmark não garante a satisfação do usuário. Mais importante ainda, não se pode simplesmente esperar que os usuários sintam nostalgia das versões antigas para perguntar sobre a experiência deles.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo