Acaba de ser lançado o GPT-5.5! Claude Code curou seu problema mental da noite para o dia, e “Ultraman desmoronou” ganhará uma sequência.

Segundo o Business Insider, a avaliação da Anthropic no mercado secundário privado ultrapassou US$ 1 trilhão. Para efeito de comparação, a avaliação da OpenAI em sua última rodada de financiamento, no final de março deste ano, permaneceu em US$ 852 bilhões.

Além da antiga "teoria da bolha da IA" do setor, este conjunto de dados comparativos também mostra que a OpenAI, que antes ocupava a primeira posição, agora enfrenta a pressão de ser alcançada e ultrapassada. Mas não tivemos que esperar muito para que o contra-ataque da OpenAI viesse.

Acaba de ser lançado oficialmente o GPT-5.5, juntamente com a versão GPT-5.5 Pro para tarefas mais avançadas.

Se tivéssemos que resumir a filosofia central de design do GPT-5.5 em uma frase, seria permitir que os usuários apresentassem diretamente ao modelo uma tarefa complexa e com várias etapas, que então planejaria seu caminho de forma autônoma, recorreria a ferramentas, validaria resultados, resolveria ambiguidades e prosseguiria ao longo do processo.

O que pode parecer apenas uma iteração de versão 0.1 é, na verdade, uma grande atualização em termos de eficiência de inferência — para a mesma tarefa do Codex, o GPT-5.5 consome significativamente menos tokens, tornando-o mais inteligente e mais econômico.

▲Após mais de um mês de reclamações, a Anthropic só se lembrou de abordar a questão da sua inteligência reduzida depois do lançamento do GPT-5.5.

O GPT-5.5 estreia com uma implacável onda de vitórias nos placares.

A pontuação GPT-5.5 no papel é muito impressionante.

Na lista abrangente do índice de inteligência artificial da Artificial Analysis, uma organização de avaliação independente de renome, a OpenAI conquistou o primeiro e o segundo lugar com sua série GPT-5.5, ocupando quatro das seis primeiras posições e deixando seus concorrentes praticamente sem chances de competir.

Os resultados dos testes comparativos mostram que no Terminal-Bench 2.0 (que testa fluxos de trabalho complexos de linha de comando), o GPT-5.5 atinge 82,7%, o GPT-5.4 atinge 75,1% e o Claude Opus 4.7 atinge 69,4%.

No SWE-Bench Pro (que avalia as capacidades de resolução de problemas reais do GitHub), o GPT-5.5 alcançou 58,6%, concluindo mais tarefas de ponta a ponta em uma única execução, superando os 57,7% do GPT-5.4.

No benchmark interno Expert-SWE da OpenAI, o tempo médio estimado de conclusão da tarefa por humanos foi de 20 horas, com o GPT-5.5 atingindo 73,1% e o GPT-5.4 atingindo 68,5%. Além disso, o GPT-5.5 concluiu a tarefa com menos tokens em todos os três benchmarks.

Contudo, a OpenAI também usou de artifícios nas notas de rodapé desta vez, questionando sutilmente a credibilidade de algumas das partituras do Claude Opus 4.7 com uma pequena linha de texto. Mas o internauta Deedy não acreditou. Em sua opinião, essa nota foi mais uma tática diversionista — afinal, a própria OpenAI não conseguiu fornecer um benchmark mais transparente e publicamente disponível para comprovar diretamente a eficácia do GPT-5.5.

As melhorias no GPT-5.5 são particularmente significativas em áreas como codificação de agentes, uso de computadores, trabalho intelectual e pesquisa científica inicial.

Os primeiros usuários que testaram o programa relataram que o GPT-5.5 é significativamente melhor em entender a estrutura geral de grandes bases de código, antecipando proativamente possíveis problemas e considerando os requisitos de teste e revisão com antecedência, sem a necessidade de instruções adicionais.

Dan Shipper, renomado blogueiro de análises e fundador do Every, compartilhou um caso específico: após o lançamento de seu aplicativo, ele apresentou problemas. Ele tentou depurá-lo sozinho por vários dias sem sucesso e, eventualmente, pediu a um engenheiro que reescrevesse parte do sistema. Ele reproduziu esse cenário usando o GPT-5.5, e o modelo forneceu a mesma solução que o engenheiro, enquanto o GPT-5.4 se mostrou incapaz de ajudar.

Segundo Michael Truell, cofundador da Cursor, o GPT-5.5 é mais inteligente e resiliente que o GPT-5.4, com chamadas de ferramentas mais confiáveis ​​e a capacidade de persistir por mais tempo sem parar ao lidar com tarefas complexas e de longo prazo.

Mais ultrajante ainda, um engenheiro da Nvidia, após vivenciar o problema logo no início, afirmou sem rodeios: "Perder o acesso ao GPT-5.5 é como ter meus membros amputados."

▲ Salvo imprevistos, nasce mais um meme famoso.

(Hã??) No entanto, considerando que Ultraman ficou "tonto, fraco e desmaiou no chão" após assistir à demonstração do GPT-5, e que ainda não há uma explicação adequada para isso até hoje, a declaração do engenheiro da Nvidia não parece tão exagerada.

Em cenários de trabalho intelectual, o GPT-5.5 também apresenta um desempenho excepcionalmente bom.

  • Na avaliação GDPval, que mede a capacidade de realizar o trabalho em 44 categorias de conhecimento ocupacional, o GPT-5.5 venceu ou empatou em 84,9% das vezes, o GPT-5.4 venceu em 83,0%, o Claude Opus 4.7 venceu em 80,3% e o Gemini 3.1 Pro venceu em apenas 67,3%.
  • No teste OSWorld-Verified (que verifica se um modelo pode operar de forma autônoma em um ambiente computacional real), o GPT-5.5 alcançou 78,7%, o GPT-5.4 alcançou 75,0% e o Claude Opus 4.7 alcançou 78,0%.
  • No teste Tau2-bench Telecom (que avalia fluxos de trabalho complexos de atendimento ao cliente), o GPT-5.5 alcançou 98,0% de precisão sem qualquer ajuste nas palavras-chave, enquanto o GPT-5.4 alcançou 92,8%, uma diferença significativa.
  • Em outras avaliações específicas, o GPT-5.5 alcançou 60,0% no FinanceAgent v1.1, 88,5% em tarefas internas de modelagem de banco de investimento e 54,1% no OfficeQA Pro (em comparação com 43,6% para o Claude Opus 4.7 e apenas 18,1% para o Gemini 3.1 Pro).
  • No BixBench (projetado para bioinformática e análise de dados do mundo real), o GPT-5.5 alcançou 80,5% e o GPT-5.4, 74,0%, ficando em primeiro lugar entre os modelos com pontuações publicadas. No GeneBench (que testa a análise de dados em múltiplos estágios em genética e biologia quantitativa), o GPT-5.5 alcançou 25,0%, o GPT-5.4, 19,0% e a versão Pro, 33,2%. Essas tarefas normalmente representam vários dias de trabalho para especialistas científicos.

Mais de 85% dos funcionários da OpenAI usam o Codex semanalmente, abrangendo departamentos como engenharia de software, finanças, comunicação, marketing, ciência de dados e gestão de produtos.

A equipe de finanças revisou 24.771 documentos fiscais K-1, totalizando 71.637 páginas, usando o GPT-5.5, concluindo a revisão duas semanas antes do prazo em comparação com o ano anterior. A equipe de comunicação criou um bot automatizado para o Slack para lidar automaticamente com solicitações de baixo risco, enquanto um membro da equipe de marketing o utilizou para gerar automaticamente relatórios comerciais semanais, economizando de 5 a 10 horas por semana.

Além disso, um dos principais destaques do GPT-5.5 é a atualização colaborativa da infraestrutura de inferência.

O GPT-5.5 foi projetado e treinado em conjunto com os sistemas NVIDIA GB200 e GB300 NVL72. Uma melhoria fundamental foi nas estratégias de balanceamento de carga e particionamento. A Codex analisou semanas de dados de tráfego de produção e desenvolveu um algoritmo heurístico personalizado para otimizar dinamicamente o particionamento e o balanceamento de carga, melhorando a velocidade de geração de tokens em mais de 20%.

A OpenAI também destacou que o próprio GPT-5.5 participou do processo de aprimoramento de sua infraestrutura de inferência.

O GPT-5.5 está disponível para usuários do ChatGPT Plus, Pro, Business e Enterprise a partir de hoje. O Codex suporta até 400 mil janelas de contexto e oferece um modo Rápido 1,5x (por 2,5 vezes o preço padrão). O GPT-5.5 Pro está disponível para usuários do ChatGPT Pro, Business e Enterprise.

A versão da API estará disponível em breve, com preços padrão de US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, com uma janela de contexto de 1 milhão de tokens. O processamento em lote e o preço flexível custam metade do preço padrão, enquanto o processamento prioritário custa 2,5 vezes o preço padrão.

A API do GPT-5.5 Pro custa US$ 30 por milhão de tokens de entrada e US$ 180 por milhão de tokens de saída. A OpenAI afirma que, devido à maior eficiência dos tokens, a maioria dos usuários não perceberá um aumento significativo nos custos reais de uso. Embora não haja menção ao Claude Opus 4.7, cada palavra carrega um significado mais profundo.

A OpenAI pretende ser a principal porta de entrada para a era da IA.

Nenhum modelo recebe avaliações universalmente aclamadas, e o GPT-5.5 não é exceção. O usuário @chetaslua usou um único comando para gerar um site completo com um motor de física de efeito de vento no Codex, integrando perfeitamente a interação física e o design da interface, exclamando: "Esta é a primeira vez que sinto que o ChatGPT pode ser a ferramenta de IA ideal para resolver todos os problemas."

O usuário @petergostev fez com que o modelo gerasse uma cena de ferrovia em miniatura que incluía pontos turísticos de Londres e mudanças sazonais. Após comparar o resultado com o do GPT-5.4, ele concluiu que "o GPT-5.5 é mais ambicioso, mais consistente e apresenta menos erros". Ele também testou o modelo continuamente por várias horas em uma tarefa de transferência de aplicativos mais complexa, sem qualquer problema.

Claro, também existem reclamações. O internauta @arrakis_ai descobriu que o GPT-5.5 às vezes simplesmente gera uma imagem ao se deparar com layouts complexos e, ao lidar com requisitos de ícones, cria SVGs do zero em vez de usar bibliotecas existentes. Ao mesmo tempo, ele frequentemente pausa e pede feedback do usuário, e sua execução não é tão precisa quanto antes.

Em termos de estilo de escrita, tenho uma sensação semelhante com base na minha experiência pessoal. O GPT-5.5 é de fato melhor em organizar a linguagem do que seu antecessor, pelo menos consegue se expressar de uma maneira mais humana, mas ainda há um tom estranho: "Estou bem aqui, sem me esconder, sem me esquivar, sem fugir, vou te alcançar firmemente."

Além disso, muitos internautas também notaram que a OpenAI investiu em marketing para seus rankings de referência.

O usuário Haider acredita que a diferença entre o GPT-5.5 e o Mythos não é tão significativa quanto se pensava inicialmente, especialmente considerando que o Mythos custa o dobro do GPT-5.5 e não está disponível publicamente. Ele prevê que a próxima geração do GPT deverá alcançar o Mythos com facilidade.

Segundo o TechCrunch, quando questionada por um repórter se o GPT-5.5 possuía capacidades semelhantes ao Mythos, a engenheira da OpenAI, Mia Glaese, deu uma resposta aparentemente irrefutável, porém sutilmente incisiva: "Temos uma estratégia robusta e de longo prazo para cibersegurança e aperfeiçoamos um método para um modelo de implementação persistente e seguro."

A implicação é clara: um modelo único e poderoso é, em última análise, apenas uma moda passageira. Quando se trata das complexidades da defesa digital e da implementação em nível empresarial, as barreiras do ecossistema da OpenAI são o único recurso verdadeiramente confiável e seguro para clientes B2B.

Com o lançamento do GPT-5.5, as ambições da OpenAI ficaram claras: eles não se contentam mais em ser um chatbot inteligente, mas querem criar um "superaplicativo de IA" que irá dominar todos os fluxos de trabalho.

Em entrevista à imprensa estrangeira, o presidente da OpenAI, Greg Brockman, usou a palavra "agente" para descrever o salto tecnológico desse modelo. Comparado ao seu antecessor, o GPT-5.4, o GPT-5.5 consome menos tokens, mas pensa mais rápido, tem uma lógica mais clara e começa a demonstrar a capacidade de resolver problemas complexos de forma proativa.

Essa é a base sólida para se tornar um superaplicativo.

▲ Ultraman está excepcionalmente animado esta noite e até mudou sua foto de perfil.

O chamado superaplicativo integra profundamente o ChatGPT, o Codex e o navegador de IA em um serviço unificado. Imagine o fluxo de trabalho do futuro: as pessoas não precisarão mais alternar entre navegadores, editores de código e ferramentas de análise de dados. Basta enviar um comando de nível macro para este superaplicativo e o GPT-5.5 poderá abrir páginas da web de forma autônoma para coletar dados, escrever código de rastreamento da web, limpar dados e, por fim, fornecer um relatório de análise completo diretamente em segundo plano.

Assim como a forte ligação entre Claude e o Claude Code, a OpenAI também pretende impulsionar o crescimento do Codex. Recentemente, Altman afirmou que o número de usuários ativos do Codex se aproximou de 4 milhões em menos de duas semanas após ultrapassar 3 milhões, e a OpenAI, consequentemente, redefiniu o limite de taxa, visando capturar o ecossistema de desenvolvedores com uma abordagem "massiva e abundante".

Por um lado, o forte desempenho do GPT-5.5 e do GPT-Image-2 contrariou diretamente a pressão sobre as expectativas de avaliação da Anthropic; por outro lado, aproveitou a fidelização do ecossistema da Codex para reter desenvolvedores e construiu de forma constante um sistema de serviços completo, abrangendo desde serviços para o consumidor final (C-end) até serviços corporativos (B-end).

As estratégias ofensivas e defensivas mudaram. A OpenAI, que havia sido criticada por ficar para trás este ano, finalmente recuperou o ritmo ofensivo que tinha há dois anos e agora está concentrando seus esforços no aprimoramento de seus produtos.

Aqui está o endereço oficial do blog da OpenAI:

https://openai.com/index/introducing-gpt-5-5/

*A capa foi gerada por IA.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.