Ultraman acaba de lançar o GPT-5.4! Internautas comentaram: “Um simples ‘Oi’ custa 80 dólares!”

Ultraman acaba de lançar o GPT-5.4! Internautas comentaram: "Um simples 'Oi' custa 80 dólares!"
Toda vez que você abre uma ferramenta de IA, provavelmente precisa pensar por um segundo: qual modelo devo usar para esta tarefa? Escrever código é uma coisa, pesquisar informações é outra, e ter IA para ajudar a operar o computador exige abrir outra janela.
Depois de hoje, esse sentimento de divisão finalmente encontra uma nova resposta.
Acaba de ser lançado oficialmente o GPT-5.4 pela OpenAI, que integra programação, raciocínio, controle por computador, busca na web e o contexto Million Tokens em um único modelo, sem sacrificar nenhuma dessas capacidades em prol da integração.

O CEO da OpenAI, Sam Altman, também publicou um breve tweet sobre a plataforma X, destacando cinco áreas: trabalho intelectual mais robusto, busca na web aprimorada, controle nativo por computador, suporte para milhões de contextos de tokens e a capacidade de intervir a qualquer momento durante o processo de resposta.

Essas poucas palavras abordam precisamente os cinco principais problemas na aplicação da IA nos últimos dois anos.
Trabalho intelectual: em oito de cada dez vezes, a IA supera os profissionais.
Para entender os avanços do GPT-5.4 no trabalho intelectual, é necessário primeiro compreender a lógica de projeto do benchmark GDPval.
Abrange 44 profissões nos nove setores que mais contribuem para o PIB dos EUA. As tarefas são trabalhos reais que acontecem todos os dias no ambiente de trabalho: elaborar modelos financeiros para bancos de investimento, organizar escalas de plantão em prontos-socorros de hospitais e criar apresentações para equipes de vendas.
Após a conclusão da tarefa, o resultado é entregue a profissionais reais do setor para testes e avaliações às cegas, a fim de verificar em quantos percentuais o resultado da IA supera o de seus colegas humanos.

A resposta para o GPT-5.4 é 83,0%, o que significa que, em mais de oito em cada dez comparações, profissionais da área acreditam que o desempenho da IA atingiu ou superou o de seus equivalentes humanos. A geração anterior, GPT-5.2, obteve uma pontuação de 70,9%, uma diferença de quase 13 pontos percentuais.
O progresso é mais evidente na modelagem em planilhas. O GPT-5.4 simulou um analista júnior de banco de investimento concluindo uma tarefa de modelagem, com uma pontuação média de 87,3%, em comparação com 68,4% para o GPT-5.2 e 79,3% para o GPT-5.3-Codex, uma diferença de quase 20 pontos percentuais.

Os resultados do teste BigLaw Bench da Harvey foram igualmente impressionantes, com uma pontuação de 91% no GPT-5.4, e a empresa também conquistou o primeiro lugar no benchmark APEX-Agents da Mercor.
A precisão também é uma preocupação. O problema das alucinações sempre foi o maior obstáculo para a entrada da IA em cenários profissionais, e cada ponto percentual de redução significa que ela pode ser usada com segurança em mais situações.
Os dados mostram que, em comparação com o GPT-5.2, o GPT-5.4 apresenta uma probabilidade 33% menor de erros em uma única afirmação e uma probabilidade 18% menor de erros em uma resposta completa.
Programação: Um modelo, abrangendo toda a escrita e teste de código.
O GPT-5.4 integra as capacidades de programação do GPT-5.3-Codex à versão principal. Para os desenvolvedores, isso significa que não é mais necessário criar um modelo separado para escrever código, e as próprias capacidades de programação não são comprometidas de forma alguma.
O SWE-Bench Pro foi projetado especificamente para testar tarefas de engenharia de software do mundo real. Ele alcança 57,7% no GPT-5.4, 56,8% no GPT-5.3-Codex e 55,6% no GPT-5.2. Após a integração, a pontuação de programação aumenta, além de adquirir um conjunto completo de recursos de uso geral, como controle de computador, tornando quase impossível encontrar quaisquer pontos fracos óbvios.

Após testá-lo, o conhecido blogueiro de análises de IA, Dan Shipper, escreveu: "Esta é a melhor capacidade de planejamento que vimos da OpenAI nos últimos tempos. A revisão de código também é muito robusta e o custo é cerca de metade do Opus."

Ele destacou duas dimensões específicas. Primeiro, a capacidade de planejamento é crucial para o sucesso de tarefas de longo prazo, e o GPT-5.4 é significativamente mais organizado na divisão de tarefas e no progresso contínuo. Segundo, em comparação com o Claude Opus, ele custa cerca de metade do preço; para desenvolvedores que precisam fazer chamadas de API em larga escala, essa diferença será muito perceptível na fatura.
Habilitar o modo /fast no Codex pode aumentar a velocidade de geração de tokens do GPT-5.4 em até 1,5 vezes, permitindo que os usuários mantenham um fluxo de trabalho tranquilo durante a codificação, iteração e depuração.

Ao mesmo tempo, o novo recurso experimental Playwright Interactive leva a experiência de programação do GPT-5.4 um passo adiante.
O GPT-5.4 permite a depuração em tempo real por meio de um navegador visual durante a criação de aplicações web ou Electron. O modelo pode escrever código e testar a aplicação que está desenvolvendo simultaneamente, assumindo os papéis de desenvolvedor e testador.

A OpenAI apresentou um excelente exemplo: com apenas um comando simples, o GPT-5.4 gerou um jogo completo de simulação de parque temático isométrico, abrangendo um sistema de construção de atrações e caminhos baseado em blocos, navegação de visitantes e comportamento de filas com inteligência artificial, além de uma pontuação abrangente que é atualizada dinamicamente em tempo real em quatro métricas: financiamento, número de visitantes, satisfação e limpeza.
A Playwright Interactive realizou diversas rodadas de testes automatizados ao longo do processo, verificando a correção do traçado de caminhos, da navegação da câmera, da resposta do visitante e das métricas da interface do usuário. Da escrita do código aos testes e à aceitação, o modelo concluiu todo o processo de forma autônoma.
O blogueiro Angel também criou um clone de Minecraft usando o GPT-5.4. O modelo levou cerca de 24 minutos para ser construído e funcionou perfeitamente, sem travamentos. Ele twittou: "Minecraft está basicamente crackeado. Agora preciso encontrar um novo teste."

O professor Ethan Mollick, da Wharton, também teve acesso antecipado. Usando o mesmo comando, ele fez com que o GPT-5.4 Pro gerasse uma cena 3D inspirada em Piranesi, sem erros, adicionando apenas a instrução "Aprimore". Em seguida, ele comparou o resultado com uma versão gerada pelo GPT-4 dois anos antes, e a diferença foi imediatamente perceptível.

É melhor em controlar computadores do que você é agora.
Essa é a mudança mais notável na versão 5.4 do GPT. Anteriormente, os recursos de manipulação computacional da OpenAI eram um módulo separado, com uma clara distinção entre eles e a compreensão da linguagem e a geração de código do modelo.
Anteriormente, os dois sistemas operavam de forma independente, exigindo a transmissão constante de informações entre eles, o que naturalmente reduzia a eficiência. Agora que essa separação foi eliminada, o GPT-5.4 utiliza as próprias capacidades de raciocínio do modelo para controlar o computador, eliminando a necessidade de uma abordagem indireta.
Este é também o primeiro produto da OpenAI a integrar nativamente recursos de uso de computadores em um modelo geral, e acredito que este será um novo ponto de partida para futuras discussões sobre agentes de IA.
Os resultados dos testes de desempenho mostram que os benchmarks verificados pela OSWorld demonstram capacidades de navegação na área de trabalho, permitindo que os usuários concluam tarefas reais do sistema operacional usando capturas de tela e interação com mouse/teclado. O GPT-5.4 alcançou uma taxa de sucesso de 75,0%, em comparação com 72,4% para a linha de base humana e 47,3% para o GPT-5.2.

Resumindo, não só alcançou os humanos, como também os ultrapassou.
No teste de desempenho Online-Mind2Web, que avalia o controle do navegador usando apenas o modo de captura de tela, o GPT-5.4 alcançou 92,8%, enquanto o alvo de comparação, ChatGPT Atlas, alcançou 70,9% no Modo Agente.
Exemplos de implementação no mundo real falam por si. A Mainstay utilizou o GPT-5.4 para o preenchimento automático de formulários em aproximadamente 30.000 portais de impostos prediais, alcançando uma taxa de sucesso de 95% na primeira tentativa e 100% em até três tentativas, em comparação com apenas 73% a 79% para modelos similares anteriores. A velocidade de conclusão da sessão aumentou aproximadamente três vezes e o consumo de tokens diminuiu em cerca de 70%.
Isso é indissociável da melhoria nas capacidades de percepção visual. Controlar um computador, em última análise, significa "enxergar com clareza" — enxergar com clareza o que está na interface, onde estão os botões e se os cliques são precisos.
O GPT-5.4 trouxe melhorias específicas para essa camada, introduzindo um modo de entrada de imagem original que suporta entrada de imagem de alta fidelidade com um comprimento lateral máximo de 10,24 milhões de pixels ou 6.000 pixels; o limite superior do modo original de alta fidelidade também foi aumentado em relação ao padrão anterior para um comprimento lateral máximo de 2,56 milhões de pixels ou 2.048 pixels.
Utilização de ferramentas e pesquisa na web: a sustentabilidade é a principal vantagem competitiva.
Um sistema complexo de Agente de IA pode ser suportado por dezenas de ferramentas MCP. No passado, a abordagem era inserir todas as descrições das ferramentas no sistema antes do início de cada conversa, independentemente de as ferramentas serem usadas ou não, e gastar os tokens primeiro.
O GPT-5.4 adota uma abordagem diferente: primeiro, fornece ao modelo uma lista simples de ferramentas (ou seja, introduz um mecanismo de busca de ferramentas). Quando uma ferramenta é realmente necessária, sua descrição detalhada é recuperada. Ferramentas que já foram usadas podem ser armazenadas em cache diretamente, para que não precisem ser recuperadas novamente na próxima vez.
Em um teste com 250 tarefas e uma configuração completa de 36 servidores MCP habilitados, o modo de busca da ferramenta reduziu o consumo total de tokens em 47%, mantendo a mesma precisão. Quase metade do custo foi economizada, sem sacrificar a precisão.

Em buscas na web, o GPT-5.4 obteve 82,7% no benchmark BrowseComp, 17 pontos percentuais a mais que os 65,8% do GPT-5.2, com a versão Pro alcançando 89,3%, estabelecendo um novo recorde no setor. O CEO da Zapier comentou que o GPT-5.4 continua buscando onde outros modelos desistem, tornando-o o modelo mais persistente que eles já testaram.

Contexto de milhões de tokens: muito, muito, muito, muito, muito, muito, muito, muito
O GPT-5.4 suporta janelas de contexto de até 1 milhão de tokens em sua API, o que significa que toda a documentação relevante para um projeto completo pode ser condensada em uma única conversa. No entanto, com base nos resultados dos testes, a faixa de 128 mil a 272 mil tokens oferece o desempenho mais estável e é adequada para o uso diário.
A precisão começa a diminuir acima de 256 mil, exigindo validação para tarefas específicas antes do uso. A pontuação na faixa de 512 mil a 1 milhão cai para 36,6%, sendo atualmente mais experimental e inadequada para uso direto em tarefas de produção que exigem alta precisão.

Outro aspecto prático a considerar em relação aos custos é que as solicitações que excedam 272 KB serão contabilizadas na cota com o dobro da taxa de utilização. Em outras palavras, enviar uma solicitação com um contexto excessivamente longo consome a mesma quantidade de cota que duas solicitações normais. Vale a pena avaliar cuidadosamente se você realmente precisa de um contexto tão extenso antes de fazer tal solicitação.
Em relação ao teste de raciocínio abstrato visual ARC-AGI-2, o GPT-5.4 Pro obteve uma pontuação de 83,3%, enquanto a geração anterior, GPT-5.2 Pro, alcançou apenas 54,2%.

Por exemplo, o FrontierMath Tier 4 é amplamente reconhecido como um dos benchmarks matemáticos mais difíceis, contendo 50 problemas matemáticos de nível de pesquisa que poderiam levar semanas para serem resolvidos por matemáticos humanos. O GPT-5.4 Pro obteve uma pontuação de 38,0% neste benchmark, em comparação com 31,3% de seu antecessor.

O parâmetro de referência para esse número é o seguinte: há um ano, o melhor resultado foi de 2% para o modelo o3, e o melhor modelo de código aberto atual é de 4,2%.
A blogueira Deedy twittou que o salto de 2% para 38% foi "simplesmente surpreendente". Com o auxílio de ferramentas, o Humanity's Last Exam obteve 58,7% para o GPT-5.4 Pro e 50,0% para o GPT-5.2 Pro, uma diferença de quase 9 pontos percentuais.
Ajustes durante a implementação, não retrabalho após a conclusão.
Quem já usou IA para lidar com tarefas longas provavelmente já passou por isso: depois que o modelo executa um trecho extenso, você percebe que ele está indo na direção errada e precisa começar tudo de novo, desperdiçando todo o seu tempo.
O GPT-5.4 Thinking introduz um novo recurso de "interrupção" no ChatGPT: antes de lidar com tarefas complexas, o modelo apresenta um esboço do plano de trabalho e, em seguida, inicia a execução. Os usuários podem intervir a qualquer momento durante a execução para ajustar a direção, sem precisar esperar pelo resultado e recomeçar do zero.
Essa funcionalidade altera o status do processo de correção de "concluído" para "em andamento", proporcionando uma experiência significativamente melhor para o usuário em tarefas que exigem várias rodadas de colaboração. A funcionalidade está disponível atualmente no chatgpt.com e no aplicativo para Android, e uma versão para iOS será lançada em breve.
A partir de hoje, o GPT-5.4 está disponível para usuários do ChatGPT Plus, Team e Pro, substituindo o GPT-5.2 Thinking como modelo de pensamento padrão.
O GPT-5.2 Thinking será mantido até sua descontinuação oficial em 5 de junho deste ano. Usuários dos planos Enterprise e Edu podem ter acesso antecipado habilitado por seus administradores em segundo plano, enquanto o GPT-5.4 Pro está disponível para os planos Pro e Enterprise.

A API padrão custa US$ 2,50 por milhão de tokens para entrada, US$ 0,25 por milhão de tokens para entrada em cache e US$ 15 por milhão de tokens para saída. A versão Pro custa US$ 30 por milhão de tokens para entrada e US$ 180 por milhão de tokens para saída. O processamento em lote e o processamento flexível são oferecidos pela metade do preço padrão, enquanto o processamento prioritário custa o dobro do preço padrão.
É claro que uma capacidade de raciocínio poderosa também tem suas desvantagens. Justin Jin, cofundador da Hyperbolic, reclamou na plataforma X que o GPT-5.4 Pro era o modelo que ele mais gostava de "pensar demais" — ele começava a raciocinar seriamente depois de um simples "Oi", consumindo US$ 80.

Este não é um caso isolado. A natureza dos modelos de inferência determina que eles tendem a se envolver em raciocínio profundo ao processar qualquer entrada, mesmo que o problema em si não o exija. Para tarefas simples do dia a dia, a versão padrão pode ser uma escolha mais adequada; vale mais a pena reservar os recursos de inferência da versão Pro para situações realmente importantes.
Nos últimos dois anos, as discussões sobre as capacidades da IA têm se concentrado principalmente na "inteligência" dos resultados dos testes de referência, mas a inteligência do GPT-5.4 se refere à sua capacidade de assumir responsabilidades de forma confiável em fluxos de trabalho do mundo real.
No passado, a IA só conseguia gerar texto, e as pessoas ainda precisavam operá-la manualmente para que as tarefas acontecessem. Agora, o modelo pode abrir um navegador, preencher um formulário, clicar em um botão e registrar os resultados por conta própria, concluindo um ciclo completo de tarefas de forma independente.
A IA está se transformando de um sistema capaz de responder perguntas para um sistema capaz de realizar tarefas. E essa transformação está acontecendo muito mais rápido do que a maioria das pessoas previa.

Endereço de referência em anexo:
https://openai.com/index/introducing-gpt-5-4/
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

