A OpenAI reduz o tamanho do GPT-5.4 para maior velocidade e custos mais baixos.

A OpenAI está reduzindo a escala de seus modelos mais recentes para atingir um público-alvo diferente: respostas mais rápidas e custos muito menores. Os novos GPT-5.4 mini e nano foram desenvolvidos para desenvolvedores que priorizam a capacidade de resposta em vez de extrair o máximo de poder de raciocínio.

Ambos os modelos estão disponíveis a partir de hoje. O GPT-5.4 mini é mais que o dobro mais rápido que seu antecessor, mantendo-se próximo ao desempenho do GPT-5.4 completo em benchmarks importantes. O GPT-5.4 nano vai além, focando em tarefas mais simples, como classificação e extração de dados, onde a eficiência é fundamental.

Essa abordagem é adequada para aplicativos em que a velocidade define a experiência. Assistentes de programação, agentes em segundo plano e ferramentas de visão em tempo real dependem de feedback rápido e, nesses casos, um modelo ligeiramente menor geralmente oferece um resultado geral melhor.

Quanto desempenho você realmente perde

A diferença de desempenho entre os modelos é menor do que você imagina. O GPT-5.4 mini alcança 54,4% no SWE-Bench Pro, em comparação com 57,7% do modelo completo. No OSWorld-Verified, o mini atinge 72,1%, enquanto a versão maior chega a 75%, mantendo a diferença pequena em todas as tarefas.

Os custos caem de forma muito mais drástica. O GPT-5.4 mini custa US$ 0,75 por milhão de tokens de entrada e US$ 4,50 por milhão de tokens de saída, enquanto o nano custa US$ 0,20 e US$ 1,25, respectivamente. Ambos os modelos suportam entradas de texto e imagem, uso de ferramentas, chamadas de função e uma janela de contexto de 400.000 tokens, portanto, o preço mais baixo não compromete as funcionalidades principais.

No Codex, o modelo mini utiliza apenas 30% da cota do GPT-5.4. Isso permite que os desenvolvedores transfiram tarefas rotineiras de codificação para um nível mais econômico, reservando o modelo completo para raciocínios mais complexos.

Quando os modelos menores assumem a responsabilidade pelo trabalho pesado.

A OpenAI também está promovendo um fluxo de trabalho com múltiplos modelos. Em vez de depender de um único sistema, os desenvolvedores podem dividir o trabalho em várias camadas, combinando um modelo maior para o planejamento com modelos menores para a execução.

Essa configuração reflete o funcionamento de muitos aplicativos reais. Um modelo pode revisar uma base de código ou decidir sobre alterações , enquanto outro processa dados de suporte ou etapas repetitivas. O modelo menor lida com o trabalho previsível, enquanto o maior se concentra no julgamento e na coordenação.

Os primeiros comentários sugerem que essa combinação é eficaz. Aabhas Sharma, CTO da Hebbia, relatou que o GPT-5.4 mini igualou ou superou modelos concorrentes em diversas tarefas a um custo menor e, em alguns casos, apresentou resultados de ponta a ponta ainda melhores do que o GPT-5.4 completo.

O que usar e quando

O GPT-5.4 mini já está disponível na API, no Codex e no ChatGPT . Usuários das versões gratuita e Go podem acessá-lo pela opção Thinking, enquanto outros usuários podem vê-lo como uma alternativa caso atinjam os limites do GPT-5.4 Thinking.

O modelo nano está atualmente limitado à API, voltado para equipes que executam cargas de trabalho de alto volume, onde o controle de custos é fundamental. Ambos os modelos já estão disponíveis e a documentação completa pode ser consultada.

Para desenvolvedores que criam recursos de IA em tempo real, a mudança é clara. Modelos menores agora são capazes de lidar com uma parcela maior do trabalho diário, o que torna a escolha do equilíbrio certo entre velocidade, custo e capacidade uma decisão cada vez mais prática.

O artigo"OpenAI reduz o tamanho do GPT-5.4 para maior velocidade e custos mais baixos" foi publicado originalmente no Digital Trends .