Nos testes reais, o GPT-5.3-Codex foi identificado como o primeiro modelo de alto risco na história da OpenAI, e eles nem sequer se atreveram a liberar sua API para nós ainda.

O GPT-5.3-Codex, lançado hoje de manhã, pode ser visto como um poderoso contra-ataque da OpenAI ao recente aumento de popularidade de vários agentes locais, e principalmente como um contra-ataque ao Anthropic.

Com o lançamento do aplicativo Codex para desktop pela OpenAI há alguns dias, as funções de ferramentas populares como Skill, Cowork, Claude Code e até mesmo Openclaw agora podem ser realizadas por meio da interface do Codex e dos recursos do modelo GPT-5.3-Codex.

▲ No aplicativo Codex, você pode selecionar diretamente o modelo GPT-5.3-Codex e também escolher a intensidade do raciocínio profundo.

Assim como fizemos para apresentar as funcionalidades do Cowork anteriormente, também atribuímos ao Codex algumas tarefas semelhantes, como processar arquivos locais diretamente, converter vários formatos, combinar diferentes habilidades, criar arquivos Word/PPT/Excel, baixar vídeos, desenvolver aplicativos, etc.

O GPT-5.3-Codex apresenta um desempenho notável. Comparado à instalação do Claude Code do zero, baixar o Codex diretamente é uma opção melhor para novos usuários. Essa também é uma tendência entre os fornecedores de modelos para o futuro; inicialmente, todos começavam com o complicado terminal de linha de comando para criar agentes locais, mas estão gradualmente retornando a interfaces visuais amigáveis.

As avaliações online do Codex mudaram consideravelmente nos últimos dias, com muitos desenvolvedores migrando do Claude Code para o Codex. Alguns desenvolvedores independentes na China também afirmaram que os membros do Codex Plus podem usá-lo sem os banimentos de contas implacáveis ​​que o Claude costuma aplicar.

Ultraman anunciou com entusiasmo que o Codex havia ultrapassado 1 milhão de usuários ativos. Seu blog de atualizações de modelos também estava repleto de elogios generosos e sem reservas.

O GPT-5.3-Codex é o nosso primeiro modelo desenvolvido internamente . Ao utilizarmos o 5.3-Codex, conseguimos lançá-lo em um ritmo muito rápido.

Trabalhar com a equipe de Claude por duas semanas, usando o Claude Code — código 100% IA — para criar algo como o Cowork; e depois há o artigo da OpenAI do final do ano passado, "Criando uma versão Android do Sora em 28 dias usando o Codex" — a era dos agentes realmente chegou.

Substitua meu ChatGPT e Claude Code pelo Codex.

Como na maioria dos agentes locais, seja no terminal ou no Cowork, primeiro selecionamos uma pasta de trabalho. No Codex, podemos criar vários projetos, selecionar as pastas correspondentes e, em seguida, iniciar a conversa; o Codex chama isso de Threads.

Vamos começar com o exemplo mais comum e simples. Adicionamos uma pasta de downloads vazia, clicamos em "Iniciar uma conversa" e selecionamos o modelo GPT-5.3-Codex; assim como em uma conversa no ChatGPT, inserimos os comandos.

Pedimos ao Codex para baixar um vídeo X para nós. O Codex verificou automaticamente as habilidades disponíveis para reproduzi-lo e, em seguida, baixou o vídeo usando a ferramenta yt-dlp. O vídeo tinha mais de quatro horas de duração e o Codex continuava atualizando o progresso do download na caixa de diálogo.

▲A imagem GIF foi acelerada.

Após baixar o vídeo, também podemos solicitar a extração da transcrição, gerar um documento bilíngue e, por fim, integrar todo o processo em uma Skill para facilitar o uso futuro.

Se você tiver trechos interessantes em um vídeo e quiser cortá-lo ou convertê-lo em um GIF, você pode fazer tudo isso no Codex.

Por exemplo, baixamos um vídeo e, em seguida, pedimos ao programa para recortar de 5 a 25 segundos desse vídeo para criar um novo vídeo. Graças ao rápido processamento de tokens do GPT-5.3-Codex, todo o processo é rápido; depende mais da capacidade de decodificação e codificação do hardware do computador local.

▲ A imagem GIF foi acelerada.

Alternativamente, podemos solicitar diretamente que converta os primeiros 5 segundos do vídeo em um arquivo GIF, garantindo que o tamanho esteja dentro de 10 MB, que a taxa de quadros possa ser ajustada e que a largura seja controlada em 640 pixels para maior clareza.

Em breve, teremos o arquivo GIF correspondente. Ainda mais impressionante, ele pode converter o vídeo inteiro em imagens a 30 quadros por segundo, sendo cada quadro uma imagem.

Essas capacidades de processamento direto de arquivos locais, juntamente com o excelente desempenho do GPT-5.3-Codex no conjunto de testes Terminal-Bench-2, permitem que o Codex atenda essencialmente aos requisitos funcionais de diversas ferramentas de produtividade e eficiência.

Em comparação, a recém-lançada Claude Opus 4.6 obteve 65,4% no Terminal-Bench 2.0 e 77,3% no GPT-5.3-Codex.

Fonte da imagem: https://x.com/neilsuperduper/status/2019486017703547309/

Por exemplo, se houver várias imagens nesta pasta, nosso primeiro requisito é renomear esses arquivos de imagem de acordo com seu conteúdo e manter os nomes dos arquivos com no máximo 20 caracteres, sem permitir o uso de símbolos.

▲ A imagem GIF foi acelerada.

Após a modificação automática ser concluída, também podemos solicitar que o programa junte essas imagens, seja verticalmente ou horizontalmente. O Codex pode fazer isso chamando as ferramentas correspondentes.

Assim como o Claude Skills, o Codex permite a instalação de uma ampla gama de skills do Skills Marketplace e já oferece diversas skills integradas ao aplicativo, incluindo pptx, xls, word, canvas e notion.

Voltando às habilidades básicas de programação, o GPT-5.3-Codex atualizado tem um desempenho significativamente melhor do que o GPT-5.2. Pedimos diretamente a ele para escrever um aplicativo de "Palavra do Dia". Ao contrário do ChatGPT, que simplesmente fornece uma página da web não transferível usando o Canvas, o Codex permite que você construa o projeto localmente do zero e, em seguida, o implante em uma página da web usando ferramentas como Vercel ou Cloudflare.

Aqui, selecionamos o modo de raciocínio Extra Alto. Antes de cada operação, o GPT-5.3-Codex me perguntava qual seria a próxima opção. Isso também se deve ao fato de o Codex poder acionar diferentes habilidades de acordo com a situação da tarefa. Entre elas, a habilidade Brainstorming inicia automaticamente um diálogo contínuo.

Em suma, atendeu a todos os recursos que eu inicialmente solicitei e também pode ser aprimorado para versões macOS, iOS e Android.

Se já tivermos um projeto de código existente, também podemos selecionar a pasta do projeto e abri-lo no Codex. O GPT-5.3-Codex analisará os erros no projeto e os corrigirá.

Durante muito tempo, o modelo Sonnet/Opus da Anthropic e a ferramenta Claude Code foram as escolhas preferidas dos desenvolvedores, tanto em termos de ferramentas quanto de modelos. O atraso da OpenAI em programação, especialmente em raciocínio lógico com código extenso, levou muitos desenvolvedores a mudarem de plataforma.

O surgimento do GPT-5.3-Codex tinha como objetivo encerrar esse debate. Agora, o GPT-5.3-Codex não só supera seu antecessor em benchmarks de programação e desempenho no mundo real, como também demonstra estar muito à frente dos modelos concorrentes. Ele realmente possui a capacidade de escrever, testar e inferir código.

O projeto do jogo foi um estudo de caso fundamental na seção de desenvolvimento de sites deste blog introdutório sobre o modelo. Também solicitamos ao GPT-5.3-Codex a criação de um jogo de pinball simples baseado em física. Embora o resultado geral não tenha atendido às minhas expectativas — eu havia solicitado especificamente um RPG nas dicas —, a interface fornecida pelo GPT-5.3-Codex ainda era muito rudimentar. No entanto, ainda é jogável.

Também encontramos alguns joguinhos no X feitos com o GPT-5.3-Codex, como este jogo de coleta de moedas no estilo Super Mario.

▲Fonte: https://x.com/Angaisb_/status/2019548783869325331

Entre os fortes, sempre há jogadores mais fortes.

Para a Anthropic, o que a OpenAI está fazendo hoje é algo que nós já fizemos. Seja código, recursos de agentes ou o início do desenvolvimento de agentes locais, passando da antiga interface de terminal Codex para aplicativos macOS.

No campo da tecnologia, a OpenAI parece estar seguindo os passos de Claude. Claude tem se dedicado intensamente à programação, enquanto a OpenAI tem trabalhado em projetos como Sora, relatórios diários, navegadores e agentes ChatGPT, mas nenhum deles obteve grande repercussão, então a empresa também começou a se concentrar em programação. Claude lançou o Cowork no início de janeiro, e a OpenAI seguiu o exemplo no início de fevereiro com o lançamento do aplicativo Codex.

Assim como na enxurrada de lançamentos de hoje, às 1h45 da manhã, Claude lançou oficialmente o Claude Opus 4.6, seguido pelo lançamento do GPT-5.3-Codex pela OpenAI. Ambos os modelos foram projetados para dar aos agentes capacidades fundamentais mais poderosas. Antes, o foco era na codificação/intuição, mas agora, para um agente ter um bom desempenho, trata-se basicamente de "escrever um bom código".

Embora o Opus 4.6 tenha um desempenho ainda pior que o Opus 4.5 no SWE-Bench e não seja tão robusto quanto o GPT-5.3-Codex no Terminal-Bench 2.0, o Opus aumentou de forma inédita o comprimento do contexto para uma janela de um milhão de tokens. Além disso, o desempenho desses benchmarks não apresenta diferenças significativas.

Claude disse: "Meu Soneto 5 ainda não foi lançado; é aí que entra a verdadeira habilidade."

Também encontramos alguns dos casos de teste mais recentes para o Opus 4.6 online. Alguns internautas disseram que Claude, usando o Opus 4.6, refatorou completamente toda a sua base de código com apenas uma chamada, modularizando a bagunça original que era o "montanha de lixo" de código. Nenhum outro modelo consegue fazer isso tão bem quanto o Opus.

Alguns internautas compararam o Opus 4.6 e o ​​4.5, fazendo com que ambos os modelos jogassem o mesmo jogo de gerenciamento para ver qual deles tinha o nível de conta, a riqueza e os equipamentos mais altos. O blogueiro que fez o teste mencionou que a versão 4.6 demorou mais para formular estratégias nos estágios iniciais, mas tomou decisões estratégicas melhores e, no fim, conquistou uma vantagem significativa.

Outro internauta também criou um jogo, mas é um clone de Pokémon. O blogueiro mencionou que essa é a coisa mais legal que ele já fez usando IA. Ele comentou que o Claude Opus 4.6 levou 1 hora e 30 minutos para ser desenvolvido, usou 110.000 tokens e teve apenas três iterações.

▲ https://x.com/chatgpt21/status/2019679978162634930

Na demonstração oficial do CLaude e nos primeiros feedbacks dos usuários, foi mencionado um caso em que o Opus teve um desempenho excepcional. O Opus 4.6 resolveu automaticamente 13 problemas (problemas não resolvidos no projeto) em um único dia e atribuiu com precisão outros 12 problemas aos membros humanos corretos da equipe.

Assim como o enxame de agentes no Kimi K2.5, o Opus 4.6 também pode gerenciar a base de código de uma organização de 50 pessoas. No Claude Code, podemos formar Equipes de Agentes, convocando uma equipe inteira de IA, em vez de uma única IA trabalhando sozinha. Essas IAs podem ser responsáveis ​​por escrever código, revisar e testar, e podem colaborar de forma autônoma.

Alguns usuários também testaram o enxame de agentes no Claude Code e mencionaram que, após habilitar o enxame, o Opus 4.6 ficou 2,5 vezes mais rápido e apresentou melhor desempenho.

Nossa situação atual é exatamente como esta imagem; embora uma montanha seja mais alta que a outra, não podemos escapar deste ciclo. O Gemini provavelmente roubou a cena há alguns meses, o Claude deve ser o próximo em janeiro, e depois parece que será a vez da OpenAI, ou do Grok de Musk.

Felizmente, durante esse ciclo, nós, como usuários, podemos sentir claramente que as capacidades da IA ​​estão em constante aprimoramento.

A API do GPT-5.3-Codex ainda não está aberta porque o modelo é muito poderoso e representa um risco significativo. Portanto, a OpenAI ainda está avaliando como habilitar a API de forma segura.

O Claude Opus 4.6 pode ser usado de diversas maneiras, incluindo o aplicativo de bate-papo universal Claude, o Claude Code e a API. Sendo dois dos primeiros modelos lançados pelos três principais fornecedores internacionais este ano, definitivamente vale a pena experimentá-los.

No futuro, melhorar o atendimento aos agentes e capacitá-los a realizar tarefas por nós continuará sendo um foco fundamental das principais atualizações do modelo.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo