O GPT-5.2 acaba de ser lançado oficialmente! Ele reduzirá a jornada de trabalho em 10 horas semanais para funcionários de escritório; o modo adulto estará disponível no próximo ano.

Em 1106 dias, a OpenAI passou de ser aquela que virava o jogo a ser aquela cujo jogo era virado.

Com o lançamento do Google Gemini 3, o CEO da OpenAI, Altman, emitiu um raro alerta de "Código Vermelho" na semana passada, anunciando que todos os recursos seriam redirecionados para a linha principal do ChatGPT e que outros negócios seriam deixados de lado.

Esta é a primeira vez desde a criação da OpenAI que ela entra em estado de "alerta vermelho", e também a primeira vez que reconhece tão claramente que a pressão competitiva se tornou tão grande que precisa lidar com ela com todas as suas forças.

Acaba de ser lançada a OpenAI, com o lançamento do modelo GPT-5.2, um lançamento impactante. O GPT-5.2 estará disponível para usuários pagos do ChatGPT e desenvolvedores via API, e será lançado em três versões:

  • Instantâneo: Uma versão otimizada para velocidade, adequada para tarefas rotineiras como recuperação de informações, escrita e tradução;
  • Raciocínio: Habilidade para lidar com tarefas complexas e estruturadas, como programação, análise de documentos extensos, matemática e planejamento;
  • Prós: A versão de alta gama, focada em proporcionar máxima precisão e confiabilidade para tarefas desafiadoras.

Nada de conversa fiada, só trabalho de verdade: o GPT-5.2 invade o ambiente de trabalho de profissionais.

Acreditava-se que a OpenAI se concentraria em aprimorar a personalização e a experiência do consumidor do ChatGPT, mas o lançamento do GPT-5.2 ainda segue o caminho do pragmatismo no ambiente de trabalho.

Nas palavras de Fidji Simo, CEO da OpenAI, "Projetamos o GPT-5.2 para criar mais valor econômico para os usuários."

O que é valor econômico?

O objetivo é permitir que a IA execute tarefas de fato, como criar planilhas, escrever apresentações em PowerPoint, programar, visualizar imagens, ler artigos longos, usar ferramentas e lidar com projetos complexos — todas essas são as especialidades do GPT-5.2.

Os dados são bastante impressionantes. Em média, cada usuário do ChatGPT Enterprise afirma que a IA economiza de 40 a 60 minutos por dia, e os usuários mais assíduos economizam ainda mais, mais de 10 horas por semana.

O grande destaque desta versão é o GPT-5.2 Thinking.

No teste GDPval, que avalia 44 tarefas ocupacionais baseadas em conhecimento, o modelo GPT-5.2 Thinking tornou-se o primeiro a atingir ou superar o desempenho geral de especialistas humanos. Especificamente, em comparação com especialistas da indústria, o GPT-5.2 Thinking superou ou igualou o desempenho de especialistas humanos em 70,9% das tarefas.

Essas tarefas não são arbitrárias; elas abrangem os nove principais setores no ranking do PIB dos EUA, incluindo apresentações de vendas, demonstrações contábeis, planos de agendamento de salas de emergência, projetos de fabricação, produção de vídeos curtos e muito mais — todas tarefas exigentes provenientes de cenários de trabalho do mundo real.

A melhoria nas habilidades de programação é ainda mais notável.

O SWE-Bench Pro é um teste muito rigoroso que avalia as capacidades de um modelo em aplicações reais de engenharia de software. Ele envolve quatro linguagens de programação e é muito mais difícil do que a versão que utiliza apenas Python. O GPT-5.2 Thinking alcançou uma pontuação de 55,6% neste teste, estabelecendo um novo recorde na indústria.

Mais impressionante ainda, alcançou uma pontuação de 80% no SWE-bench Verified, estabelecendo um novo recorde. Isso significa que o GPT-5.2 Thinking consegue depurar código em ambientes de produção com mais confiabilidade, implementar requisitos funcionais e refatorar grandes bases de código, tornando as correções de ponta a ponta mais eficientes e reduzindo a intervenção humana.

O desenvolvimento front-end também apresentou melhorias significativas.

Os primeiros usuários que testaram o produto afirmam que ele apresenta melhor desempenho ao lidar com tarefas complexas ou não convencionais de interface do usuário (UI) no front-end, especialmente aquelas que envolvem elementos 3D, tornando-o um verdadeiro assistente para engenheiros full-stack.

A OpenAI também divulgou vários exemplos gerados a partir de um único comando: um simulador de ondas, um gerador de cartões de felicitações de fim de ano e um jogo de digitação com chuva. Com apenas um comando, surge um aplicativo completo de página única, com parâmetros ajustáveis, animações realistas e um estilo de interface de usuário sereno.

Taxa de ilusão reduzida em 30%, capacidade de leitura de textos longos quase perfeita.

Em termos de precisão factual, o GPT-5.2 Thinking apresenta uma "taxa de ilusão" menor em comparação com o GPT-5.1 Thinking.

Em um conjunto de consultas anonimizadas do ChatGPT, o número de respostas incorretas diminuiu em aproximadamente 30%. Para profissionais, isso se traduz em menores taxas de erro e maior confiança no uso do serviço para tarefas como pesquisa, redação, análise e apoio à tomada de decisões.

No entanto, a OpenAI também alerta que, como todos os modelos, o GPT-5.2 não é perfeito e tarefas importantes ainda exigem verificação manual.

A capacidade de raciocínio em textos longos também estabeleceu um novo padrão.

No benchmark MRCRv2 da OpenAI, o GPT-5.2 superou o GPT-5.1. Este teste avalia a capacidade de um modelo de integrar corretamente informações distribuídas em documentos longos. Para tarefas como análise profunda de documentos, que envolvem a integração de informações entre documentos com centenas de milhares de tokens, a precisão do GPT-5.2 supera em muito a do GPT-5.1.

Especialmente no teste MRCR de 4 agulhas (que é diferente de "encontrar uma agulha em um palheiro", mas exige que o modelo distinga e encontre uma agulha específica entre várias "agulhas" idênticas em uma quantidade enorme de texto), com um contexto de até 256 mil tokens, o GPT-5.2 é o primeiro modelo a atingir uma precisão próxima a 100%.

Isso significa que usuários profissionais podem processar com eficiência documentos extremamente longos com o GPT-5.2, incluindo relatórios, contratos, artigos acadêmicos, transcrições de entrevistas e projetos com múltiplos arquivos. Ele mantém a consistência lógica e a precisão das informações mesmo ao lidar com centenas de páginas de conteúdo. Em termos de compreensão visual, o GPT-5.2 Thinking é atualmente o modelo visual mais poderoso da OpenAI. No raciocínio gráfico e na compreensão de interfaces de software, a taxa de erros foi reduzida em aproximadamente metade.

Para o uso profissional diário, isso significa que o modelo pode interpretar com mais precisão painéis de dados, capturas de tela de produtos, desenhos técnicos e relatórios visuais, tornando-o adequado para cenários de trabalho centrados em visão, como finanças, operações, engenharia, design e atendimento ao cliente.

A compreensão espacial e a capacidade de usar ferramentas também melhoraram. No teste Tau2-bench Telecom, o GPT-5.2 Thinking alcançou uma nova pontuação máxima de 98,7%, demonstrando sua capacidade de usar ferramentas de forma confiável em tarefas longas e com várias rodadas.

Mesmo com a intensidade da inferência definida no nível mais baixo, o GPT-5.2 ainda supera significativamente o GPT-5.1 e o GPT-4.1.

Isso significa que o GPT-5.2 Thinking é mais forte na execução de fluxos de trabalho de ponta a ponta, no gerenciamento de casos de atendimento ao cliente, na extração de dados de múltiplos sistemas, na realização de tarefas de análise, na conclusão eficiente de todo o processo e na minimização de erros em etapas intermediárias.

O aprimoramento das habilidades em matemática e ciências é provavelmente a parte mais complexa desta versão.

Em testes de ciências de nível de pós-graduação, como o GPQA Diamond, que abrange áreas como física, química e biologia, o GPT-5.2 apresenta um desempenho significativamente melhor. Ele também consegue lidar com testes de referência como o FrontierMath, que avaliam habilidades de resolução de problemas matemáticos em nível de especialista.

Mais impressionante ainda, no teste ARC-AGI-1, o GPT-5.2 Pro foi o primeiro modelo a ultrapassar os 90% de precisão, superando os 87% da versão prévia do o3 do ano passado, e reduzindo os custos em aproximadamente 390 vezes.

A versão ARC-AGI-2 é mais difícil, focando em testar a capacidade de raciocínio sobre liquidez. A pontuação do GPT-5.2 Thinking é de 52,9%, estabelecendo um novo recorde para o "modelo de raciocínio em cadeia". O GPT-5.2 Pro vai ainda mais longe, atingindo 54,2%.

O blog oficial menciona um caso impressionante: o GPT-5.2 Pro chega a fornecer uma prova viável para um problema em aberto na teoria da aprendizagem estatística.

Essa questão surge de um problema não resolvido levantado na Conferência de Teoria da Aprendizagem de 2019 (COLT): se o modelo estiver perfeitamente configurado e os dados seguirem uma distribuição normal padrão, a curva de aprendizado será monotônica nesse caso "perfeito" dos livros didáticos?

Os pesquisadores não desenvolveram um algoritmo nem forneceram uma prova prévia, e tampouco inseriram etapas intermediárias ou dicas. Em vez disso, solicitaram diretamente uma prova completa ao GPT-5.2 Pro. Como resultado, o modelo propôs uma solução viável, cuja correção foi confirmada por meio de verificação manual e revisão por especialistas externos.

Isso demonstra que o GPT-5.2 Pro pode desempenhar um papel mais substancial no auxílio à pesquisa científica em áreas com fundamentos axiomáticos claros, como matemática e ciência da computação teórica: explorando caminhos de prova, verificando hipóteses e descobrindo conexões ocultas.

▲Preço da API GPT-5.2

Um desempenho tão impressionante tem um preço alto.

Os modos de Pensamento e Pesquisa Profunda consomem muito mais poder computacional do que os chatbots comuns, pois precisam "pensar" de forma muito mais profunda. Isso ocorre porque a OpenAI agora gasta a maior parte de seus recursos em inferência de modelos diretamente em dinheiro, em vez de usar créditos do serviço de nuvem Microsoft Azure.

É difícil dizer quanto tempo esse tipo de estratégia, que envolve investir dinheiro constantemente, pode durar.

De forma geral, o GPT-5.2 é mais uma integração das duas atualizações de modelo anteriores do que uma reconstrução completa.

O GPT-5 de agosto representou uma reformulação arquitetônica, introduzindo um mecanismo de roteamento que permite alternar entre modos de resposta rápida e de "Pensamento" profundo. O GPT-5.1 de novembro tornou o sistema mais gentil, mais conversacional e mais adequado para agentes e tarefas de programação.

O atual GPT-5.2 visa aproveitar essas vantagens para criar um modelo de produção mais confiável. E um detalhe muito importante: a base de conhecimento subjacente a todos os três modelos GPT-5.2 lançados desta vez foi atualizada.

O GPT-5.2 começou a ser implementado gradualmente no ChatGPT, inicialmente disponível para usuários pagos. O GPT-5.1 permanecerá na opção "Modelo Tradicional" por três meses antes de ser oficialmente descontinuado.

A API também está disponível e os desenvolvedores já podem usá-la. Ela é um pouco mais cara que o GPT-5.1, mas a OpenAI afirma que, como o token é mais eficiente, o custo total real é menor.

Uma má notícia e uma boa notícia.

Além do próprio modelo, existem duas notícias muito contrastantes a respeito da comercialização da OpenAI.

Embora nenhum novo modelo de geração de imagens tenha sido introduzido nesta versão, a OpenAI firmou hoje um acordo de licenciamento de três anos com a Disney.

Os usuários podem criar vídeos para redes sociais com mais de 200 personagens da Disney, Marvel, Pixar e Star Wars, e alguns desses vídeos podem até ser reproduzidos no Disney+.

Em troca, a Disney investiu US$ 1 bilhão na OpenAI e se tornará um cliente importante. A combinação de propriedade intelectual de conteúdo e geração de IA certamente oferece muito potencial.

Outra notícia importante é que o "modo adulto" do ChatGPT finalmente tem um cronograma definido.

Com o crescente número de chatbots de IA que se aventuram em conteúdo adulto, a OpenAI deixou de ser inocente. Segundo a Bloomberg, Fidji Simo confirmou que o recurso deverá ser lançado no primeiro trimestre de 2026.

Antes disso, a OpenAI continuará a otimizar seus recursos de reconhecimento de idade para garantir que os mecanismos de proteção de conteúdo sejam ativados automaticamente para menores. Atualmente, o modelo de previsão de idade está passando por testes iniciais em países selecionados para avaliar sua capacidade de identificar adolescentes e garantir que não identifique erroneamente adultos.

Diante da pressão implacável do Google Gemini, a OpenAI respondeu com uma combinação de medidas, incluindo o GPT-5.2. Ele é mais rápido, mais robusto e se assemelha mais a um produto comercial maduro.

Ao mesmo tempo em que abraça o Mickey Mouse da Disney, a OpenAI também se prepara para lançar um modo voltado para o público adulto. Ela precisa manter sua liderança tecnológica enquanto monetiza seus produtos rapidamente; precisa conquistar o mercado corporativo sem abrir mão de nenhum ponto de entrada de tráfego.

Felizmente, a OpenAI, que está comemorando seu décimo aniversário, acabou tendo um bom desempenho neste contra-ataque.

▲ Também há um pequeno easter egg

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo