Agora mesmo, o modelo de inferência o3 mais forte da OpenAI foi lançado! Pela primeira vez posso pensar com imagens, Ultraman: Genius Level Com detalhes de medição reais

"o3 atinge ou se aproxima do nível de gênio."

Agora mesmo, o mini modelo OpenAI o3/o4 foi finalmente lançado oficialmente. A transmissão ao vivo durou quase 30 minutos, com ritmo acelerado e muita informação.

O próprio processo de liberação do o3 também é muito reverso. Em fevereiro deste ano, a OpenAI anunciou que arquivaria o plano de lançamento independente do o3 e que a tecnologia seria empacotada e inserida no GPT-5. No início de abril, Altman, que é versado em “marketing da fome”, anunciou que seu plano havia mudado:

o3 precisa ser lançado primeiro, mas o GPT-5 terá que esperar, talvez alguns meses, no mínimo.

Para destacar os pontos-chave, os destaques do OpenAI o3/o4 mini são os seguintes:

  • o O modelo mais inteligente da série até hoje, sua capacidade de raciocínio foi bastante aprimorada. Quanto mais tempo demorar para pensar, melhor será o efeito.
  • Pela primeira vez, as imagens são diretamente integradas na cadeia de pensamento, "pensando" com imagens, e ferramentas podem ser chamadas diretamente para processar imagens.
  • Pela primeira vez, ele oferece suporte total para pesquisa na web, análise de arquivos, execução de código Python, raciocínio profundo de entrada visual e geração de imagens.
  • Com custo-benefício superior à geração anterior, o o3 tem desempenho mais forte com a mesma latência e custo.

Substituindo modelos como o1 no seletor de modelo, o3, o4-mini e o4-mini-high estarão disponíveis para usuários ChatGPT Plus, Pro e Team a partir de hoje, com usuários corporativos e educacionais ganhando acesso em uma semana. Espera-se que o3-pro seja lançado em algumas semanas.

Usuários gratuitos podem usar o4-mini no modo “Think” e o limite de taxa permanece inalterado.

Os desenvolvedores acessam-no por meio da API Chat Completions e da API Responses, que oferece suporte ao resumo de inferência e otimização de chamadas de função. Em breve, ele oferecerá suporte a ferramentas integradas, como pesquisa na web.

O modelo de inferência o3 mais forte da OpenAI foi lançado. O GPT-5 pode estar muito atrás?

Os recém-lançados o3 e o4-mini são os modelos mais inteligentes da série o até hoje.

Esses dois modelos apresentam bom desempenho em capacidades de raciocínio, uso de ferramentas e processamento multimodal, permitindo-lhes pensar em problemas complexos por longos períodos de tempo. Pela primeira vez, eles oferecem suporte total para pesquisa na web, análise de arquivos, execução de código Python, raciocínio profundo de entrada visual e geração de imagens.

Desde investigadores seniores até utilizadores comuns, o novo modelo é aplicável a uma gama mais ampla de cenários.

OpenAI o3 e o4-mini podem chamar ferramentas no ChatGPT e acessar ferramentas personalizadas por meio de chamadas de função na API.

OpenAI lança o3 e o4-mini, afirma que o3 pode ‘gerar novas hipóteses’ | Beebom

Por meio do aprendizado por reforço, a OpenAI também treinou ambos os modelos sobre como usar a ferramenta – não apenas sabendo como e quando usá-la, mas também sendo capaz de gerar rapidamente respostas confiáveis ​​no formato correto, geralmente em menos de um minuto.

Por exemplo, quando me perguntam como o uso de energia na Califórnia no verão se compara ao ano passado, posso verificar on-line os dados públicos de consumo de energia, escrever código Python para prever, gerar gráficos ou imagens, explicar a base da previsão e conectar várias ferramentas com fluência.

Todo o processo de busca por inferência também é mais flexível: o modelo pode chamar o mecanismo de busca várias vezes para validar cruzadamente os resultados; se o seu próprio conhecimento for insuficiente, pode explorar ainda mais informações e integrar resultados de tipo cruzado.

Durante a transmissão ao vivo esta manhã, o presidente da OpenAI, Greg Brockman, também fez uma rara aparição. Os apresentadores da OpenAI mostraram como novos modelos podem combinar os interesses dos usuários para descobrir conteúdo que os usuários possam estar interessados, mas ainda não conheçam.

Com a função “memória” habilitada, o novo modelo pode conhecer os interesses e hobbies do demonstrador – paraquedismo e música.

Em vez de simplesmente discutir os dois hobbies separadamente, o novo modelo encontrou uma área de pesquisa que conecta os dois: os cientistas gravam os sons de recifes de corais saudáveis ​​e depois reproduzem essas gravações usando alto-falantes subaquáticos. Esta reprodução sonora acelera a colonização de novos corais e peixes, ajudando os recifes a curarem-se e a regenerarem-se mais rapidamente.

Durante o processo de criação de conteúdo, o modelo também criou automaticamente uma postagem de blog completa, primeiro usando ferramentas de análise de dados para gerar visualizações e usando Canvas para criar a postagem de blog, com citações e fontes anexadas.

Como o mais recente modelo de inferência carro-chefe, o3 estabeleceu novos recordes nas áreas de programação, matemática, ciências e percepção visual, como Codeforces, SWE-bench e benchmarks MMMU, com uma precisão de tarefa visual de 87,5% e MathVista de 75,4%.

A avaliação de especialistas externos mostra que o3 também tem uma taxa de erro crítico 20% menor do que o1 em programação, consultoria de negócios e idealização criativa. Ele pode gerar e avaliar criticamente novas hipóteses nas áreas de biologia, matemática e engenharia, e é adequado para consultas complexas.

o4-mini é "menor" e otimizado para raciocínio rápido e de baixo custo. A precisão nos testes de matemática AIME 2024 e 2025 é de 92,7% e 93,4%, respectivamente. É melhor que o3-mini em tarefas não STEM e de ciência de dados. É altamente eficiente, pode lidar com mais solicitações e é mais adequado para cenários que exigem resposta rápida.

A comparação de desempenho mostra que o3 e o4-mini superam de forma abrangente a geração anterior em testes como AIME, Codeforces, GPQA e MMMU, e o acompanhamento do comando e a qualidade da resposta também são significativamente melhorados. Combinadas com a função de memória e referências históricas de diálogo, as respostas são mais personalizadas e relevantes.

Ao longo do processo de desenvolvimento do OpenAI o3, a OpenAI observou que o aprendizado por reforço em larga escala mostrou a mesma tendência de "quanto maior a quantidade de cálculo, melhor o desempenho" que no pré-treinamento da série GPT.

Ao longo deste caminho (aprendizado por reforço), o OpenAI aumentou uma ordem de grandeza em termos de cálculos de treinamento e tempo de inferência, mas ainda obteve melhorias significativas de desempenho. Com o mesmo atraso e custo de o1, o3 tem melhor desempenho e dá mais tempo para pensar, e o efeito pode ser melhor.

OpenAI, que não se esquece de fazer desenhos, também disse que o3 e o4-mini demonstraram a tendência de integração das capacidades de raciocínio da série o e do diálogo natural e uso de ferramentas da série GPT, e espera-se que o modelo futuro (GPT-5) integre ainda mais essas vantagens para fornecer aos usuários uma experiência mais inteligente e prática.

Posso “pensar” usando imagens, mas ocasionalmente “penso demais”

OpenAI o3 e o4-mini também são os modelos de raciocínio visual mais recentes da série o.

Como entender o modelo de raciocínio visual? De acordo com a introdução oficial, o modelo integra pela primeira vez imagens diretamente na cadeia de pensamento, abrindo um novo método de resolução de problemas que integra raciocínio visual e textual.
Com ferramentas como análise de dados Python, pesquisa na web e geração de imagens, ele também pode lidar com tarefas mais complexas.

Faça upload de fotos no quadro branco, gráficos de livros didáticos ou esboços desenhados à mão. Mesmo que a imagem esteja borrada, invertida ou de baixa qualidade, o modelo pode interpretá-la com precisão e chamar diretamente ferramentas para processar a imagem, incluindo corte, rotação, dimensionamento e outras operações.

O importante é que essas funções sejam nativas e não necessitem de um modelo dedicado separado.

O blogueiro @danshipper encontrou uma marca de carrinho de bebê por meio de uma foto borrada e, pelo que parece, dezenas de páginas da web foram pesquisadas ao longo do processo.

Também carreguei uma foto do Edifício Wukang e o3 identificou com precisão que o edifício está localizado perto da Estrada Huaihai. Porém, a resposta não deu o nome do prédio.

É claro que essa forma de pensar tem suas “falhas”:

  • Pensar demais: o modelo pode depender demais de ferramentas ou processamento de imagens, resultando em longas cadeias de raciocínio.
  • Percepções erradas: mesmo que as ferramentas sejam usadas corretamente, mal-entendidos visuais podem levar a respostas erradas.
  • Instável: se você tentar o mesmo problema várias vezes, o modelo poderá usar caminhos de raciocínio diferentes e alguns resultados poderão estar errados.

Codex CLI é gratuito e de código aberto. OpenAI é realmente aberto?

o3 e o4-mini são superiores à geração anterior em termos de eficiência de custos. No teste AIME 2025, a relação preço/desempenho superou completamente o1 e o3-mini. Eles são mais inteligentes e mais econômicos.

o3 custa US$ 10 por milhão de tokens para entrada (aproximadamente 750.000 palavras, mais do que a série O Senhor dos Anéis) e US$ 40 por milhão de tokens para saída.

o4-mini custa US$ 1,10 por milhão de tokens para entrada e US$ 4,40 por milhão de tokens para produção.

Não muito tempo atrás, foi revelado que o tempo de teste de segurança do OpenAI foi reduzido de meses para dias. Os cartões de sistema o3 e o4-mini mostram que a OpenAI reconstruiu o conjunto de dados de treinamento de segurança e adicionou avisos de rejeição para ameaças biológicas, geração de malware e ataques de jailbreak.

De acordo com o mais recente Quadro de Preparação, os riscos para o3 e o4-mini estão abaixo do limiar “alto” nas áreas de biologia e química, segurança cibernética e autoaperfeiçoamento da IA.

▲ A imagem está anexada ao endereço Codex CLI GitHub: https://github.com/openai/codex

Embora o Agente esteja atrasado, ele chegou. A OpenAI também lançou um agente leve de codificação de terminal – Codex CLI.

Com base nos recursos de raciocínio de o3 e o4-mini, o Codex CLI suporta entrada multimodal e tem código aberto no GitHub. Além disso, a OpenAI também lançou um plano de US$ 1 milhão para apoiar projetos relacionados e aceita pedidos de financiamento para pontos API de US$ 25.000.

OpenAI está realmente aberto desta vez.

Segundo relatos, o Codex possui dois modos de operação, um é o “modo de recomendação” (padrão): são propostos comandos para confirmação do usuário, e o outro é o “modo totalmente automático”: o acesso à rede é desabilitado, permitindo que o Agente trabalhe de forma autônoma, mas permaneça seguro.

Durante a demonstração ao vivo, os pesquisadores da OpenAI arrastaram capturas de tela para o terminal, e o Codex CLI analisou as imagens por meio de raciocínio multimodal, acessou arquivos do usuário e, finalmente, gerou arquivos HTML, criou um gerador de arte ASCII e adicionou com sucesso uma API de webcam.

Vale ressaltar que, segundo a Bloomberg, a OpenAI planeja adquirir a empresa de ferramentas de programação de IA Windsurf por aproximadamente US$ 3 bilhões. Se a aquisição for bem-sucedida, esta se tornará a maior aquisição da OpenAI até o momento.

O relatório apontou que, uma vez concluído o acordo, a OpenAI poderá competir mais diretamente com empresas como a Anthropic, Github e Anysphere, de propriedade da Microsoft, ocupando assim um lugar no mercado de ferramentas de programação de IA em rápido crescimento.

O "nível de gênio" o3 levou Altman a avançar e apoiar, mas essas perguntas não foram respondidas corretamente…

Alguns blogueiros da plataforma X foram qualificados para experimentar o novo modelo com antecedência e compartilharam suas experiências.
@danshipper, que já experimenta isso há uma semana, disse que o3 é rápido, muito “acionável”, extremamente inteligente e a sensação geral é ótima. Os usos favoritos incluem:

  • Desenvolvi um curso conciso de aprendizado de máquina e lembrei os blogueiros de estudar todas as manhãs
  • Encontrei uma marca de carrinho de bebê por meio de uma foto borrada
  • Escreveu um novo programa de benchmark de IA em velocidade super rápida
  • Analisou uma peça clássica do trabalho de Annie Dillard como um raio X, revelando habilidades de escrita que os blogueiros nunca haviam notado antes
  • Veja as atas das reuniões para capturar blogueiros tentando evitar conflitos
  • Depois de analisar a estrutura organizacional, que tipo de produtos são recomendados para serem lançados e onde estão as deficiências?

@DeryaTR_, MD, acha que o3 é inteligente: “Quando faço uma pergunta clínica ou médica desafiadora, suas respostas parecem vir de um médico de primeira linha: precisas, abrangentes, baseadas em evidências e confiantes, com o máximo profissionalismo que esperamos de especialistas nesta área”.

Altman também encaminhou uma citação dele dizendo "o3 está no nível de gênio ou próximo dele".

Na opinião de @DeryaTR_, o4 mini é um pouco mais "discreto" e os detalhes das respostas não são tão detalhados quanto o3. Pode ser mais conciso e suave, dando às pessoas uma sensação elegante, e pode até ser mais “emocional”.

Claro, também testamos alguns problemas.

Era uma vez um velho relojoeiro que instalou um grande sino numa igreja. Ele estava velho e deslumbrado e montou as agulhas longas e curtas de maneira errada. A agulha curta moveu-se 12 vezes mais rápido que a agulha longa. Eram 6 horas da manhã durante a assembléia. Ele apontou o ponteiro curto para “6” e o ponteiro longo para “12”. O velho relojoeiro instalou e foi para casa. As pessoas olharam para o relógio por um tempo e eram 7 horas, e depois eram 8 horas. Eles ficaram muito surpresos e foram imediatamente ver o velho relojoeiro. Quando o velho relojoeiro chegou, já passava das 19h. Ele tirou um par de relógios de bolso e os relógios eram precisos. Ele suspeitava que as pessoas estavam pregando peças nele e voltava quando ele estava com raiva. O relógio ainda funciona às 8h e às 9h, e as pessoas voltam ao relojoeiro. O velho relojoeiro veio às 8 horas da manhã seguinte para usar um par de relógios, que ainda eram precisos. Por favor, pense bem: que horas eram 7 horas quando o velho relojoeiro ajustou seu relógio pela primeira vez? Que horas são novamente 8h00 ao verificar o relógio pela segunda vez?

▲o3 Resposta errada ❌

O coral do U2 precisa chegar ao local do show em 17 minutos e atravessar uma ponte no caminho. Quatro pessoas partem do mesmo extremo da ponte e você deve ajudá-las a chegar ao outro extremo. Está escuro e eles só têm uma lanterna. No máximo duas pessoas podem atravessar a ponte ao mesmo tempo e devem segurar uma lanterna ao atravessar a ponte, então alguém deve trazer uma lanterna de e para ambas as extremidades da ponte. Lanternas não podem ser distribuídas jogando-as fora. Quatro pessoas caminham em velocidades diferentes. Se duas pessoas caminham juntas, a mais lenta prevalecerá. Bono leva 1 minuto para cruzar a ponte, Edge leva 2 minutos para cruzar a ponte, Adam leva 5 minutos para cruzar a ponte e Larry leva 10 minutos para cruzar a ponte. Como eles vão atravessar a ponte em 17 minutos?

▲o4 mini respondeu corretamente ✅

Na medição real a seguir, embora o3 fornecesse etapas completas de raciocínio, a resposta estava errada novamente.

▲o3 Resposta errada ❌

Por ocasião do lançamento do OpenAI, internautas atentos também descobriram que o novo Gemini será lançado na próxima semana (22 de abril).

DeepSeek R2, Claude 4 da Anthropic e "GroK-3.5" de Musk também devem ser lançados este mês.

Mesmo olhando para o futuro, abril é o mês mais “envolvido” para a IA, o que determinará em grande parte a direção de desenvolvimento da indústria de IA no próximo ano. Modelos mais fortes, custos mais baixos e cenários mais amplos também nos trarão um futuro mais inteligente e mais inclusivo.

Em anexo está o resumo do AMA realizado pela equipe OpenAI na plataforma X:

  • A OpenAI planeja lançar um excelente modelo aberto nos próximos meses, e novos recursos de geração de imagens estarão disponíveis na API em breve.
  • O3 agora está disponível na API, enquanto um modelo o3-pro mais avançado está em desenvolvimento e deverá ser lançado em breve.
  • O ajuste fino do reforço estará disponível em breve, permitindo o ajuste público ou o uso de modelos de inferência para aprendizagem por reforço (RL).
  • Na API Responses, a alternância entre mensagens do desenvolvedor e mensagens do sistema é feita automaticamente; o envio de mensagens do sistema para o3 ou mensagens do desenvolvedor para GPT-4.1 é automaticamente convertido.
  • Atualmente, as ferramentas de hospedagem não são suportadas pela API ChatCompletions ou Responses
  • Durante a fase de inferência de o3 e o4-mini, ferramentas como pesquisa na web, pesquisa de arquivos e intérpretes de código são usadas ativamente; essas ferramentas são atualmente suportadas no ChatGPT, mas ainda não na API – espera-se que o suporte seja adicionado em breve.
  • A OpenAI está desenvolvendo ativamente suporte a threading no Agents SDK para melhorar o histórico de conversas e a memória.
  • A OpenAI considera as propostas de plataforma de baixo código no Agents SDK interessantes e agradece o feedback dos desenvolvedores sobre os recursos mais úteis.
  • A CLI do Codex inclui vários modos de aprovação documentados, permitindo ao usuário selecionar um modo para cada operação ou sessão.
  • Codex CLI não se destina a substituir ferramentas IDE como Cursor e Windsurf; ele foi projetado para executar tarefas em segundo plano enquanto o usuário está usando o IDE principal.
  • Compare as capacidades de codificação do Codex e as capacidades de pesquisa aprofundada dependendo do modelo escolhido (o3 ou o4-mini); O Codex utiliza especificamente chamadas de função para executar comandos diretamente no computador do usuário.
  • O novo modelo é treinado principalmente em navegadores de uso geral, ferramentas de execução de código/Python e ferramentas definidas pelo usuário úteis para desenvolvedores.
  • Embora o GPT-4.5 seja mais poderoso, mais lento e computacionalmente intensivo, o GPT-4.1 oferece aos desenvolvedores uma opção mais rápida e econômica.
  • Algumas melhorias do GPT-4.1 foram integradas ao ChatGPT e mais melhorias serão implementadas no futuro.
  • A OpenAI reconhece que há confusão de nomenclatura entre nomes de modelos como “4o” e “o4” e planeja simplificar a nomenclatura de modelos em breve.

# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo