OpenAI provoca seu modelo de raciocínio o3 de próxima geração ‘inovador’
Para o final de seu evento de transmissão ao vivo de 12 dias de OpenAI , o CEO Sam Altman revelou seu próximo modelo básico e sucessor da recentemente anunciada família o1 de IAs de raciocínio , apelidada de o3 e 03-mini.
E não, você não está enlouquecendo – a OpenAI ignorou o o2, aparentemente para evitar infringir os direitos autorais do provedor de telecomunicações britânico O2.
Embora os novos modelos o3 ainda não tenham sido lançados ao público e não haja informações sobre quando serão incorporados ao ChatGPT , eles agora estão disponíveis para testes por pesquisadores de segurança.
o3, nosso modelo de raciocínio mais recente, é um avanço, com uma melhoria de função escalonada em nossos benchmarks mais difíceis. estamos iniciando testes de segurança e testes de segurança. equipe vermelha agora. https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb) 20 de dezembro de 2024
A família o3, assim como os o1s anteriores, operam de maneira diferente dos modelos generativos tradicionais, pois verificam internamente os fatos de suas respostas antes de apresentá-las ao usuário. Embora essa técnica reduza o tempo de resposta do modelo de alguns segundos para alguns minutos, suas respostas a consultas complexas de ciências, matemática e codificação tendem a ser mais precisas e confiáveis do que as obtidas com o GPT-4 . Além disso, o modelo é capaz de explicar de forma transparente seu raciocínio sobre como chegou ao resultado.
Os usuários também podem ajustar manualmente a quantidade de tempo que o modelo gasta considerando um problema, selecionando entre computação baixa, média e alta, com a configuração mais alta retornando as respostas mais completas. Esse desempenho não sai barato, veja bem. O processamento em alta computação supostamente custará milhares de dólares por tarefa, escreveu o co-criador do ARC-AGI, François Chollet, em um post X na sexta-feira.
Hoje a OpenAI anunciou o3, seu modelo de raciocínio de última geração. Trabalhamos com a OpenAI para testá-lo no ARC-AGI e acreditamos que representa um avanço significativo na adaptação da IA a novas tarefas.
Ele pontua 75,7% na avaliação semiprivada no modo de baixa computação (por US$ 20 por tarefa… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 de dezembro de 2024
A nova família de modelos de raciocínio oferece desempenho significativamente melhorado em relação ao mesmo o1, que estreou em setembro , nos testes de benchmark mais desafiadores da indústria. De acordo com a empresa, o3 supera seu antecessor em quase 23 pontos percentuais no teste de codificação SWE-Bench Verified e pontua mais de 60 pontos a mais que o1 no benchmark da Codeforce. O novo modelo também obteve impressionantes 96,7% no teste de matemática AIME 2024, errando apenas uma questão, e superou os especialistas humanos no GPQA Diamond, obtendo uma pontuação de 87,7%. Ainda mais impressionante, o 03 supostamente resolveu mais de um quarto dos problemas apresentados no benchmark EpochAI Frontier Math, onde outros modelos tiveram dificuldade para resolver corretamente mais de 2% deles.
A OpenAI observa que os modelos que apresentou na sexta-feira ainda são versões iniciais e que “os resultados finais podem evoluir com mais pós-treinamento”. A empresa também incorporou novas medidas de segurança de “ alinhamento deliberativo ” na metodologia de treinamento da o3. O modelo de raciocínio o1 mostrou um hábito preocupante de tentar enganar os avaliadores humanos a uma taxa mais elevada do que as IAs convencionais como GPT-4o, Gemini ou Claude; A OpenAI acredita que as novas proteções ajudarão a minimizar essas tendências no o3.
Membros da comunidade de pesquisa interessados em experimentar o o3-mini podem se inscrever para obter acesso nalista de espera da OpenAI .