OpenAI provoca seu modelo de raciocínio o3 de próxima geração ‘inovador’

Sam Altman descrevendo as capacidades do modelo o3
OpenAI

Para o final de seu evento de transmissão ao vivo de 12 dias de OpenAI , o CEO Sam Altman revelou seu próximo modelo básico e sucessor da recentemente anunciada família o1 de IAs de raciocínio , apelidada de o3 e 03-mini.

E não, você não está enlouquecendo – a OpenAI ignorou o o2, aparentemente para evitar infringir os direitos autorais do provedor de telecomunicações britânico O2.

Embora os novos modelos o3 ainda não tenham sido lançados ao público e não haja informações sobre quando serão incorporados ao ChatGPT , eles agora estão disponíveis para testes por pesquisadores de segurança.

A família o3, assim como os o1s anteriores, operam de maneira diferente dos modelos generativos tradicionais, pois verificam internamente os fatos de suas respostas antes de apresentá-las ao usuário. Embora essa técnica reduza o tempo de resposta do modelo de alguns segundos para alguns minutos, suas respostas a consultas complexas de ciências, matemática e codificação tendem a ser mais precisas e confiáveis ​​do que as obtidas com o GPT-4 . Além disso, o modelo é capaz de explicar de forma transparente seu raciocínio sobre como chegou ao resultado.

Os usuários também podem ajustar manualmente a quantidade de tempo que o modelo gasta considerando um problema, selecionando entre computação baixa, média e alta, com a configuração mais alta retornando as respostas mais completas. Esse desempenho não sai barato, veja bem. O processamento em alta computação supostamente custará milhares de dólares por tarefa, escreveu o co-criador do ARC-AGI, François Chollet, em um post X na sexta-feira.

A nova família de modelos de raciocínio oferece desempenho significativamente melhorado em relação ao mesmo o1, que estreou em setembro , nos testes de benchmark mais desafiadores da indústria. De acordo com a empresa, o3 supera seu antecessor em quase 23 pontos percentuais no teste de codificação SWE-Bench Verified e pontua mais de 60 pontos a mais que o1 no benchmark da Codeforce. O novo modelo também obteve impressionantes 96,7% no teste de matemática AIME 2024, errando apenas uma questão, e superou os especialistas humanos no GPQA Diamond, obtendo uma pontuação de 87,7%. Ainda mais impressionante, o 03 supostamente resolveu mais de um quarto dos problemas apresentados no benchmark EpochAI Frontier Math, onde outros modelos tiveram dificuldade para resolver corretamente mais de 2% deles.

A OpenAI observa que os modelos que apresentou na sexta-feira ainda são versões iniciais e que “os resultados finais podem evoluir com mais pós-treinamento”. A empresa também incorporou novas medidas de segurança de “ alinhamento deliberativo ” na metodologia de treinamento da o3. O modelo de raciocínio o1 mostrou um hábito preocupante de tentar enganar os avaliadores humanos a uma taxa mais elevada do que as IAs convencionais como GPT-4o, Gemini ou Claude; A OpenAI acredita que as novas proteções ajudarão a minimizar essas tendências no o3.

Membros da comunidade de pesquisa interessados ​​em experimentar o o3-mini podem se inscrever para obter acesso nalista de espera da OpenAI .