O modelo mais forte da OpenAI foi exposto como falso! Receba as perguntas do teste com antecedência, os melhores matemáticos estão sendo mantidos no escuro
Recentemente, a OpenAI foi mais uma vez apanhada por uma tempestade de opinião pública.
O incidente originou-se de uma revelação no fórum LessWrong. Um contratante da Epoch AI chamado “Meemi” revelou que a OpenAI não apenas forneceu suporte financeiro para o benchmark FrontierMath, mas também obteve acesso privilegiado ao banco de perguntas do teste.
E esta pode ser uma razão importante pela qual o desempenho do o3 melhorou muito em um curto período de tempo. Mas esta informação não foi anunciada pela Epoch AI até o lançamento do o3 em 20 de dezembro do ano passado.
Assim que a notícia foi divulgada, imediatamente causou alvoroço no círculo da IA, pois era difícil não fazer os internautas duvidarem que a OpenAI era ao mesmo tempo um árbitro e um jogador.
Antes de comer, você precisa fornecer a amigos desconhecidos informações básicas sobre o incidente.
Em dezembro do ano passado, a OpenAI lançou oficialmente uma nova geração do modelo o3 que afirma romper os limites da IA.
Em um dos benchmarks de matemática de IA (boletim) chamado FrontierMath, o OpenAI está muito à frente com uma precisão de 25,2%, superando em muito os menos de 2% alcançados por modelos como GPT-4 e Gemini.
FrontierMath é uma avaliação altamente ponderada de habilidades avançadas de raciocínio matemático. Foi construído em conjunto pela Epoch AI e mais de 60 matemáticos de ponta. Os participantes incluem vários vencedores da Medalha Fields e criadores de propostas seniores da Olimpíada Internacional de Matemática.
O benchmark contém centenas de problemas matemáticos originais e desafiadores, cobrindo vários ramos importantes da matemática moderna, como teoria dos números, análise real, geometria algébrica, teoria das categorias, etc.
Terence Teru, vencedor da Medalha Fields em 2006 e gênio matemático, comentou certa vez que os problemas do FrontierMath são "extremamente desafiadores" e acredita que esses problemas só podem ser resolvidos por especialistas no domínio. Ele observou que mesmo para especialistas humanos, resolver estes problemas levaria horas ou até dias de esforço.
Este boletim mostrou que a o3 fez grandes progressos no raciocínio matemático avançado, mas sua reputação foi revertida após as revelações do contratante. Diante da polêmica, Tamay Besiroglu, vice-diretor e cofundador da Epoch AI, admitiu rapidamente o assunto na plataforma X.
Cometemos um erro ao não divulgar anteriormente o envolvimento da OpenAI na FrontierMath. Nosso contrato nos proíbe de fazer isso até que o3 seja lançado. Em retrospectiva, deveríamos realmente ter pressionado mais pela transparência antes. Reconhecemos isso e nos comprometemos a fazer melhor no futuro.
A situação agravou-se ainda mais quando Carina Hong, estudante de doutorado em matemática na Universidade de Stanford, afirmou que, sob o acordo da Epoch AI, a OpenAI tinha acesso privilegiado ao FrontierMath.
“Seis matemáticos que fizeram contribuições significativas para o benchmark FrontierMath confirmaram-me que não sabiam que a OpenAI teria acesso exclusivo ao benchmark que não estaria disponível para outros, e a maioria disse que se soubessem com antecedência, provavelmente o fariam. não tenho Escolha participar.
Diante das dúvidas, Tamay Besiroglu também pediu desculpas por meio de um blog e prometeu adotar padrões de transparência mais elevados no futuro.
O blog enfatiza que o apoio financeiro da OpenAI se limita ao desenvolvimento do FrontierMath e não interferiu no conteúdo do teste. Afirma também que todos os dados e perguntas vêm de contribuidores independentes e foram revisados por especialistas independentes.
Com relação ao uso de treinamento: Reconhecemos que a OpenAI tem acesso à maioria dos problemas e soluções do FrontierMath, excluindo o conjunto retido ao qual a OpenAI não tem acesso, o que nos permite verificar de forma independente a funcionalidade do modelo. Além disso, temos um acordo verbal de que esses materiais não serão usados para treinamento de modelos.
As comunicações públicas dos funcionários da OpenAI descrevem o FrontierMath como um conjunto de avaliação “estritamente reservado”. Embora esta posição pública seja consistente com o nosso entendimento, gostaria ainda de enfatizar que os laboratórios beneficiam enormemente por terem conjuntos de dados verdadeiramente não contaminados.
A OpenAI também apoia totalmente a nossa decisão de manter um conjunto de dados separado e não publicado como uma salvaguarda adicional para evitar overfitting e garantir uma medição precisa do progresso. Desde o seu design original, o FrontierMath foi posicionado e apresentado como uma ferramenta de avaliação e acreditamos que os arranjos refletem esse propósito.
[EDITAR: Esclarecido o acesso aos dados da OpenAI – eles não têm acesso a um conjunto de retenção separado como uma proteção adicional para verificação independente. ]
Elliot Glazer, matemático-chefe da Epoch AI, reconheceu não ter divulgado proativamente informações sobre o financiamento da indústria durante o projeto e pediu desculpas aos matemáticos que poderiam não ter participado se tivessem sido informados.
Em relação às pontuações o3, ele expressou confiança na precisão das pontuações relatadas pela OpenAI, mas enfatizou que a Epoch AI precisa ser verificada por meio de um conjunto de testes reservado independente em desenvolvimento e prometeu que as pontuações de avaliação do conjunto reservado serão tornadas públicas.
Quando questionado sobre o status do conjunto reservado, Glazer esclareceu que este conjunto de testes ainda está em desenvolvimento e não foi concluído.
No entanto, estas explicações não conseguiram acalmar a controvérsia do incidente, e mais críticas foram derramadas sobre a Epoch AI e a OpenAI, que estavam no turbilhão da opinião pública.
O cientista da computação Subbarao Kambhampati disse que já havia sido cético em relação às afirmações da OpenAI de que não tinha acesso prévio aos dados do Olympiad Math e do FrontierMath. Na sua opinião, a prática da OpenAI de proibir as partes relevantes de divulgar o conteúdo do acordo é extremamente suspeita.
O conhecido especialista em IA Gary Marcus criticou fortemente este incidente.
Ele descreveu a demonstração o3 da OpenAI como uma "demonstração desesperada, manipuladora, enganosa e cientificamente de má qualidade" e acreditou que era mais um exagero do que um verdadeiro avanço.
Uma analogia vívida é que se alguém obtém as perguntas e respostas do teste com antecedência, enquanto outros só podem contar com sua força para fazer o exame, tal comparação é obviamente injusta. Não só a OpenAI obteve acesso a problemas e soluções, mas outros concorrentes como xai, DeepMind e equipas académicas não tiveram acesso aos mesmos recursos.
Mais importante ainda, Gary Marcus acredita que a OpenAI não diz nada sobre esse fato importante.
E durante o processo de exibição, a OpenAI ocultou seletivamente informações importantes. Não publicou casos de sucesso ou falha em problemas específicos, nem forneceu registros correspondentes do processo de raciocínio, nem explicou quais problemas apareceram no conjunto de treinamento. Ao mesmo tempo, eles não permitiram que a Epoch validasse no conjunto de testes de validação.
O retorno a essa turbulência cada vez maior se deve em grande parte ao fato de os internautas estarem cansados do hype interminável do OpenAI. O comportamento suspeito de “roubar as classificações” mais uma vez tocou os nervos sensíveis de muitos internautas.
À medida que a opinião pública continua a fermentar, a OpenAI anunciou um avanço em seu projeto “Operador”. Espera-se que o CEO Altman dê um briefing a portas fechadas ao governo dos EUA em 30 de janeiro.
É relatado que o "Operador" é um agente de IA autônomo com capacidades de nível PhD desenvolvido pela OpenAI. Ele pode executar tarefas de forma independente no navegador, como escrever código, reservar viagens, gerenciar horários, etc.
É claro que, nesta conjuntura, talvez a melhor estratégia de relações públicas em crise seja lançar o3 imediatamente. E este também é o melhor presente do Festival da Primavera.
Até o momento desta publicação, a OpenAI não fez nenhuma declaração adicional.
# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.