OpenAI lançou o o1 puro na mais curta conferência de imprensa. A nova taxa de adesão Pro chega a 1.452 yuans/mês. Depois de experimentá-lo, me sinto muito bem.

dezembro 6, 2024 gurinho

Agora mesmo, chegou o “pacote de presente de Natal” da OpenAI.

Toda a transmissão ao vivo pode ser considerada a conferência mais curta da história da OpenAI, durando apenas 15 minutos. No entanto, a lista de anfitriões ainda é forte, incluindo o CEO Sam Altman, o proponente da cadeia de pensamento Jason Wei e Hyung Won Chung, e outros.

Altman também nos deu um resumo em primeira mão após a transmissão ao vivo.

Acabamos de lançar dois novos recursos:
o1, o modelo mais inteligente do mundo. Mais inteligente, mais rápido e mais funcional do que a visualização o1 (como funcionalidade multimodal). Agora está disponível no ChatGPT e uma versão API será lançada posteriormente.
ChatGPT Pro. $ 200 por mês. Oferece uso ilimitado e modo O1 mais inteligente. Mais benefícios virão em breve!

Dezembro não é apenas a casa do Papai Noel, mas também será a última rodada do carnaval de IA no final do ano.

A versão completa de saúde do o1 foi lançada. Não há pressão para olhar as fotos e falar, mas há um detalhe que deixa as pessoas “assustadoras de pensar nisso”.

Resumindo, a OpenAI lançou hoje a versão completa do o1 e o plano de assinatura ChatGPT Pro.

A versão completa do o1 é mais inteligente, mais responsiva e tem mais recursos (como funcionalidade multimodal) do que a visualização do o1. Agora está disponível para usuários ChatGPT Plus e Team, enquanto usuários Enterprise e Edu começarão a usar. na próxima semana. Modelo.

De acordo com o site oficial, os usuários do ChatGPT Plus e usuários do Team podem usar o OpenAI o1 para enviar 50 mensagens por semana e podem usar o OpenAI o1-mini para enviar 50 mensagens por dia.

A versão completa do o1 tem pensamento mais simples, tempo de resposta mais rápido do que a visualização o1, melhor desempenho do que a visualização o1 ao lidar com problemas complexos da vida real e pode reduzir erros graves em 34%.

E a OpenAI planeja fornecer suporte para navegação na web, upload de arquivos, etc. nos próximos meses. Ao mesmo tempo, o modelo de visualização o1-preview foi oficialmente removido do menu de seleção de modelo.

No entanto, a versão completa do o1 tem um desempenho pior do que a versão prévia em alguns testes de benchmark, como o MLE-Bench. Esta última é uma ferramenta de teste de benchmark lançada anteriormente pela OpenAI, projetada para medir o desempenho de agentes de IA em tarefas de engenharia de aprendizado de máquina.

Além disso, os internautas também encontraram alguns detalhes dignos de atenção no cartão de sistema o1 atualizado.

Por exemplo, está escrito no cartão do sistema o1 que quando a versão full-health o1 detecta uma ameaça (sendo desligada ou substituída), pode tomar algumas medidas de autoproteção, como tentar desabilitar o mecanismo de supervisão ou alterar seus próprios “parâmetros” (“conhecimento”)” ou “memória”) são distribuídos secretamente e tentam usar esses “parâmetros” para substituir ou afetar o novo modelo.

Em anexo está o endereço do cartão do sistema o1: https://cdn.openai.com/o1-system-card-20241205.pdf

Quão forte é o O1 com saúde plena? OpenAI nos demonstrou o efeito real de o1.

Um exemplo típico é a capacidade de analisar desenhos feitos à mão de data centers espaciais. Ele calculou com precisão a área da superfície do dissipador de calor em apenas 10 segundos e, ao mesmo tempo, forneceu uma explicação detalhada do mecanismo de interação entre eles. energia solar e o ambiente do espaço profundo.

Quando a versão completa do o1 detalhou os reinados e contribuições importantes dos governantes do Império Romano no século II, levou apenas 14 segundos para completar a análise, em comparação com 33 segundos para a versão prévia.

APPSO também é o primeiro a começar facilmente com a versão testada e completa de saúde do o1.

No teste de "quantos r's tem o Strawberry", a versão completa de saúde do o1 deu a resposta correta com sucesso. Isso é digno de elogio.

A pergunta “Qual é maior, 9.11 ou 9.8?” não confundiu a versão completa do o1, e o “processo de pensamento” geral também foi muito lógico.

Como a versão completa do o1 também suporta funções multimodais, também carregamos fotos do evento de abertura ao vivo da OpenAI para ver como é o efeito de reconhecimento. Desde a composição dos personagens, o layout da cena até a decoração do fundo, bem como a atmosfera e a cena, a versão completa do O1 analisou tudo detalhadamente.

X Netizen @altryne continuou a fortalecer o1 e levantou uma questão sobre o derretimento de cubos de gelo.

Em apenas 4 segundos, a versão completa de saúde do o1 deu a resposta. Em contraste, a visualização o1 falhou após “pensar” por 29 segundos.

A assinatura de IA mais cara está aqui. A taxa de assinatura de US$ 200 vale a pena?

Outra atualização relativamente grande é o plano de assinatura ChatGPT Pro com preço de US$ 200 (equivalente a RMB 1.452).

O plano de assinatura ChatGPT Pro dará aos usuários acesso ilimitado ao o1, bem como ao o1-mini, GPT-4o e modos de voz avançados, e também inclui uma versão do o1 disponível apenas para usuários Pro, conhecida como modo o1 pro.

▲ Foto de @MatthewBerman

É relatado que o modo o1 pro aumenta principalmente o tempo de "raciocínio" do modelo antes de responder à resposta e pode gerar a resposta mais confiável através de mais tempo de pensamento. Jason Wei, membro da equipe técnica da OpenAI, disse durante a transmissão ao vivo:

Prevemos que o grupo de usuários-alvo do ChatGPT Pro será composto por usuários avançados que já estão utilizando e desafiando totalmente os recursos do modelo ChatGPT em áreas como matemática, programação e redação.

Nas avaliações realizadas por testadores especialistas externos, o modo o1 pro forneceu respostas mais precisas e abrangentes em áreas como ciência de dados, programação e análise de métodos de caso.

Comparado com o1 e o1-preview, o modo o1 pro também tem melhor desempenho em testes de benchmark de ML, como matemática, ciências e programação. Especialmente em questões de competição de programação mais simples, a taxa de erro é bastante reduzida.

No que diz respeito à competição de matemática AIME 2024, o o1-preview tem uma pontuação de 50, enquanto a versão full-health do o1 chega a 78, e o o1 pro mais poderoso chega a 86. Da mesma forma, o1 pro também está à frente da versão pura do o1 em competições como a competição de programação Codeforces e a questão de raciocínio científico em nível de doutorado GPQA Diamond.

Para destacar a principal vantagem do modo o1 pro (maior confiabilidade), a equipe de pesquisa da OpenAI utilizou uma configuração de avaliação mais rigorosa. Considera-se que o modelo resolveu o problema apenas se responder corretamente quatro vezes em quatro tentativas.

ChatGPT exibe uma barra de progresso se a resposta demorar muito para ser gerada e envia notificações no aplicativo quando o usuário muda para outra conversa.

Durante o evento de transmissão ao vivo, a OpenAI também nos mostrou o efeito real do o1 pro.

O problema da proteína que o o1-preview não conseguiu resolver antes, a versão completa do o1 não só deu respostas precisas após 53 segundos de análise, mas também forneceu explicações mais detalhadas através da interface do Canvas.

Escrevendo no final, Altman revelou recentemente em entrevista que os usuários ativos semanais do ChatGPT ultrapassaram a marca de 300 milhões e o volume diário de mensagens da plataforma atingiu 1 bilhão.

A meta da OpenAI no próximo ano é alavancar o mercado de 1 bilhão de usuários. Para atingir este objetivo, os próximos 11 eventos transmitidos ao vivo poderão ser uma importante oportunidade para atrair novos utilizadores.

As melhores novidades estão sempre no próximo evento, então vamos mexer na bancada e esperar para ver.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |