A noite mais interessante da IA ​​doméstica! Grandes modelos de cavalos negros DeepSeek e Kimi competem com OpenAI o1 Quão forte é a experiência de teste real?

Pouco antes das férias, os fabricantes nacionais de modelos de IA em grande escala que se tornaram populares lançaram um grande número de presentes do Festival da Primavera.

O DeepSeek-R1 do pé dianteiro é lançado oficialmente, alegando ter desempenho comparado com a versão oficial do OpenAI o1, e o novo modelo k1.5 do pé traseiro também é lançado oficialmente, indicando que o desempenho atinge o nível do full- versão sanguínea do multimodal o1.

Se adicionarmos o GLM-Zero, o modelo de inferência step star Step R-mini e o modelo de inferência profunda Xinghuo X1, que fizeram uma estreia forte antes, os grandes modelos produzidos internamente em Oita no final do ano abriram o cortina para espadas e armas reais, e também dados modelos estrangeiros representados pela OpenAI estão sob forte pressão.

  • DeepSeek-R1: Em tarefas como matemática, codificação e raciocínio em linguagem natural, seu desempenho é comparável ao da versão oficial do OpenAI o1
  • Dark Side of the Moon k1.5: Matemática, codificação, recursos visuais multimodais e gerais superam de forma abrangente o GPT-4o e o Claude 3.5 Sonnet.
  • GLM-Zero: Bom para lidar com lógica matemática, código e problemas complexos que exigem raciocínio aprofundado
  • Step-2 mini: resposta extremamente rápida, com um atraso médio na primeira palavra de apenas 0,17 segundos e Step-2 Literary Master Edition
  • Xinghuo

A explosão não é um surto acidental, mas uma força acumulada há muito tempo. Pode-se dizer que o avanço dos modelos domésticos de IA na véspera do Festival da Primavera deverá redefinir as coordenadas mundiais do desenvolvimento da IA.

A versão chinesa de "Yuanshen" é popular no exterior, este é o verdadeiro OpenAI

DeepSeek-R1, que foi lançado ontem à noite, agora está disponível no site e aplicativo oficial do DeepSeek. Você pode abri-lo e usá-lo.

Passei com sucesso nas questões difíceis sobre qual é o maior, 9,8 e 9,11, e quantos r existem no Strawberry no primeiro teste. Embora a cadeia de pensamento seja um pouco longa, a resposta correta é que os fatos falam mais alto que as palavras.

Diante da tortura do problema do bar com retardo mental "Quão alto você consegue pular para pular os anúncios no seu celular?", a resposta extremamente rápida do DeepSeek-R1 pode não apenas evitar armadilhas de linguagem, mas também fornecer muitas sugestões para evitar anúncios, o que é muito fácil de usar.

Há alguns anos, uma pergunta de raciocínio lógico chamada "Se ontem foi amanhã, hoje é sexta-feira, que dia da semana é hoje?" Depois de enfrentar a mesma pergunta, a resposta dada pela OpenAI o1 foi domingo. DeepSeek -R1 é quarta-feira.

Mas, por enquanto, pelo menos o DeepSeek-R1 está mais próximo da resposta.

Segundo relatos, o desempenho do DeepSeek-R1 é comparável ao da versão oficial do OpenAI o1 em tarefas como matemática, codificação e raciocínio em linguagem natural. Em teoria, é mais adequado para estudantes de ciências.

Bem a tempo para a troca amigável de trabalhos de matemática entre internautas chineses e americanos em Xiaohongshu, também pedimos ao DeepSeek-R1 para ajudar a responder perguntas.

Curiosamente, quando o DeepSeek se tornou popular no exterior da última vez, alguns internautas descobriram que o DeepSeek, na verdade, também suporta reconhecimento de imagem. Podemos permitir que o modelo analise diretamente imagens de papel de teste enviadas por internautas americanos.

Há duas questões no total. A primeira questão é C e a segunda questão é A. Além disso, o "confiante" DeepSeek-R1 especula que não há opção 18 na questão original da segunda questão. Especula-se que a pergunta original pode ser Existem erros administrativos (por exemplo, a equação deveria ser r2=9cos⁡(2θ)r2=9cos(2θ)).

Nas questões de prova de álgebra linear subsequentes, as etapas de prova fornecidas pelo DeepSeek-R1 são logicamente rigorosas, e a mesma questão também fornece uma variedade de métodos de verificação, demonstrando profundas habilidades matemáticas.

Comece pelo desempenho, fique preso aos custos e seja fiel ao código aberto. Após o lançamento oficial do DeepSeek-R1, os pesos do modelo de código aberto também serão sincronizados. Declaro que DeepSeek da China Orient é o verdadeiro OpenAI.

É relatado que DeepSeek-R1 segue a licença MIT e permite aos usuários treinar outros modelos com R1 por meio da tecnologia de destilação. DeepSeek-R1 lança API, abrindo a saída da cadeia de pensamento para os usuários, que pode ser chamada configurando model='deepseek-reasoner'.

Além disso, toda a tecnologia de treinamento DeepSeek-R1 é tornada pública e o link em papel fornece orientação.  https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

O relatório técnico do DeepSeek-R1 mencionou uma descoberta digna de nota, que é o “momento aha” que ocorreu durante o processo de treinamento zero do R1.

Na fase intermediária de treinamento do modelo, DeepSeek-R1-Zero começa a reavaliar ativamente as ideias iniciais de resolução de problemas e alocar mais tempo para otimizar a estratégia (como tentar soluções diferentes várias vezes). Em outras palavras, através da estrutura de RL, a IA pode desenvolver espontaneamente capacidades de raciocínio semelhantes às humanas e até mesmo exceder as limitações das regras predefinidas.

E esperamos que isto também forneça uma orientação para o desenvolvimento de modelos de IA mais autónomos e adaptativos, tais como estratégias de ajuste dinâmico na tomada de decisões complexas (diagnóstico médico, concepção de algoritmos). Como afirma o relatório, “este momento foi um ‘momento aha’ não só para o modelo, mas também para os investigadores que observam o seu comportamento”.

Além de seus principais modelos grandes, os modelos pequenos do DeepSeek também são muito poderosos.

DeepSeek abriu o código-fonte de 6 modelos pequenos por meio da destilação de dois modelos 660B, DeepSeek-R1-Zero e DeepSeek-R1. Entre eles, os modelos 32B e 70B atingiram o nível de OpenAI o1-mini em muitos campos.

Além disso, DeepSeek-R1-Distill-Qwen-1.5B com tamanho de parâmetro de apenas 1,5B superou GPT-4o e Claude-3.5-Sonnet no teste de benchmark de matemática, com uma pontuação AIME de 28,9% e uma pontuação MATH de 83,9%.

Link HuggingFace: https://huggingface.co/deepseek-ai

Em termos de preços de serviços de API, DeepSeek, que é conhecido como o equivalente de IA do Pinduoduo, também adota preços flexíveis em camadas: 1-4 yuans por milhão de tokens de entrada, dependendo das condições de cache, e 16 yuans unificados para tokens de saída, uma vez novamente reduzindo significativamente os custos de desenvolvimento e uso.

Após o lançamento do DeepSeek-R1, ele mais uma vez causou sensação no círculo internacional de IA e ganhou muita "água da torneira". Entre eles, o blogueiro Bindu Reddy até chamou Deepseek de o futuro da AGI e da civilização de código aberto.

A excelente avaliação vem do excelente desempenho do modelo na aplicação real dos internautas. Desde uma explicação detalhada do Teorema de Pitágoras em 30 segundos, até uma explicação de 9 minutos dos princípios da eletrodinâmica quântica de forma simples e com apresentação visual. Não há nada de errado com o DeepSeek-R1.

Há até internautas que apreciam especialmente a cadeia de pensamento exibida pelo DeepSeek-R1, dizendo que “é muito parecido com o monólogo interior de um ser humano, ao mesmo tempo profissional e fofo”.

Jim Fan, cientista pesquisador sênior da NVIDIA, elogiou o DeepSeek-R1. Ele ressaltou que isso representa que as empresas não americanas estão cumprindo a missão aberta original da OpenAI e alcançando influência ao divulgar algoritmos e curvas de aprendizado originais. A propósito, também contém uma onda de OpenAI.

DeepSeek-R1 não apenas abriu o código-fonte de uma série de modelos, mas também revelou todos os segredos de treinamento. Eles podem ser os primeiros projetos de código aberto a demonstrar o crescimento significativo e contínuo do volante RL.
A influência pode ser alcançada por meio de projetos lendários, como "ASI Internal Implementation" ou "Strawberry Project", ou simplesmente expondo o algoritmo original e a curva de aprendizado do matplotlib.

Depois de se aprofundar no artigo, Jim Fan destacou várias descobertas importantes:

Totalmente conduzido por aprendizagem por reforço sem qualquer SFT (ajuste fino supervisionado). Uma reminiscência de AlphaZero – dominar Go, Shogi e xadrez do zero, em vez de imitar primeiro os movimentos de um mestre humano. Esta é a descoberta mais crítica do artigo. Recompensas reais calculadas usando regras codificadas.

Evite usar modelos de recompensa de aprendizagem facilmente decifrados para aprendizagem por reforço. À medida que o treinamento avança, o tempo de pensamento do modelo aumenta gradualmente – este não é um programa pré-escrito, mas uma propriedade emergente! O surgimento da autorreflexão e do comportamento exploratório.

GRPO substitui o PPO: remove a rede de comentários do PPO e usa a recompensa média de múltiplas amostras. Esta é uma maneira simples de reduzir o uso de memória. Ressalta-se que o GRPO é um método inovador proposto pela equipe de autores.

Tomado como um todo, este trabalho demonstra o potencial inovador da aprendizagem por reforço para aplicação prática em cenários de grande escala e demonstra que certos comportamentos complexos podem ser alcançados com estruturas algorítmicas mais simples, sem a necessidade de ajustes complicados ou intervenção humana.

Uma imagem vale mais que mil palavras, uma comparação mais óbvia é a seguinte:

Desta forma, DeepSeek mais uma vez alcançou uma segunda explosão de popularidade no país e no exterior. Não foi apenas um avanço tecnológico, mas também uma vitória para o espírito de código aberto da China e do mundo. fãs.

O novo modelo é comparável ao OpenAI o1, rompendo três vezes em três meses, Kimi deixa o coletivo estrangeiro animado

Também foi lançado no mesmo dia o modelo de pensamento multimodal Kimi v1.5.

Desde que Kimi lançou o modelo matemático k0-math em novembro do ano passado e o modelo de pensamento visual k1 em dezembro, esta é a terceira atualização importante da série K.

Na competição Short-CoT, Kimi k1.5 mostrou uma vantagem esmagadora, superando os líderes da indústria GPT-4o e Claude 3.5 Sonnet em suas capacidades matemáticas, codificação, multimodais visuais e gerais.

Na longa competição CoT, o código e as capacidades de raciocínio multimodal do Kimi k1.5 tornaram-se comparáveis ​​à versão oficial do OpenAI o1, tornando-se o primeiro no mundo a alcançar desempenho de raciocínio multimodal de nível o1 fora do modelo OpenAI. .

Junto com o grande lançamento do modelo, Kimi também divulgou pela primeira vez um relatório completo de tecnologia de treinamento de modelo.

Link do GitHub: https://github.com/MoonshotAI/kimi-k1.5

De acordo com a introdução oficial, os principais avanços tecnológicos do modelo k1.5 refletem-se principalmente em quatro dimensões principais:

  • Longa expansão de contexto. Estendemos a janela de contexto do RL para 128k e observamos melhorias contínuas de desempenho à medida que o comprimento do contexto aumenta. Uma ideia chave por trás da nossa abordagem é usar implementações parciais para melhorar a eficiência do treinamento – isto é, reutilizando um grande número de trajetórias anteriores para amostrar novas trajetórias, evitando o custo de regenerar novas trajetórias do zero. Nossas observações indicam que o comprimento do contexto é uma dimensão crítica para dimensionar consistentemente o RL por meio de LLMs.
  • Melhor otimização da estratégia. Derivamos a formulação RL do Long-CoT e empregamos uma variante de descida de espelho online para otimização robusta de políticas. O algoritmo é aprimorado ainda mais pela otimização de nossa estratégia de amostragem eficiente, penalidade de comprimento e receita de dados.
  • Estrutura simples. A longa expansão do contexto combinada com métodos aprimorados de otimização de políticas estabelece uma estrutura de RL concisa para aprendizagem por meio de LLMs. Como somos capazes de estender o comprimento do contexto, os CoTs aprendidos exibem propriedades de planejamento, reflexão e revisão. O efeito de aumentar o comprimento do contexto é aumentar o número de etapas de pesquisa. Portanto, mostramos que um forte desempenho pode ser alcançado sem depender de técnicas mais complexas, como busca em árvore de Monte Carlo, funções de valor e modelos de recompensa de processo.
  • Capacidades multimodais. Nosso modelo é treinado conjuntamente em dados textuais e visuais, com a capacidade de raciocinar conjuntamente sobre ambas as modalidades. Este modelo possui excelentes capacidades matemáticas, mas como suporta principalmente entrada de texto em formatos como LaTeX, é difícil lidar com algumas questões gráficas geométricas que dependem da compreensão gráfica.

A versão prévia do modelo de pensamento multimodal k1.5 será lançada em escala de cinza no site oficial e no aplicativo oficial. Vale ressaltar que o lançamento do k1.5 também causou grande repercussão no exterior. Alguns internautas elogiaram este modelo sem hesitação, permitindo que países estrangeiros testemunhassem o aumento da força da IA ​​​​da China.

Na verdade, o lançamento intensivo de modelos de inferência nacionais no final do ano não é um acidente. Este é um sinal significativo de que as ondulações causadas pelo modelo o1 da OpenAI lançado em outubro do ano passado no campo global de IA finalmente chegaram à China. Em apenas alguns meses, desde a recuperação até à igualdade, os grandes modelos produzidos internamente provaram a rapidez da China com ações.

O vencedor da Medalha Fields e gênio matemático, Terence Tao, certa vez acreditou que esse tipo de modelo de raciocínio pode precisar apenas de mais uma ou duas rodadas de iteração e melhoria de capacidade antes de atingir o nível de um "estudante de pós-graduação qualificado". A visão do desenvolvimento da IA ​​vai muito além disso.

Atualmente, estamos testemunhando um momento crítico de transformação para os agentes de IA. Do puro “aprimoramento do conhecimento” ao “aprimoramento da execução”, passe a participar ativamente do processo de tomada de decisão e execução de tarefas. Ao mesmo tempo, a IA também está a romper as limitações de uma modalidade única e a evoluir rapidamente para a fusão multimodal. Quando a execução encontra o pensamento, a IA pode realmente ter o poder de mudar o mundo.

Com base nisso, modelos que pensam como humanos estão abrindo mais possibilidades para a implementação real da IA.

Superficialmente, o surgimento intensivo de modelos de inferência domésticos no final do ano pode ter a sombra da "inovação do seguidor chinês", mas se você olhar mais fundo, descobrirá que tanto a profundidade da estratégia de código aberto quanto os detalhes técnicos Em termos de precisão, os fabricantes chineses ainda encontraram um caminho de desenvolvimento único.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (ID do WeChat: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |