Primeira experiência de lançamento Baidu lançou dois novos modelos para avaliar o DeepSeek. Pedi a eles que escolhessem melancias e vendessem churrasco.

março 16, 2025 gurinho

Se no ano passado era impossível progredir sem um modelo GPT-4 autodesenvolvido, então a direção de desenvolvimento da IA tornou-se mais concreta este ano – também é impossível sem um modelo de inferência profundo.

Isso também inspirou uma nova rodada de competição entre os principais fabricantes na narrativa de IA. Além de acessar DeepSeek, Tencent Yuanbao, Alibaba, etc., lançaram intensamente seus próprios modelos de pensamento profundo para competir por superaplicativos na era da IA.

Baidu não é exceção desde o início do ano, seus produtos como Baidu Wenku e Wen Xiaoyan App integraram sucessivamente o modelo DeepSeek-R1.

É claro que os modelos autodesenvolvidos e o acesso ao DeepSeek não são escolhas opostas e não há necessidade de escolher entre os dois.

No segundo aniversário da estreia de Wen Xin Yiyan, o Baidu lançou hoje oficialmente o Wen Xin Large Model 4.5 e o Deep Thinking Model X1 também foi convidado a experimentá-lo com antecedência.

Um breve resumo dos “designs de personagens” desses dois modelos:

Modelo Textual Grande 4.5: Modelo grande básico multimodal nativo, bom para gerar ou interpretar imagens e responder perguntas
Deep Thinking X1: modelo Deep Thinking, suporta invocação de múltiplas ferramentas

Dois modelos foram lançados no site oficial de Wen Xin Yi Yan, com uso gratuito

https://yiyan.baidu.com

Colher melancias, compreender memes e identificar pinturas antigas, quão forte é a capacidade multimodal do Wenxin 4.5?

Vamos falar primeiro sobre o Wenxin 4.5. Como um grande modelo básico multimodal nativo, ele me trouxe muitas surpresas em termos de reconhecimento multimodal e capacidades de compreensão.

Quando se trata do processo clássico de seleção de melancia, o Wenxin 4.5 fornece vários critérios de julgamento, como cor, listras, sons, campos de melão, etc.

As palavras são ásperas, mas você só pode saber qual melancia é mais doce cortando-a e provando-a.

Em termos de identificação de “memes”, o Wenxin 4.5 também é muito bom nisso. Colocando um emoticon para testar as águas, ele reconheceu com sucesso a identidade do Homem Porco. Quando se tratou de identificar outro emoticon, Wenxin 4.5 não apenas entendeu o significado literal, mas também capturou com precisão as metáforas e conotações por trás dele.

Aqui está um pequeno truque. Além da função básica de compartilhamento, suas respostas podem ser salvas no Baidu Netdisk com um clique, ou os documentos podem ser gerados automaticamente. Ao encontrar as respostas divinas da IA, você também pode salvá-los a qualquer momento, e a operação de conexão é bastante tranquila.

Teste sua compreensão novamente e comece a fazer quebra-cabeças.

"Existe uma palavra que todo mundo pronuncia incorretamente? O que é?" Ele respondeu a essa pergunta facilmente, sem se envolver nela. O processo de raciocínio lógico foi claro e ele também fez algumas perguntas complementares que se enquadravam no assunto.

Qual é maior, 9,8 ou 9,11? Um pedaço de bolo. No entanto, testei "Quantos r's existem no Strawberry" várias vezes seguidas e sua confiança transbordou da tela, mas também caiu um após o outro.

Aí vem uma questão de física que testa tanto a capacidade de computação quanto a capacidade de reconhecimento de imagens. Ele primeiro analisa a estrutura com calma, depois desmonta as opções uma por uma e, por fim, fixa firmemente a resposta correta D. O processo é bem fundamentado e algo como um “representante da aula de física”.

Na minha vida diária, muitas vezes encontro algumas pinturas antigas ou capturas de tela de filmes de origens desconhecidas. A maneira mais comum de fazer isso é postar em plataformas sociais e pedir ajuda a internautas entusiasmados na área de comentários.

Após o teste, mesmo que a função de pesquisa online esteja desativada, ela ainda poderá responder às perguntas com precisão.

Além das imagens, o reconhecimento de áudio também é inequívoco. Por exemplo, gravei casualmente um trecho de “Sunny Day” com meu celular e ele reconheceu a música instantaneamente com base na letra.

Além disso, seja no upload de relatórios da indústria de tecnologia ou no vídeo de demonstração de 44 segundos das últimas conquistas do robô lançado por Li Feifei na plataforma X há algum tempo, a capacidade de resumo do Wenxin 4.5 é difícil de falhar.

Em novembro do ano passado, o Baidu lançou a tecnologia iRAG, uma tecnologia gráfica Vincent aprimorada para recuperação, que se concentra em uma tecnologia livre de alucinações e ultra-realista.

Seu princípio básico é combinar os recursos de imagem de bilhões de níveis do Baidu Search com poderosos recursos de modelo básico para fornecer referência precisa para geração de imagem, recuperando dados de imagem reais e confiáveis. Agora o Wenxin 4.5 também suporta a geração de imagens.

Por exemplo, o valor de mercado da Tesla oscilou violentamente recentemente. Então, encontrei uma saída para Musk, o homem mais rico do mundo, e pedi ao Wenxin 4.5 que gerasse uma foto de “Musk vendendo churrasco em uma barraca à noite”.

A churrasqueira ainda precisa de foto, então não se preocupe, ela também suporta redesenho parcial e o ajuste de detalhes é muito fácil de usar.

No entanto, ainda precisa ser melhorado na geração de texto. Por exemplo, eu queria “redesenhar” um “sinal Maroviano” para Musk, mas ou o texto estava borrado e difícil de ler, ou a posição estava desalinhada.

Pensamento lento ≠ lento, X1 abre a maneira correta de usar o modelo de raciocínio profundo?

Vamos falar sobre o modelo de inferência profunda X1 lançado hoje pelo Baidu. Este é obviamente um modelo que faz benchmark do DeepSeek R1.

De acordo com a introdução oficial, o modelo de texto X1 evoluiu a partir da tecnologia de pensamento lento lançada pelo Baidu em outubro de 2023. Possui capacidades abrangentes de compreensão, planejamento, reflexão e evolução, e também suporta multimodalidade.

Se você estiver com pressa, deixe o problema para o Wenxin 4.5, e tarefas complexas e longas serão tratadas pelo X1, que possui capacidades de raciocínio aprofundadas mais fortes.

Tomemos como exemplo a recomendação de iguarias de Guangzhou. Wenxin 4.5 apenas rabiscou alguns nomes gerais de iguarias, como "rolos de arroz" e outras respostas superficiais, enquanto o X1 se transformou diretamente em um "guia turístico atencioso", fornecendo nomes e endereços de lojas completas e melhor compreensão dos pensamentos dos turistas.

Diante do problema clássico do carrinho, o tempo de pensamento do X1 não é muito lento, a análise é sucinta e os resultados são discutidos na perspectiva de diferentes sistemas éticos. A profundidade e a amplitude estão online.

Chegando a uma questão de raciocínio lógico mais complexa, o desempenho do X1 também é notável.

A invocação de múltiplas ferramentas é um dos recursos do Text Center X1.

Autoridades disseram que o X1 desbloqueou pesquisa avançada, perguntas e respostas de documentos, compreensão de imagens, desenho de IA, intérprete de código e outras ferramentas.

Tive uma ideia repentina e carreguei uma imagem em forma de coração. Na verdade, havia uma fórmula matemática embutida na imagem. Parecia simples, mas bastante desafiador. Afinal, extrair informações matemáticas de imagens requer alta compreensão visual e capacidade de processamento lógico.

Quanto ao resultado, extraiu com sucesso o conteúdo da fórmula e explicou o significado da fórmula.

A capacidade complexa de geração de texto também é um destaque do X1. Primeiro pedi ao X1 para gerar um script de 500 palavras com o tema "Lin Daiyu arranca o salgueiro-chorão". O script "conquista força com suavidade", mantém os traços de caráter de Lin Daiyu e também incorpora conflitos e reviravoltas dramáticas.

Imediatamente depois, pedi ainda ao X1 que analisasse o roteiro de uma perspectiva psicológica e, com base nisso, aprimorasse um novo roteiro de 1.000 palavras.

A tarefa desta vez é obviamente mais complexa. A teoria usada por X1 é apropriada. Embora não seja particularmente profunda, é muito raro que um modelo de IA seja capaz de completar tal interpretação interdisciplinar em um curto espaço de tempo. Claro, tem suas deficiências. A contagem de palavras não atende aos requisitos.

É apenas uma resposta. Comparado ao Deepseek, que está cheio de jargões “inflacionários” das ciências sociais, o X1 é obviamente mais contido na produção linguística e sua expressão é mais suave e realista, com um pouco mais de calor que toca o coração das pessoas.

DeepSeek é bom em pensamento abrangente, buscando profundidade técnica e amplitude de pensamento, mas sua linguagem é um pouco alienada.

Recentemente, o blogueiro de tecnologia Alexander Doria apresentou um ponto de vista: o próximo ciclo de desenvolvimento no campo da IA será "o modelo em si é o produto. Quem puder lidar com o treinamento do modelo controlará o futuro".

Ele também citou a previsão do investidor da Databricks, Naveen Rao:

"Nos próximos 2 a 3 anos, os provedores de IA de código fechado deixarão de fornecer serviços de API. Somente os modelos de código aberto continuarão a fornecer APIs, e as empresas de código fechado passarão a construir capacidades mais exclusivas."

Olhando para o mercado interno, o desempenho do Baidu é bastante representativo.

Desde o lançamento do Wenxin Yiyan, há dois anos, o Baidu continuou a aumentar seu investimento em modelos de desenvolvimento próprio, com um ritmo de iteração constante. A estreia do Wenxin 4.5 e X1 também é a melhor nota de rodapé para a tendência do "modelo como aplicação".

O primeiro depende de triliões de parâmetros para atacar diretamente as capacidades multimodais, enquanto o último utiliza o pensamento lento e a invocação de múltiplas ferramentas para mostrar os seus músculos de raciocínio. Esse layout diferenciado de capacidade atende com precisão às diversas necessidades dos usuários e transforma o próprio modelo de um puro núcleo técnico em um “produto” que pode ser usado diretamente.

Olhando para trás, na história, a acumulação tecnológica do Baidu na era da pesquisa e as suas tentativas de transformação na era da Internet móvel permitiram-lhe estar na vanguarda, mas também perdeu algumas oportunidades devido ao controlo do ritmo ou à concorrência de mercado.

Refletindo a situação atual, se a IA for comparada ao “fogo”, o Baidu de dois anos atrás é sem dúvida o “Prometheus” que melhor sabe usar o fogo no mercado chinês. No entanto, como no passado, o Baidu, como a “Academia Militar Whampoa” da IA da China, levantou-se cedo e correu para a reunião noturna.

Isto é inseparável da tendência do ecossistema da indústria de IA.

O CEO da OpenAI, Sam Altman, previu no mês passado que o custo do uso de IA de nível fixo cairá aproximadamente 90% a cada 12 meses.

O rápido declínio dos custos enfraqueceu as elevadas barreiras à sobrevivência do modelo de fonte fechada, tornando o fosso do monopólio tecnológico gradualmente mais raso. Ao mesmo tempo, o modelo de código aberto e gratuito tornou-se uma nova forma de atrair usuários e expandir a influência tecnológica devido ao seu baixo limiar e alta acessibilidade.

A rápida penetração do DeepSeek e do Manus em um curto período de tempo também mostra que atualmente não há barreiras significativas para que os usuários possam recorrer a qualquer experiência que seja melhor, sem qualquer nostalgia.

Quer se trate do Baidu, de outras grandes empresas ou de desenvolvedores independentes, parece que voltamos à era imprudente da ascensão da Internet móvel.

# Bem-vindo a seguir a conta pública oficial do WeChat de Aifaner: Aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |