Teste real do modelo Wenxin 4.5T/X1 dual Turbo, o “corte com uma faca” do Baidu também varreu o DeepSeek
A estratégia de código aberto defendida pela DeepSeek não só teve um grande impacto nos "Seis Pequenos Dragões da IA", mas também colocou uma pressão real sobre gigantes estabelecidos como o Baidu.
Mas o Baidu, que deu a volta por cima, está gradualmente mostrando um forte contra-ataque.
Após o anúncio de que o "Wenxin Large Model 4.5 Series" será oficialmente de código aberto em 30 de junho, o Baidu, que lançou uma série de novos produtos, lançou hoje dois novos modelos na conferência Create para desenvolvedores: Wenxin 4.5 Turbo e Deep Thinking Model X1 Turbo.
Por serem chamados de Turbo, as capacidades desses dois modelos foram naturalmente totalmente aprimoradas em desempenho, com foco na multimodalidade, raciocínio forte e baixo custo. O novo assistente inteligente de pesquisa do Baidu, Wen Xiaoyan, também anunciou acesso total e está aberto aos usuários gratuitamente. A partir de agora, os usuários podem usar o APP Wen Xiaoyan.
Na reunião, o fundador do Baidu, Robin Li, apontou claramente: "A multimodalidade se tornará o padrão para modelos básicos no futuro. O mercado de modelos de texto puro se tornará cada vez menor, enquanto o mercado de modelos multimodais se tornará cada vez maior."
“É claro que o DeepSeek não é onipotente. Por exemplo, ele só pode processar texto e não pode compreender e gerar conteúdo multimídia como imagens, áudios e vídeos”, acredita Robin Li. "Seu maior problema é que ele é lento e caro. A maioria das chamadas de API de grandes modelos no mercado chinês são mais baratas e rápidas do que a versão completa do DeepSeek."
Para ele, os modelos grandes 4.5 Turbo e X1 Turbo da Wenxin lançados hoje são exatamente para resolver esses problemas.
Com base neste julgamento, o grande modelo 4.5 Turbo da Wenxin fortalece ainda mais suas capacidades multimodais. Em vários conjuntos de testes de benchmark, as capacidades multimodais do Wenxin 4.5 Turbo estão no mesmo nível do GPT-4.1 e até melhores que o GPT-4o em algumas dimensões.
▲ Wenxin 4.5 Turbo-Multimodo
▲Wenxin 4.5 Turbo-Texto
Poderíamos também testar a capacidade de raciocínio lógico do Wenxin 4.5 Turbo e ver como ele pode responder a uma pergunta tão clássica:
“Leva uma hora para queimar uma corda irregular. Como você usa isso para julgar meia hora? Demora um total de 1 hora para queimar uma corda irregular do início ao fim. Agora existem várias cordas do mesmo material.
Em termos de criação, o Wenxin 4.5 Turbo é confiável? Também pedimos a ele que escrevesse um pequeno roteiro sobre Sun Wukong e o Rei Dragão do Mar da China Oriental se tornando irmãos juramentados.
Com isso, o roteiro entregue não só respeitou o cerne da obra original, mas também injetou novas interpretações. Entre eles, a personificação da agulha fixadora do mar é o destaque, e o desenho da cerimônia da aliança de sangue também acrescenta uma nova dimensão.
O modelo grande X1 Turbo da Wenxin foi atualizado com "pensamento profundo" com base no 4.5 Turbo, com desempenho significativamente melhorado e um sistema de cadeia de pensamento integrado mais completo.
Quer se trate de recursos de perguntas e respostas, criação de conteúdo, raciocínio lógico, invocação de ferramentas ou processamento multimodal, o X1 Turbo alcançou melhorias completas e seu desempenho geral está à frente do DeepSeek R1 e da versão mais recente V3.
No mês passado, testamos a capacidade do Wenxin Large Model 4.5 e do Deep Thinking Model X1 de compreender memes. Como está o desempenho do novo modelo? A resposta é que a compreensão multimodal é realmente mais forte.
Tome este meme como exemplo. Em comparação com a última vez, o X1 Turbo tem uma melhor compreensão e uma resposta mais organizada, reconhecendo plenamente a “bondade amigável” por trás deste emoticon universal.
Por exemplo, carregue uma foto de uma relíquia cultural e deixe o X1 Turbo explicá-la e analisá-la. Ele pode não apenas identificar com precisão a identidade das relíquias culturais, mas também analisar detalhadamente suas características artesanais e explicar o conteúdo com tantos detalhes quanto um intérprete profissional de museu.
Ou tente gerar uma imagem da perspectiva de um avião no ar, e a imagem será gerada imediatamente, quase real.
▲Indicação: A mão de uma pessoa aponta para fora da janela do avião. As asas do avião fora da janela são visíveis de lado. O céu lá fora está claro e o horizonte mostra uma cena do amanhecer ou do anoitecer. Na sua frente está o vasto oceano
Em termos de custo, que mais preocupa a todos, desta vez o Baidu também lançou uma combinação de preços.
O preço de entrada do Wenxin Large Model 4.5 Turbo é de apenas 0,8 yuans por milhão de tokens, e o preço de saída é de 3,2 yuans, o que representa uma redução de 80% em comparação com a geração anterior 4.5 e equivale apenas a 40% do DeepSeek V3.
O preço de entrada do modelo grande X1 Turbo da Wenxin é de 1 yuan por milhão de tokens e a saída é de 4 yuans. O preço também cai pela metade enquanto o desempenho melhora, apenas 25% do DeepSeek R1.
Na sessão One More Thing do dia, o Baidu iluminou oficialmente o primeiro cluster de 30.000 cartões totalmente desenvolvido pela China, que pode hospedar simultaneamente o treinamento completo de vários modelos grandes com dezenas de bilhões de parâmetros e apoiar 1.000 clientes para ajustar simultaneamente modelos grandes com dezenas de bilhões de parâmetros. Por trás do poder duro de uma base técnica forte, isso também significa que o Baidu mais uma vez emitiu o sinal mais claro para a indústria.
Além disso, Robin Li disse na reunião que um dos atuais obstáculos para os desenvolvedores implementarem aplicações de IA é que os modelos grandes são caros e inacessíveis. Depois que os custos forem reduzidos, os desenvolvedores e empreendedores poderão desenvolver-se com confiança e ousadia, e as empresas poderão implantar grandes modelos a baixo custo, promovendo, em última análise, a explosão de aplicações em todas as esferas da vida.
Não consideramos mais as capacidades do modelo como uma barreira, mas voltamos à lógica de “custo-benefício” que um produto e uma plataforma deveriam ter. Em vez de falar sobre o preço móvel, é melhor usar a eficiência para reduzir o limiar e construir um ecossistema através da abertura.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.