A Doubao acaba de lançar vários modelos grandes: tornando o DeepSeek mais útil, e a versão em áudio do Sora surpreendeu o público.

Tenho que dizer, estamos em 2025 e, quando faço uma pergunta à IA, a experiência geralmente é polarizada.

Ele responde a perguntas simples em segundos, mas é como se elas não tivessem sido respondidas.

Coisas complexas exigem que você pense profundamente, e levará mais de 30 segundos para ponderar.

E com cada resposta, a IA está constantemente "queimando" tokens.

Para as empresas, o consumo de tokens equivale diretamente ao custo. Embora os modelos que permitem aprendizado profundo possam melhorar significativamente o desempenho, a latência aumenta, o consumo de tokens aumenta e os custos disparam.

Este é um ponto problemático para todo o setor.

Com o aumento do número de aplicações de IA, o consumo de tokens também está disparando. Por exemplo, o modelo Doubao viu seu uso médio diário de tokens ultrapassar 30 trilhões no final de setembro, um aumento de mais de 80% em relação ao final de maio. E isso representa apenas uma parcela do mercado.

Com a demanda por IA crescendo nesse ritmo, a escolha é economizar dinheiro usando modelos leves com baixo desempenho ou investir para garantir o desempenho com modelos de ponta. A questão é: qual priorizar o desempenho ou o custo?

Em 16 de outubro, a Volcano Engine usou quatro novos produtos no FORCE LINK AI Innovation Tour em Wuhan para dizer a você: somente as crianças fazem escolhas.

O modelo grande Doubao 1.6 suporta nativamente ajuste de comprimento de pensamento de 4 níveis, o Doubao 1.6 lite corta o custo pela metade e melhora o efeito, e também há o modelo de síntese de fala Doubao 2.0 e o modelo de reprodução de som 2.0.

De acordo com um relatório da IDC, no primeiro semestre de 2025, a Volcano Engine conquistou uma participação de 49,2% no mercado de serviços de grande porte em nuvem pública da China, ficando firmemente em primeiro lugar.

Qual conceito?

Para cada duas empresas que usam grandes modelos na nuvem, uma usa o Volcano Engine.

Na coletiva de imprensa de hoje, foi mencionado que, embora o Modo de Pensamento Profundo possa melhorar o desempenho em 31%, o uso real é de apenas 18% devido à latência, ao aumento de custos e ao consumo exorbitante de tokens. Para ser franco, as empresas querem usá-lo, mas simplesmente não podem pagar.

Para resolver esse problema, o Doubao Big Model 1.6, recentemente atualizado, oferece quatro níveis de duração de pensamento: Mínimo, Baixo, Médio e Alto.

Este é o primeiro modelo na China que suporta nativamente "ajuste gradual do comprimento do pensamento".

Como entender isso?

É como instalar uma “caixa de engrenagens” para IA: para consultas simples, use o modo Mínimo para economizar tokens e, para raciocínios complexos, mude para o modo Alto para manter o efeito.

As empresas podem equilibrar de forma flexível os efeitos, a latência e os custos de acordo com o cenário, e pensar que a eficiência é ainda mais aprimorada.

Tomemos como exemplo o modo de pensamento de baixo nível.

Comparado com o modo de pensamento único antes da atualização, os tokens de produção total foram cortados diretamente em 77,5% e o tempo de pensamento caiu em 84,6%.

O efeito? Permanecerá inalterado.

Quando o custo de cada token pode ser controlado com precisão, quanto mais você compra, mais você economiza; quanto mais detalhada for a otimização, mais você ganha.

A Volcano Engine também lançou o modelo grande Doubao 1.6 lite, que é mais leve e tem velocidade de inferência mais rápida que o modelo principal.

Em termos de desempenho, este modelo supera o Doubao 1.5 pro, com uma melhoria de 14% na avaliação de cenários de nível empresarial.

Em termos de custo, na faixa de entrada de 0-32k, o custo de uso abrangente é reduzido em 53,3% em comparação com o Doubao 1.5 pro.

O efeito é melhor e o custo é reduzido pela metade.

Esse aumento na "densidade de valor do token unitário" significa essencialmente que cada centavo é gasto com sabedoria.

Na conferência, a Volcano Engine também lançou o modelo de síntese de fala Doubao 2.0 e o modelo de reprodução de som 2.0.

A voz está se tornando o principal método de interação para aplicativos de IA.

Mas o que é mais notável do que sua expressão emocional mais forte ou seu seguimento mais preciso de instruções é que eles finalmente conseguem recitar fórmulas complexas com precisão.

Isso pode parecer insignificante, mas no ambiente educacional, ler em voz alta fórmulas e símbolos complexos sempre foi um problema difícil no setor.

Atualmente, a precisão de leitura de modelos similares no mercado é geralmente inferior a 50%.

Após a otimização direcionada dos dois modelos de voz recém-lançados, a taxa de precisão na recitação de fórmulas complexas em todas as disciplinas, do ensino fundamental ao ensino médio, subiu para 90%.

Por trás disso está uma nova arquitetura de síntese de fala desenvolvida com base no modelo de linguagem grande Doubao, que permite que sons sintetizados e reproduzidos tenham capacidades profundas de compreensão semântica e também expande as capacidades de raciocínio contextual.

A IA não converte mais texto em som sem pensar, mas primeiro "entende" o conteúdo e então "expressa emoções com precisão".

Os usuários podem usar linguagem natural para ajustar com precisão a velocidade da fala, a emoção, a voz, o tom e as mudanças de estilo, maximizando a controlabilidade da voz.

Quer algo mais suave? "Algo suave."

Quer ficar mais animado? "Leia com entusiasmo."

Na coletiva de imprensa, a Volcano Engine mostrou uma demonstração muito interessante:

Um livro ilustrado infantil foi criado com o tema da proteção do pato-de-baer em Wuhan. O modelo de criação de imagens Doubao, Seedream 4.0, gerou as ilustrações, e o modelo de síntese de fala Doubao 2.0 forneceu a interpretação emocional.

Durante o processo, você também pode controlar o efeito de leitura em tempo real por meio de instruções.

Desde seu primeiro lançamento em maio do ano passado, a família de modelos de voz Doubao abrangeu sete áreas principais, incluindo síntese de fala, reconhecimento de fala, reprodução de som, fala em tempo real, interpretação simultânea, criação de música e criação de podcast, e foi conectada a mais de 460 milhões de terminais inteligentes.

Na coletiva de imprensa de hoje, Tan Dai destacou três grandes tendências de desenvolvimento em grandes modelos globais de IA:

Modelos de pensamento profundo estão sendo intensamente integrados a recursos de compreensão multimodal. Modelos de vídeo, imagem e voz estão gradualmente alcançando níveis de aplicação de nível de produção, e agentes complexos de nível empresarial estão amadurecendo.

Espere, vamos parar por um momento.

À medida que mais e mais modelos surgem, como escolhemos o modelo mais econômico ao enfrentar necessidades específicas?

Essa pode ser uma questão de autoanálise para muitas empresas.

A Volcano Engine lançou o Smart Model Router, a primeira solução na China para seleção inteligente de modelos.

A partir de hoje, os usuários podem selecionar a função "Smart Model Routing" no Volcano Ark.

Esta função suporta três modos: "Modo Balanceado", "Modo Prioridade de Efeito" e "Modo Prioridade de Custo", e pode selecionar automaticamente o modelo mais apropriado para solicitações de tarefas.

Por que isso é necessário?

Porque tarefas diferentes têm requisitos completamente diferentes para a "densidade de valor" dos tokens.

O sistema de atendimento ao cliente responde à pergunta "Como devolver um produto?" com um modelo leve.

Entretanto, quando se trata de diagnóstico médico e análise de casos, o modelo mais forte deve ser usado.

Embora o consumo de tokens seja o mesmo, a densidade de valor é muito diferente.

A essência do roteamento de modelo inteligente é deixar que a IA decida por si mesma "quantos tokens vale a pena queimar nesta tarefa".

Atualmente, o roteamento de modelo inteligente do Volcano Engine já oferece suporte a uma variedade de modelos tradicionais, incluindo Doubao, DeepSeek, Qwen e Kimi.

Tomemos como exemplo o DeepSeek, os dados medidos:

No modo de efeito primeiro, o efeito do modelo após o roteamento inteligente é melhorado em 14% em comparação ao uso direto do DeepSeek-V3.1.

No modo de custo em primeiro lugar, ao mesmo tempo em que obtém resultados semelhantes ao DeepSeek-V3.1, o custo geral do modelo pode ser reduzido em até 70%.

Quando a seleção do modelo é assumida pela IA, um ciclo de feedback positivo é formado em todo o setor:

Capacidades de modelo mais fortes desbloqueiam novos cenários de aplicação → A explosão de novas aplicações aumenta o consumo de tokens → O aumento no consumo força a otimização contínua do roteamento inteligente → A otimização do roteamento reduz ainda mais os custos unitários → Custos mais baixos liberam mais elasticidade da demanda → A liberação da demanda, por sua vez, aumenta o consumo geral.

Isso nos lembra de 1882, quando Edison construiu a primeira usina elétrica comercial do mundo. Ninguém poderia prever que a unidade "quilowatt-hora" daria origem a todo o sistema industrial moderno.

Hoje, os tokens estão se tornando os “quilowatts-hora” da era da IA.

A lista do "Trillion Token Club" anunciada recentemente pela OpenAI e os 130 trilhões de tokens queimados pelo Google todo mês confirmam o forte aumento da produtividade.

É claro que um bom modelo é apenas o ponto de partida, e uma boa experiência é o objetivo final.

Ao fazer uma pergunta à IA, você não precisa se preocupar se ela é rápida ou boa. O pensamento em camadas permite respostas instantâneas e precisas para perguntas simples, enquanto proporciona raciocínio profundo e eficiência para perguntas complexas.

Roteamento inteligente significa que você não precisa se preocupar com qual modelo escolher, a IA encontrará o mais adequado.

Usando linguagem natural, você pode controlar com precisão o modelo de fala, em vez de ficar sobrecarregado por uma infinidade de parâmetros. Cada iteração dessas tecnologias tem um único objetivo final: torná-la acessível e, mais importante, eficaz para os usuários.

Talvez seja assim que a IA deveria ser.

#Bem-vindo a seguir a conta pública oficial do WeChat do iFaner: iFaner (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo