Xiaomi: Podem me chamar de Assassino do Preço do Token

maio 28, 2026 gurinho

Aqueles que apostaram em uma alta nos preços dos tokens em 2026 se enganaram duas vezes em apenas uma semana.

Em 22 de maio, a DeepSeek anunciou uma redução permanente no preço do DeepSeek V4 Pro; no início desta manhã, a série MiMo-V2.5 da Xiaomi seguiu o exemplo com uma redução de preço de até 99%.

Ao mesmo tempo, o sistema de faturamento do Plano Token da Xiaomi foi otimizado, mantendo-se o preço inalterado, mas com um aumento na quantidade disponível de 5 a 8 vezes em relação ao valor original.

Como era de se esperar, as discussões sobre a redução de preço do modelo Xiaomi MiMo surgiram rapidamente em fóruns internacionais como o Reddit, a plataforma X e diversos fóruns de desenvolvedores.

No entanto, em um momento em que toda a indústria lamenta os custos insuportáveis da tokenização, por que a Xiaomi ousa ir contra a corrente e baixar os preços? Mais importante ainda, para onde essa redução de preços levará a indústria de IA?

Com a queda vertiginosa dos preços dos tokens, a indústria de IA acolhe o seu pai mais rigoroso até agora.

O anúncio da Xiaomi indica que sua API de IA de grande escala da série MiMo-V2.5 terá uma redução permanente de preço, com um desconto máximo de 99%, e o preço não será mais diferenciado com base no comprimento da entrada. O novo preço entrou em vigor globalmente à 0h00, horário de Pequim, do dia 27 de maio.

No entanto, uma redução de 99% não significa que todas as chamadas serão cobradas ao preço mais baixo; a variável fundamental é se o cache de entrada é atingido.

Tomando como exemplo o MiMo-V2.5-Pro, assim que o cache é atingido, o preço de entrada cai para aproximadamente 0,025 yuan por milhão de tokens. No entanto, se o cache de entrada não for atingido, o preço permanece em 3 yuan por milhão de tokens, e o preço de saída é de 6 yuan por milhão de tokens.

Em outras palavras, o pré-requisito para esse preço extremamente baixo é que as solicitações acessem o cache um grande número de vezes.

Esse preço é muito atrativo para tarefas com alta repetição de contextos, alta frequência de agentes, tarefas de código com múltiplas rodadas e tarefas de inferência em lote. No entanto, se o cenário da sua aplicação tiver uma baixa taxa de acertos de cache, o custo real obviamente não atingirá o ponto mais baixo.

O Plano de Tokens opera com uma lógica semelhante.

A Xiaomi enfatizou que os preços permanecerão inalterados, mas os créditos serão significativamente aumentados: as mensalidades para os quatro planos (Lite, Standard, Pro e Max) permanecerão em 39 yuans, 99 yuans, 329 yuans e 659 yuans, respectivamente. Os limites de crédito também serão aumentados de 60 milhões, 200 milhões, 700 milhões e 1,6 bilhão para 4,1 bilhões, 11 bilhões, 38 bilhões e 82 bilhões, respectivamente.

De acordo com a nova conversão, o MiMo-V2.5-Pro requer apenas 2,5 Créditos/token para acessar o cache e 300 Créditos/token para não acessar o cache, com um rendimento de 600 Créditos/token.

Essa é exatamente a mesma estratégia usada pelo DeepSeek.

Eis um breve resumo cronológico: a versão de pré-visualização do DeepSeek V4 foi lançada em 24 de abril; no dia seguinte, o V4-Pro foi oferecido com 25% de desconto; em 26 de abril, o preço dos acessos ao cache caiu para um décimo do preço inicial; e em 22 de maio, o desconto temporário tornou-se uma redução de preço permanente, com o V4-Pro reduzido permanentemente para um quarto do seu preço original.

Após alguns ajustes, o preço do cache de entrada do DeepSeek-V4-Pro caiu de 0,1 yuan para 0,025 yuan. Com o Xiaomi MiMo-V2.5-Pro seguindo rapidamente o mesmo caminho, o preço do cache de entrada dos modelos nacionais se estabilizou completamente nesse patamar.

Tanto a DeepSeek quanto a Xiaomi focaram seus preços mais impactantes em acessos ao cache e cenários específicos, e o motivo não é complicado. O modelo de negócios mais amplo está migrando do chat para o trabalho real, e o Agente é onde o consumo de tokens realmente se amplifica.

Em cenários de bate-papo, o usuário faz uma pergunta e o modelo responde, tornando o custo relativamente fácil de estimar.

No entanto, em um cenário baseado em agentes, uma tarefa pode envolver contextos extensos, múltiplas rodadas de inferência, geração de código, chamadas de ferramentas, leitura de páginas da web, análise de arquivos e verificação de resultados. O usuário vê apenas o resultado final, enquanto o servidor pode já ter processado várias solicitações e um grande número de leituras de contexto.

É aqui que os acertos de cache se tornam importantes.

Agentes, auxiliares de código e aplicações de contexto extenso compartilham uma característica comum: grande parte do conteúdo aparece repetidamente. Isso inclui avisos do sistema, código do projeto, documentação da API, descrições de ferramentas, conversas históricas e arquivos de dependência. Recalcular esse conteúdo a cada vez seria muito custoso; no entanto, se ele puder ser armazenado em cache e a cobrança for feita apenas com base nos acessos ao cache na próxima vez que for usado, o custo de inferência diminuirá significativamente.

Em outras palavras, quanto menor o preço por acerto de cache, mais adequado ele é para cenários de trabalho do mundo real que envolvem alta frequência, múltiplas rodadas e contextos longos. Os preços baixos oferecidos pela DeepSeek e pela Xiaomi visam, na verdade, atrair desenvolvedores e aplicativos de alta frequência, incentivando mais agentes, assistentes de código e aplicativos de automação de escritório a serem executados em seus modelos.

A Xiaomi já havia utilizado iniciativas como o MiMo Orbit e o Programa de Incentivo a Criadores de Trillion Tokens para permitir que mais pessoas experimentassem o MiMo e resolvessem problemas do mundo real. Este Programa de Incentivo a Criadores de Trillion Tokens, lançado em 28 de abril, viu todos os 100T tokens serem distribuídos antecipadamente, às 16h08 do dia 26 de maio.

Do ponto de vista da plataforma, os tokens de baixo custo e as quotas gratuitas resultam em uma enorme quantidade de uso no mundo real. Esses usos no mundo real trazem tarefas complexas, exemplos de falhas, feedback do usuário, fluxos de trabalho do agente, cenários de código e dados contextuais de longo prazo, que, por sua vez, ajudam o modelo e o sistema de inferência a iterar.

O fenômeno da "criação de camarão" na comunidade também pode ser compreendido dentro dessa lógica. Ao maximizar seus limites de gastos, os usuários também ajudam a plataforma a criar pressão, expor problemas e acumular dados.

Portanto, essa análise não pode ser feita unicamente com base no lucro bruto por inferência. Embora a receita de curto prazo seja reduzida, os ganhos provêm da migração de desenvolvedores, do aumento do volume de chamadas e do feedback genuíno. Para fornecedores de modelos que almejam uma posição no ecossistema de agentes, isso representa um investimento em plataforma muito valioso.

A "Lei da Verdadeira Fragrância" de Luo Fuli está enraizada na engenharia da violência.

No entanto, ter vontade não basta; o essencial é ter condições de baixar o preço. O que torna a redução de preço da Xiaomi desta vez especial é o contraste com as declarações públicas anteriores de Luo Fuli, chefe do modelo de larga escala da MiMo.

Há um mês, Luo Fuli se opôs publicamente à guerra de preços dos tokens. Na época, ela avaliou que tokens com preços baixos, combinados com uma estrutura aberta para agentes terceirizados, poderiam facilmente levar a custos descontrolados para a plataforma.

Ela observou que as estruturas de agentes de terceiros geralmente têm um gerenciamento de contexto deficiente. Uma única consulta do usuário pode desencadear várias rodadas de chamadas de ferramentas de baixo valor, com cada solicitação carregando um contexto excessivamente longo contendo mais de 100.000 tokens. Se a plataforma não conseguir conter esse desperdício, o custo real da API poderá ser dezenas de vezes maior que o preço da assinatura.

Ela também acredita que a capacidade computacional global não consegue mais acompanhar a crescente demanda por tokens impulsionada por agentes. Grandes empresas, sem esclarecer a estrutura de custos de programação e cenários de agentes, se envolvem em guerras de preços indiscriminadas, o que levará à limitação de recursos, degradação de recursos e diminuição da estabilidade, prejudicando, em última análise, a experiência do usuário.

Contudo, o corte de preços da Xiaomi desta vez não anulou julgamentos anteriores, mas sim alterou a premissa de uma guerra de preços. Luo Fuli havia se oposto anteriormente a preços baixos sem uma estrutura de custos que os sustentasse. O que a Xiaomi está apresentando agora é uma solução de engenharia teórica que, segundo ela, pode viabilizar preços baixos.

De acordo com o anúncio da Xiaomi, sua equipe técnica, com base no SGLang HiCache, oferece suporte completo ao SWA, sigla para Sliding Window Attention (Atenção por Janela Deslizante). Isso reduz a quantidade de movimentação de dados entre múltiplos níveis de armazenamento, como memória da GPU, memória da CPU e SSD no cache KV, para quase um sétimo do que era antes da otimização, e aumenta o número de tokens armazenáveis em cache para quase cinco vezes o número anterior à otimização.

Ao mesmo tempo, a Xiaomi também otimizou sua solução especializada de processamento paralelo e a estratégia de agrupamento por comprimento de entrada para melhorar a taxa de transferência de entrada do cluster. Sem esse nível de capacidade de engenharia, os preços baixos podem facilmente se tornar subsídios insustentáveis. Somente com um sistema de infraestrutura suficientemente robusto é que os preços baixos podem se transformar em uma vantagem a longo prazo.

As guerras de preços testam as capacidades de engenharia, bem como a força do sistema de suporte.

Diferentemente de empresas com modelos de IA puramente focados, os negócios da Xiaomi em smartphones, automóveis, IoT e eletrônicos de consumo proporcionam a ela um ciclo de investimento mais longo e maior paciência estratégica. Isso permite que a empresa veja seus serviços de grande escala como um ponto de entrada no ecossistema de IA, evitando a armadilha de se concentrar exclusivamente na receita de curto prazo proveniente de APIs.

Isso não é favorável para pequenas e médias empresas. Sem um negócio principal que as sustente, sem uma infraestrutura robusta e sem concorrentes com escala suficiente para diluir os custos, elas estão fadadas a não conseguir acompanhar esse preço a longo prazo.

Os preços baixos da DeepSeek ameaçaram diretamente o posicionamento de mercado de muitos fornecedores de modelos nacionais. Com a Xiaomi MiMo seguindo o mesmo caminho, mais fabricantes de grande porte serão forçados a ajustar seus preços ou redefinir o valor de seus produtos. Fornecedores de serviços de modelos menores podem ser empurrados para mercados verticais mais restritos.

Esta rodada de cortes de preços é, em certa medida, um processo de seleção de mercado para fornecedores de modelos focados em eficiência. Empresas com capacidade de engenharia, recursos de gerenciamento de poder computacional e pontos de entrada no ecossistema podem suportar a pressão dos preços mais baixos. Empresas que possuem apenas capacidade de modelagem, mas não conseguem reduzir os custos de inferência, se tornarão cada vez mais passivas.

Além disso, à medida que a margem para novas reduções de preço diminui gradualmente, quanto mais próximo o preço estiver do custo físico, menos vantajosos se tornam os simples cortes de preço. Na próxima etapa, a qualidade do modelo, a adaptação do agente, as ferramentas de desenvolvimento, a integração do ecossistema, a estabilidade do serviço e as capacidades de entrega empresarial enfrentarão uma nova rodada de intensa competição.

As capacidades dos modelos determinam o limite máximo do desenvolvimento da IA, enquanto os custos de inferência determinam a escala de adoção da IA. Somente quando tokens verdadeiramente acessíveis inundarem a camada de aplicação é que veremos como será a próxima era da explosão da IA.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.