Durante uma semana, toda a internet especulou sobre o DeepSeek V4, mas descobriu-se que foi a Xiaomi a responsável por isso.

Na semana passada, dois modelos anônimos e sem nome apareceram discretamente na conhecida plataforma de agregação de APIs OpenRouter, com os codinomes "Hunter Alpha" e "Healer Alpha". Sem qualquer divulgação, seu uso começou a crescer em um ritmo incomumente rápido.

Hunter Alpha liderou os rankings diários por vários dias, com seu uso acumulado ultrapassando 1 trilhão de tokens. Isso gerou discussões na comunidade. A especulação mais comum aponta para o DeepSeek, sugerindo que seja uma versão beta do DeepSeek V4.

Peter Steinberger, o fundador do OpenClaw, também publicou na plataforma X para fazer perguntas, aumentando ainda mais o entusiasmo da comunidade por especulações.

A Xiaomi anunciou oficialmente que o Hunter Alpha e o Healer Alpha são versões beta internas iniciais do Xiaomi MiMo Large Model. Junto com a revelação, Luo Fuli, chefe do projeto Xiaomi MiMo Large Model, também reconheceu publicamente a existência deles na plataforma X.

Por coincidência, Luo Fuli é uma ex-pesquisadora da DeepSeek. Em outras palavras, ela, que veio da DeepSeek, criou um modelo na Xiaomi que fez toda a internet pensar que era da DeepSeek.

Ponto principal: A Xiaomi lançou três modelos simultaneamente, cada um com seu próprio foco, mas todos apontando na mesma direção: evoluir a IA de simplesmente "ser capaz de conversar" para "ser capaz de concluir tarefas".

  • MiMo-V2-Pro é uma plataforma de texto de ponta, projetada para cargas de trabalho de agentes de alta intensidade, com foco em inferência, planejamento e invocação de ferramentas.
  • MiMo-V2-Omni é uma plataforma de agentes multimodais que integra nativamente percepção de texto, visão e áudio, criando uma ligação completa desde a compreensão até a execução.
  • MiMo-V2-TTS é um modelo de síntese de fala em larga escala que confere aos agentes capacidades de expressão vocal calorosa e emotiva, constituindo o elo final em toda a cadeia de valor.

MiMo-V2-Pro: Grande capacidade, à vontade, com preço equivalente a apenas um quinto do preço dos concorrentes.

O número total de parâmetros para MiMo-V2-Pro ultrapassa 1T, com um parâmetro de ativação de 42B, que é cerca de 3 vezes maior que o da geração anterior, MiMo-V2-Flash.

Apesar do aumento significativo no número de parâmetros, a eficiência da inferência não diminuiu, graças à sua arquitetura inovadora de Atenção Híbrida.

A taxa de mistura da arquitetura foi ainda mais aprimorada, passando de 5:1 na geração anterior para 7:1, e a introdução de uma camada MTP (Multi Token Prediction) leve também acelerou a velocidade de geração real.

Entretanto, o MiMo-V2-Pro suporta janelas de contexto ultralongas de até 1M, o que representa uma vantagem estrutural significativa no tratamento de tarefas de agentes de longa duração.

No ranking global de Análise Artificial de modelos inteligentes de grande escala, o MiMo-V2-Pro ocupa atualmente a oitava posição mundial e a segunda na China.

Além dos testes de benchmark, a Xiaomi enfatiza a "experiência do usuário no mundo real". Em termos de Coding Agent, General Agent e uso de ferramentas, o MiMo-V2-Pro está no mesmo nível do Claude Sonnet 4.6.

Em avaliações detalhadas realizadas pelos engenheiros internos da Xiaomi, as capacidades de engenharia de código do MiMo-V2-Pro se aproximam das do Claude Opus 4.6, apresentando recursos superiores de design de sistema e um estilo de codificação mais elegante.

Durante os testes beta anônimos do Hunter Alpha, os tipos de aplicativos mais utilizados foram, em sua maioria, ferramentas de programação, o que por si só já representa a validação de mercado mais direta das capacidades do modelo.

Dentro da estrutura OpenClaw, o MiMo-V2-Pro também demonstrou suas capacidades de desenvolvimento front-end, permitindo a geração de páginas web com design requintado e totalmente funcionais em uma única etapa, equilibrando o apelo visual com a usabilidade prática.

Em termos de preço, o custo da API do MiMo-V2-Pro é apenas 1/5 do preço de produtos concorrentes na mesma categoria. Em um contexto de 256 mil tokens, a entrada custa US$ 1 por milhão de tokens e a saída, US$ 3; em um contexto de 1 milhão de tokens, a entrada custa US$ 2 e a saída, US$ 6.

Essa estratégia de preços envia um sinal claro: a Xiaomi espera aproveitar sua vantagem de preço para aumentar rapidamente a penetração do MiMo-V2-Pro no ecossistema de desenvolvedores.

Para isso, a Xiaomi firmou parceria com cinco importantes equipes de frameworks de agentes — OpenClaw, OpenCode, KiloCode, Blackbox e Cline — para oferecer suporte gratuito à API por um período limitado de uma semana. Para obter informações específicas sobre o suporte gratuito para cada framework, consulte o site oficial do MiMo e os anúncios da Plataforma Aberta MiMo.

Atualmente, o MiMo-V2-Pro abriu oficialmente seu serviço de API, e os desenvolvedores podem acessá-lo e experimentá-lo em https://platform.xiaomimimo.com. A página oficial de experiência do modelo, https://aistudio.xiaomimimo.com, também lançou o recurso MiMo Claw, permitindo que os desenvolvedores experimentem gratuitamente os recursos do Agente do MiMo-V2-Pro.

MiMo-V2-Omni: Ele pode ver, ele pode ouvir e pode até negociar o preço você mesmo.

Se o MiMo-V2-Pro é o cérebro, o MiMo-V2-Omni tem ambições ainda maiores; ele tenta dar a esse cérebro olhos, ouvidos e mãos.

O MiMo-V2-Omni é o primeiro modelo totalmente modal da Xiaomi que unifica percepção e ação no nível básico, integrando profundamente texto, visão e áudio desde a arquitetura subjacente.

A compreensão de áudio é uma das capacidades mais diferenciadas do MiMo-V2-Omni. Ele suporta mais de 10 horas de compreensão contínua de áudio de longa duração, abrangendo cenários complexos que vão desde a classificação de sons ambientes até a separação de múltiplos alto-falantes, superando o Gemini 3 Pro em desempenho geral.

Em termos de compreensão de imagens, o MiMo-V2-Omni supera o Claude Opus 4.6 e se aproxima do nível de modelos proprietários de ponta, como o Gemini 3 Pro, em raciocínio visual multidisciplinar e análise de grafos complexos.

Em termos de compreensão de vídeo, o modelo suporta entrada conjunta nativa de áudio e vídeo, em vez de processar áudio e vídeo separadamente, o que traz verdadeiras vantagens de compreensão multimodal no nível arquitetônico.

Em cenários reais com agentes, o MiMo-V2-Omni demonstrou impressionantes capacidades de conclusão de tarefas de ponta a ponta.

Em conjunto com o framework OpenClaw, ele pode controlar o navegador como uma pessoa real: ler avaliações no Xiaohongshu, organizar sugestões de compra, acessar o JD.com para comparar preços em diferentes lojas, entrar em contato com o atendimento ao cliente para negociar descontos e concluir o pedido. Ele também consegue lidar com a alternância entre várias abas e com requisitos de interação em tempo real.

Outra demonstração mais representativa: os usuários só precisam dizer: "Faça um vídeo introdutório, adicione alguns efeitos sonoros tecnológicos e publique no TikTok", e o modelo pode concluir todo o processo, incluindo a correção automática de erros de fonte na renderização e, finalmente, a confirmação de que o vídeo passou pela revisão e foi publicado com sucesso.

Na tarefa de agente de texto puro, o MiMo-V2-Omni também manteve um alto nível de competitividade, com seu desempenho no benchmark OpenClaw PinchBench sendo comparável ao do Gemini 3 Pro.

Durante os testes beta anônimos do Healer Alpha, o modelo alcançou a maior pontuação média no PinchBench, e o feedback positivo dos usuários da comunidade, juntamente com os resultados do benchmark, formaram uma rara confirmação mútua.

Em termos de cenários de escritório, o MiMo-V2-Omni firmou parceria com o Kingsoft Office e integrou-se ao WPS Lingxi, permitindo a geração direta de documentos Word de alta qualidade, arquivos Excel estruturados, PDFs formatados e apresentações PPT completas. O módulo Claw do MiMo Studio também se integrou totalmente ao ecossistema Kingsoft WebOffice, oferecendo suporte nativo aos quatro principais formatos: Word, Excel, PPT e PDF, abrangendo mais de 95% dos tipos de documentos do dia a dia.

Endereço de teste do WPS Lingxi: lingxi.wps.cn

A MiMo-V2-Omni abriu sua API, que suporta um comprimento de contexto de 256K, com preços de entrada de US$ 0,4 por milhão de tokens e de saída de US$ 2. Ela também pode ser integrada em https://platform.xiaomimimo.com.

MiMo-V2-TTS: Ele pode bocejar, ficar bêbado e cantar.

Um agente completo não deve apenas pensar e agir, mas também falar. O MiMo-V2-TTS foi projetado para preencher essa lacuna.

O MiMo-V2-TTS é baseado no tokenizador de áudio desenvolvido pela Xiaomi e na arquitetura de modelagem conjunta de fala e texto com múltiplos codebooks, e passou por um pré-treinamento em larga escala com centenas de milhões de horas de dados de fala.

O enorme volume de dados, "centenas de milhões de horas", significa que o modelo pode abranger uma variedade extremamente rica de estilos de fala, sotaques e cenários, o que constitui a base de sua capacidade de generalização.

Na fase pós-treinamento do aprendizado por reforço multidimensional, o modelo é continuamente otimizado em torno de múltiplas dimensões, como naturalidade prosódica, estabilidade da qualidade sonora, qualidade de clonagem de timbre e adaptação ao tom da cena.

Graças à arquitetura de modelagem de codebook multicamadas, a fase de aprendizado por reforço pode utilizar diretamente sinais de recompensa relacionados à fala para otimizar o modelo, em vez de depender de feedback indireto do lado do texto. Isso permite que sinais de recompensa multidimensionais atuem de forma mais eficaz no processo de geração.

O MiMo-V2-TTS oferece controle multigranular, desde a configuração geral do tom até as emoções locais dentro das frases, permitindo mudanças de tom e alterações emocionais na mesma frase, algo raro em produtos similares.

O modelo consegue reconhecer de forma inteligente sinais de formatação, como sinais de pontuação, interjeições e sinais de ênfase, e convertê-los automaticamente em expressões de fala natural, sem necessidade de anotação manual por parte do usuário.

O suporte a dialetos abrange o mandarim do nordeste da China, o dialeto de Sichuan, o dialeto de Henan, o cantonês e os sotaques taiwaneses, além de oferecer recursos de atuação no estilo de dramatização e síntese vocal de alta qualidade, permitindo que o mesmo modelo fale, atue e cante.

A declaração oficial indica que, no futuro, o MiMo-V2-TTS será profundamente integrado ao MiMo-V2-Omni, permitindo que o Agente não apenas veja e compreenda o mundo, mas também conte a história do mundo com uma voz expressiva.

A inteligência artificial é o verdadeiro elo que conecta todo o ecossistema de pessoas, carros e casas.

O lançamento simultâneo dos três modelos, tanto em termos de cronograma quanto de combinação de produtos, não foi acidental. Em um comunicado, Luo Fuli admitiu que a transição de um paradigma de chat para um paradigma de agente aconteceu tão rapidamente que "até nós mesmos temos dificuldade em acreditar".

No entanto, a equipe Xiaomi MiMo já havia se planejado com antecedência. Luo Fuli revelou que o modelo base de 1T já havia começado a ser treinado há vários meses, com o objetivo inicial de melhorar a eficiência da inferência de contexto longo. A arquitetura de atenção híbrida, a janela de contexto ultralonga de 1M e a inferência de baixa latência MTP não são decisões arquitetônicas tomadas para seguir tendências, mas sim vantagens estruturais construídas antes mesmo de serem necessárias.

A mudança de foco da equipe para os Agentes surgiu de um momento crucial. Quando Luo Fuli experimentou pela primeira vez a complexa estrutura dos Agentes, ela foi profundamente impactada e imediatamente deu uma diretriz firme à equipe: qualquer membro da equipe MiMo que tivesse menos de 100 conversas no dia seguinte poderia se demitir.

Por trás dessa exigência um tanto extrema, reside sua firme convicção no paradigma do Agente. O resultado foi que a imaginação da equipe foi totalmente liberada e a velocidade da pesquisa aumentou drasticamente.

Esse ritmo de pesquisa e desenvolvimento, aliado ao ecossistema já existente da Xiaomi, faz com que a importância desse lançamento vá além de uma simples competição de modelos.

O Grupo Xiaomi vem promovendo há tempos a estratégia de "Ecossistema Integrado Humano-Veículo-Casa", utilizando o Surge OS para conectar totalmente smartphones, carros (série SU7) e dispositivos domésticos inteligentes. Esse ecossistema já está fisicamente interconectado, mas antes carecia de um hub verdadeiramente inteligente capaz de compreender as intenções entre os dispositivos, planejar e executar tarefas de forma autônoma.

Atualmente, o MiMo-V2-Pro é responsável pela inferência e planejamento, o MiMo-V2-Omni pela percepção e execução multimodal e o MiMo-V2-TTS pela expressão vocal. Juntos, os três formam um conjunto completo de recursos de IA que impulsiona todo o ecossistema.

O miclaw (agente de IA da Xiaomi para celulares) foi integrado ao modelo MiMo Big, possuindo capacidades de execução em nível de sistema e profunda integração com o "ecossistema humano, veicular e doméstico", representando a primeira implementação concreta dessa pilha de recursos. A subsequente integração do WPS Lingxi e do Xiaomi Browser também ilustra o mesmo ponto: o MiMo não é apenas um produto de diálogo, mas uma camada de recursos fundamental incorporada em diversos cenários de aplicação.

Há anos, as principais empresas de tecnologia vêm descrevendo a visão de que "a IA conectará tudo", e a Xiaomi, com seus modelos baseados em agentes e profundo conhecimento de estratégias de ecossistema, está claramente pronta para tornar isso realidade.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.