O obstáculo de integrar um modelo complexo com 60 bilhões de parâmetros em um telefone celular foi finalmente superado por uma empresa chinesa de IA.

Um modelo grande com 8B parâmetros normalmente requer cerca de 16GB de memória de vídeo. Quanto mais parâmetros, mais memória de vídeo é consumida, e é por isso que os preços da memória estão subindo a cada dia.

Agora existe um método que permite economizar até 6 vezes mais memória de vídeo sem comprometer o desempenho do modelo.

Nos últimos dois anos, uma corrida tecnológica global vem se formando em torno dessa abordagem aparentemente extrema. E nesse contexto, uma solução inteiramente baseada em poder computacional desenvolvido internamente acaba de apresentar sua primeira resposta.

O modelo foi compactado para menos de 3 bytes, mantendo 97% de suas capacidades, ou até mais. Se combinado com a arquitetura MoE, será possível executar um modelo grande com 60 bilhões de parâmetros diretamente em um celular com 8 GB de RAM no futuro.

Parece inacreditável, como eles conseguiram?

É possível usar três valores para executar um modelo grande?

Os modelos tradicionais de grande porte utilizam armazenamento numérico de alta precisão, o que significa que cada peso pode assumir dezenas de milhares de valores diferentes. Isso é extremamente preciso, mas também exige muita memória. A quantização ternária é uma operação inversa extrema: ela reduz diretamente o número de valores possíveis de dezenas de milhares para três. Tecnicamente, isso é chamado de 1,58 bits, porque codificar três valores requer exatamente cerca de 1,58 bits.

Quão extrema é essa compressão? Para usar uma analogia: se os pesos de um modelo tradicional de grande porte são como uma fotografia colorida, a quantização ternária é como comprimi-los em um gráfico minimalista com apenas cores preto, branco e cinza.

Intuitivamente, você pode pensar que isso resultaria em perdas significativas. No entanto, pesquisas realizadas nos últimos dois anos demonstraram repetidamente que existe uma grande quantidade de informações redundantes nos pesos do modelo. Três valores, se alocados adequadamente, são suficientes para lidar com a grande maioria das capacidades do modelo.

Este não é um conceito novo. Em 2024, a Microsoft Research lançou o BitNet b1.58, que foi a primeira demonstração sistemática de que um modelo ternário de grande porte poderia se aproximar do desempenho de um modelo de precisão total. A Microsoft lançou posteriormente o BitNet b1.58 2B4T no ano passado, um modelo ternário de código aberto treinado com 2 bilhões de parâmetros e 4 trilhões de tokens. No mês passado, a empresa americana PrismML lançou a série Ternary Bonsai, afirmando ser um dos primeiros modelos de 1,58 bits disponíveis comercialmente.

Acima: Arquitetura Llama FP16; Abaixo: Arquitetura BitNet desenvolvida pela Microsoft Research.

A comunidade acadêmica também está seguindo o exemplo: Tequila propôs um novo método para resolver a "armadilha do peso morto" na quantização ternária, e o TernaryLM explorou o treinamento ternário nativo desde o início.

Um circuito de corrida global está tomando forma. Mas uma questão crucial permanece sem resposta:

É possível treinar com sucesso um modelo ternário de grande porte utilizando poder computacional produzido internamente?

A primeira vez no Ascend

Desta vez, na Conferência de Desenvolvedores Huawei Kunpeng Ascend (KADC 2026), a Mianbi AI apresentou a resposta.

O BitCPM-CANN é uma série de modelos ternários de grande escala lançada pela Wallfacer em colaboração com a Universidade de Tsinghua e a comunidade de código aberto OpenBMB. Sua importância vai além de simplesmente "lançar mais um modelo ternário". Globalmente, o BitCPM-CANN alcançou três feitos inéditos.

Pela primeira vez, o treinamento completo de um modelo ternário de grande porte foi concluído na plataforma Ascend da Huawei. Anteriormente, todo o treinamento de modelos ternários disponível publicamente era realizado em GPUs da NVIDIA. Isso marca a primeira vez que a indústria de semicondutores da China possui capacidade própria de treinamento de modelos ternários.
Pela primeira vez, a escala foi ampliada para 8 bilhões de bits de uma só vez. Anteriormente, o treinamento com baixa quantidade de bits no Ascend era limitado à verificação em pequena escala. O BitCPM-CANN lançou diretamente quatro níveis: 0,5 bilhão, 1 bilhão, 3 bilhões e 8 bilhões de bits, abrangendo todos os cenários de computação de borda, desde celulares até PCs.
Pela primeira vez, foi realizada uma avaliação comparativa completa com o modelo de precisão total. As 11 tarefas e quatro categorias de avaliação (conhecimento geral, compreensão de leitura, conhecimento específico da matéria e raciocínio matemático) apresentaram uma taxa de retenção de 95,7% a 97,2% nos níveis de habilidade de 1B a 8B.

O que significa uma taxa de retenção de capacidade de 97,2%? Em benchmarks convencionais como ARC, CMMLU e GSM8K, a diferença de desempenho entre o modelo ternário BitCPM-CANN e o modelo de precisão total MiniCPM4 do mesmo tamanho é agora menor do que a diferença entre muitos modelos de precisão total. Entre eles, o nível 3B apresenta a maior taxa de retenção, atingindo 97,2%.

Além disso, esses não são apenas números em um artigo; são resultados que podem ser realmente "usados ​​imediatamente". Todos os tamanhos do BitCPM-CANN são de código aberto e todos os quatro tamanhos, de 0,5B a 8B, podem ser baixados e reproduzidos diretamente.

Para desenvolvedores familiarizados com a série MiniCPM, o BitCPM-CANN é a versão com três componentes da família MiniCPM, além de ser um ecossistema. Dentro da mesma comunidade do GitHub, os predecessores da família acumularam 30.000 estrelas e mais de 30 milhões de downloads no Hugging Face, e agora uma nova direção está surgindo.

Com seis vezes mais memória de vídeo, todos, desde servidores a telefones celulares, estão se beneficiando.

Comparado ao modelo de precisão total BF16, o BitCPM-CANN economiza aproximadamente 6 vezes mais memória de vídeo. Esse número é o mais diretamente perceptível para os desenvolvedores: um modelo de precisão total de 8 bits requer cerca de 16 GB de memória de vídeo, enquanto a versão ternária do BitCPM-CANN requer menos de 3 GB, podendo ser executada sem problemas em um celular. Com as restrições de MoE (Módulo de Exclusão de Energia) e alcance de ativação, espera-se que um modelo de 60 bits possa ser implementado em dispositivos terminais.

O hardware também está pronto. Os mais recentes chips topo de linha da Qualcomm, o 8850 e o 8397, suportam inferência nativa de 2 bits, e o BitCPM-CANN fornece pesos de bits baixos que podem ser inseridos diretamente.

Os fabricantes de chips estão aguardando suprimentos, e os fabricantes de modelos estão aguardando chips. Agora que ambos os lados estão preparados, não seria isso uma "corrida de mão dupla"?

Os fabricantes de smartphones têm acelerado seus investimentos em modelos de inteligência em larga escala integrados aos dispositivos. No Google I/O da semana passada, a Gemini Intelligence assumiu o controle de todos os dispositivos Android, de celulares a relógios e sistemas veiculares; a Apple também apresentará uma grande atualização para a próxima geração da Apple Intelligence na WWDC em junho.

Os esforços simultâneos dos dois principais sistemas operacionais móveis apontam para uma realidade comum: para que os dispositivos móveis executem inteligência artificial cada vez mais poderosa, a memória é o maior gargalo. Quem conseguir executar modelos mais poderosos com menos memória terá vantagem na próxima rodada da competição.

Na verdade, se considerarmos as dificuldades de crescimento que toda a indústria de IA está enfrentando atualmente, o valor aumentará ainda mais: em abril, o Goldman Sachs elevou sua previsão de aumento de preço da DRAM para o ano todo para 280%, e o Bank of America estimou que o mercado global de HBM atingiria US$ 54,6 bilhões.

O recurso mais escasso na infraestrutura de IA é a memória. Um aumento de 6 vezes na memória da GPU significa que as capacidades do modelo podem ser ampliadas várias vezes sem aumentar a memória física. Com os preços da memória em constante ascensão, isso não é apenas uma otimização; é uma necessidade.

A quantização ternária não é um compromisso de "trocar precisão por memória". Quando 97% da capacidade é mantida, isso indica que uma grande quantidade de precisão em modelos tradicionais de 16 bits pode ser redundante. Três valores são suficientes para carregar a maior parte do conhecimento em um modelo grande. Baixa profundidade de bits não é mais uma medida de economia de engenharia, mas uma nova maneira de carregar conhecimento ponderado.

Por que inteligência voltada para a parede? E por que agora?

À medida que a IA migra da nuvem para a borda, os modelos de borda estão se tornando uma capacidade essencial dos dispositivos inteligentes pessoais. Smartphones, computadores, sistemas veiculares — todos os dispositivos voltados para o usuário aguardam um modelo que seja pequeno o suficiente, poderoso o suficiente e eficiente em termos de memória o suficiente. A chave para o sucesso nessa corrida não serão as equipes que apenas criam modelos grandes, mas sim aquelas que conseguem criar modelos pequenos, leves e verdadeiramente funcionais.

Por que a Wallfacer AI está na vanguarda dos modelos de computação de borda em larga escala? A resposta para essa pergunta não está no próprio BitCPM-CANN, mas em algo que a empresa vem fazendo nos últimos anos e que parece um tanto "não convencional".

Desde sua concepção, a Wallfacer AI tem se concentrado na eficiência. Enquanto a maioria das equipes na China buscava modelos maiores, eles dedicaram muito tempo ao desenvolvimento da estrutura de treinamento subjacente, o BM-Train, para resolver o problema de "como treinar um modelo suficientemente bom com menos recursos" . Essa infraestrutura foi o ponto de partida para tudo o que se seguiu.

A avaliação de Wallfacer sobre a direção de 1,58 bits antecede o consenso da indústria. Enquanto muitas equipes ainda hesitavam quanto à viabilidade de profundidades de bits extremamente baixas, Wallfacer escolheu esse caminho, implementando com sucesso todo o processo e metodologia de treinamento em GPUs antes de migrar todo o sistema para a plataforma Ascend . Em essência, o BitCPM-CANN não se limitou a portar um modelo para um chip produzido internamente; em vez disso, integrou uma metodologia de treinamento comprovada, uma abordagem de eficiência e um sistema de engenharia à base do poder computacional nacional.

Em termos de modelos, a série MiniCPM de modelos de borda da Wallface acumulou mais de 30.000 estrelas no GitHub, e o Hugging Face foi baixado mais de 30 milhões de vezes, tornando-se a família de modelos de código aberto chinesa mais popular na área de modelos de borda de grande escala.

O BitCPM-CANN é uma extensão da família MiniCPM para quantização ternária, muito mais do que apenas um "modelo de PowerPoint" demonstrativo; é uma base de engenharia verdadeiramente reutilizável. O pipeline de treinamento por trás dele foi incorporado à infraestrutura para treinamento de baixa resolução no Ascend , permitindo que qualquer equipe que queira realizar treinamento de baixa resolução no Ascend comece na mesma plataforma.

Vale mencionar que o BitCPM-CANN também concluiu o treinamento ternário de ponta a ponta no Huawei Ascend, atingindo uma eficiência de treinamento de 95% da linha de base convencional. Isso comprova que essa metodologia não depende de uma plataforma de hardware específica e pode ser implementada com sucesso utilizando poder computacional nacional.

Em vez de esperar que o hardware se torne suficientemente poderoso para se adaptar ao modelo, precisamos tornar o modelo suficientemente inteligente para se adaptar ao hardware.

Desde o Huawei Ascend para treinamento até os chips terminais para inferência, e então para modelos de código aberto e scripts de treinamento, trata-se de um ciclo fechado totalmente nacional: framework nacional, chips nacionais, modelos nacionais e metodologia independente. O próximo passo da Wallfacer é claro: aprimorar ainda mais a taxa de retenção de capacidade do modelo, expandir a capacidade de modelos de maior escala usando a arquitetura MoE e explorar totalmente a vantagem de memória 6x da GPU na implementação. O objetivo a longo prazo é abranger todo o processo, do pré-treinamento ao alinhamento, com baixa profundidade de bits.

Desde a estrutura de treinamento subjacente BM-Train até a família de modelos de borda MiniCPM e, posteriormente, ao BitCPM-CANN, a Wallfacer AI construiu, ao longo de vários anos, um sistema completo de tecnologia de modelos de grande porte para a borda. No cenário global, competindo com a Microsoft e o PrismML, a Wallfacer AI demonstrou vantagens exclusivas por ter construído um roteiro tecnológico completo para a borda, desde a estrutura, metodologia e modelo até a adaptação ao chip.

Quando a competição em IA deixar de ser "quem tem o modelo maior" e passar a ser "quem consegue fazer a inteligência funcionar de verdade em todos os dispositivos", aqueles que controlarem o discurso sobre tecnologias de ponta estarão na posição mais vantajosa.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.