Um estudo científico provocou uma queda acentuada nas ações de fabricantes de chips de memória; será que este é o “momento DeepSeek” do Google?

Quem assistiu à série da HBO "Silicon Valley" certamente se lembrará da empresa fictícia chamada Pied Piper.

Na série, o protagonista Richard Hendricks inventa um "algoritmo de compressão intermediário" capaz de processar arquivos sem perdas com taxas de compressão extremamente altas, chegando até mesmo a reescrever as regras de toda a internet como consequência.

Na época, todos pensávamos que era apenas uma ideia maluca de um roteirista. Isso até o Google Research lançar oficialmente um algoritmo de compressão de IA chamado TurboQuant.

O que era originalmente uma notícia técnica árida viralizou nas redes sociais, alcançando 12,8 milhões de visualizações em menos de 24 horas. O motivo é simples: o design da tecnologia é praticamente uma cópia fiel do Pied Piper.

Sem comprometer o desempenho do modelo, a "memória de trabalho" da IA ​​é comprimida em pelo menos 6 vezes.

A reação do mercado também foi bastante realista, com o setor de chips de memória dos EUA sofrendo uma onda de vendas durante a sessão, e as ações de empresas líderes como Micron Technology e SanDisk fechando em baixa.

Isso levanta a seguinte questão: por que uma inovação algorítmica puramente baseada em software faria com que os fornecedores de hardware entrassem em pânico primeiro, e que tipo de trunfo o Google lançou na atual mesa da IA?

O modelo grande preso no "buraco negro da memória"

Deixando de lado os memes da internet, o surgimento da TurboQuant não é apenas por diversão, mas também para resolver um gargalo real que há muito tempo afeta toda a indústria de IA.

Como todos sabemos, os modelos de IA atuais estão ficando cada vez maiores, e seu consumo de memória da GPU é praticamente insaciável. Especialmente durante a fase de inferência (ou seja, quando você está interagindo com a IA), ela precisa armazenar informações contextuais, e essa parte dos dados é chamada de cache KV (cache de chave-valor).

Para cada palavra processada, o modelo a converte em um vetor de alta dimensão e a armazena na memória da GPU. Quanto mais longa a conversa, mais rápido esse "memorando digital" se expande, preenchendo rapidamente a memória da GPU. É por isso que seu assistente de IA pode "ficar menos inteligente" ou até mesmo relatar erros após uma longa conversa — sua capacidade cognitiva é insuficiente.

Ainda mais desafiador é o dilema que os métodos de compressão tradicionais sempre enfrentaram: ao comprimir dados, é necessário armazenar "constantes de quantização" adicionais para informar ao modelo como descomprimi-los. Esses metadados podem parecer pequenos, mas, quando somados, podem anular completamente os benefícios da compressão.

O TurboQuant do Google foi criado com base nisso.

Os pesquisadores desenvolveram uma solução matemática em duas etapas. A primeira etapa, chamada PolarQuant, transforma o vetor de dados do sistema de coordenadas cartesianas tradicional para o sistema de coordenadas polares, decompondo-o em "raio" (que representa a magnitude) e "ângulo" (que representa a direção).

A beleza dessa transformação geométrica reside no fato de que a distribuição dos ângulos se torna altamente previsível após a transformação, e o modelo não precisa mais armazenar constantes de normalização dispendiosas separadamente para cada bloco de dados. Ele pode ser mapeado diretamente em uma grade circular fixa sem sobrecarga.

A segunda etapa é chamada de QJL (Transformação de Johnson-Lindenstrauss por Quantização), que atua como um corretor matemático de erros. Ela projeta o erro residual após a compressão em um espaço de baixa dimensão e, em seguida, comprime cada valor de erro em um bit de sinal (+1 ou -1).

Esse design garante que, quando a IA calcula a "pontuação de atenção", o resultado da versão comprimida seja estatisticamente idêntico ao original de alta precisão. A pontuação de atenção é a etapa fundamental para o modelo determinar quais palavras no contexto são mais importantes.

Se antes a tomada de notas por IA se resumia a "copiar palavra por palavra", então o TurboQuant é como inventar um conjunto de "símbolos taquigráficos minimalistas": ele registra tudo o que precisa ser registrado, mas ocupa seis vezes menos espaço.

Essa abordagem possui outra característica particularmente útil para empresas: não há necessidade de treinar o modelo novamente. Seu modelo de código aberto existente ou seu próprio modelo otimizado pode ser aplicado diretamente ao TurboQuant e executado sem conjuntos de dados adicionais ou a necessidade de passar pelo processo de treinamento novamente.

Falar é fácil. No teste de benchmark "agulha no palheiro", o TurboQuant alcançou uma taxa de recall perfeita no Llama-3.1-8B e no Mistral-7B, enquanto comprimia o uso de memória da GPU do cache KV em pelo menos 6 vezes.

No conjunto de testes abrangentes LongBench (que engloba perguntas e respostas, geração de código e sumarização de artigos longos), o TurboQuant iguala e até supera o método de referência mais forte anterior, o KIVI.

Os dados mais concretos vêm de testes práticos com a GPU NVIDIA H100: o TurboQuant com precisão de 4 bits é 8 vezes mais rápido no cálculo da lógica de atenção do que a solução não comprimida de 32 bits.

Em 24 horas após a publicação do artigo, a comunidade já havia começado a verificá-lo.

@Prince_Canuma, um desenvolvedor renomado do framework MLX para Apple Silicon, adaptou o algoritmo para esse framework. Testando o modelo Qwen3.5-35B, que abrange comprimentos de contexto de 8500 a 64000 tokens, ele alcançou 100% de correspondência exata para cada nível de quantização. Ele também descobriu que o TurboQuant de 2,5 bits pode comprimir o cache KV em quase 5 vezes sem perda de precisão.

O "momento DeepSeek" do Google?

O CEO da Cloudflare, Matthew Prince, chegou a chamar o lançamento do TurboQuant de "o momento DeepSeek do Google".

Retrocedendo um ano, a DeepSeek treinou um modelo com desempenho surpreendente a um custo extremamente baixo, destruindo completamente o mito, difundido pelos gigantes do Vale do Silício, de que altos custos eram necessários para treinar IA de alto desempenho. Esse choque também fez com que toda a indústria percebesse que ter um modelo grande não é suficiente; ele também precisa ser capaz de executar e executar rapidamente.

O TurboQuant é um produto desse contexto. Se essa tecnologia puder migrar do laboratório para aplicações em larga escala, trará valor comercial visível. Teoricamente, o custo de inferência do mesmo H100 pode ser reduzido em mais de 50%; o limite para implantação em borda também será bastante reduzido. Modelos complexos que antes exigiam precisão de 32 bits agora podem ser executados em um Mac Mini ou em um servidor local sem qualquer perda de qualidade.

A reação do mercado é reveladora. No dia em que a TurboQuant divulgou seu relatório, o setor de chips de memória dos EUA sofreu forte pressão vendedora durante o pregão. Empresas líderes como SanDisk e Micron Technology viram suas ações despencarem, e o índice relacionado à cadeia de suprimentos de chips de memória e hardware caiu mais de 2% em um único dia.

O motivo é que, se as gigantes da IA ​​conseguirem usar um algoritmo puramente de software para reduzir os requisitos de memória da GPU em cinco sextos, aqueles que apostaram na continuidade do consumo de memória de GPU de alta largura de banda pela IA terão que reavaliar suas posições.

Essa reação defensiva também indica que uma das principais lógicas que sustentaram a valorização das ações de armazenamento nos últimos dois anos foi a de que a demanda por memória de vídeo para inteligência artificial só aumentaria. A TurboQuant, pela primeira vez, contestou formalmente essa premissa em nível técnico.

Claro, embora pareça maravilhoso, ainda preciso jogar água fria nisso.

Por um lado, historicamente, toda melhoria na eficiência muitas vezes levou a um aumento na demanda agregada, um fenômeno conhecido em economia como o "Paradoxo de Jevens". Custos mais baixos de IA podem significar mais pessoas usando-a com mais frequência, consumindo, em última análise, mais poder computacional. Portanto, resta saber se isso resolverá a atual "crise de memória".

Por outro lado, o TurboQuant ainda está em fase de laboratório. Segundo as últimas notícias, o Google planeja demonstrar oficialmente essa tecnologia na conferência ICLR 2026 no próximo mês, e ela também será apresentada em outra importante conferência, a AISTATS 2026.

No entanto, a jornada do artigo acadêmico à implementação em larga escala na produção é repleta de desafios, incluindo adaptação de engenharia, testes de compatibilidade de diferentes arquiteturas e verificação de desempenho em cenários reais. Cada etapa é árdua.

▲Link para o artigo: https://arxiv.org/abs/2504.19874

Alguns internautas criticaram diretamente o artigo, afirmando que a pesquisa subjacente já havia sido publicada em abril do ano passado e que não se tratava de uma notícia repentina. O atual fervor da opinião pública é, em certa medida, uma reação a notícias antigas.

Na opinião dele, se as ações de empresas de armazenamento despencarem por causa de um artigo sobre algoritmos, isso expõe quantas pessoas no mercado não entendem os limites dessa questão, e ele comparou essa reação a "quando a Toyota lança um novo motor híbrido, os preços do petróleo deveriam despencar".

Mais importante ainda, o TurboQuant resolve o gargalo de memória apenas durante a fase de inferência; o consumo de memória durante a fase de treinamento continua sendo um desafio significativo. Treinar um modelo de alto tráfego do zero ainda exige quantidades astronômicas de poder computacional.

No filme *Silicon Valley*, o algoritmo de compressão da Pied Piper revolucionou toda a internet. Na realidade, porém, as ambições da TurboQuant são menos grandiosas; seu objetivo é simplesmente permitir que a IA se lembre de mais coisas, compute mais rápido e funcione de forma mais barata dentro de um espaço físico limitado.

A realidade não é um roteiro de Hollywood. Não precisamos mudar completamente a internet. Ser capaz de ter conversas mais longas com IA sem que elas sejam interrompidas no meio já é algo que muitas pessoas desejam.

Segue em anexo o blog técnico oficial da TurboQuant:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.