Os pesquisadores acabaram de resolver o maior enigma da IA

A lâmpada Harth Sleep-Shift ao lado de uma cama.
Harth/Amazônia

Os grandes modelos de linguagem que alimentam os chatbots de hoje, como ChatGPT, Gemini e Claude, são sistemas de IA generativos imensamente poderosos e, ainda por cima, imensamente ávidos de poder.

Aparentemente, eles não precisam ser assim, já que uma pesquisa recente da Universidade da Califórnia, em Santa Cruz, mostrou que LLMs modernos que executam bilhões de parâmetros podem operar com apenas 13 watts de potência sem perda de desempenho. Isso é aproximadamente o consumo de uma lâmpada de 100 W e uma melhoria de 50 vezes em relação aos 700 W que uma GPU Nvidia H100 consome.

“Obtivemos o mesmo desempenho a um custo muito menor – tudo o que tivemos que fazer foi mudar fundamentalmente a forma como as redes neurais funcionam”, disse o autor principal do artigo, Jason Eshraghian. “Então demos um passo adiante e construímos hardware personalizado.” Eles fizeram isso eliminando a matriz de multiplicação da rede neural.

A multiplicação de matrizes é a base dos algoritmos que alimentam os LLMs atuais. As palavras são representadas como números e depois organizadas em matrizes onde são ponderadas e multiplicadas umas contra as outras para produzir resultados linguísticos dependendo da importância de certas palavras e da sua relação com outras palavras na frase ou parágrafo.

Essas matrizes são armazenadas em centenas de GPUs fisicamente separadas e obtidas a cada nova consulta ou operação. O processo de transporte de dados que precisa ser multiplicado entre a infinidade de matrizes custa uma quantidade significativa de energia elétrica e, portanto, de dinheiro.

Para contornar esse problema, a equipe da UC Santa Cruz forçou os números dentro das matrizes a um estado ternário – cada número carregava um valor negativo, zero ou positivo. Isso permite que os processadores simplesmente somem os números em vez de multiplicá-los, um ajuste que não faz diferença para o algoritmo, mas economiza uma enorme quantidade de custos em termos de hardware. Para manter o desempenho apesar da redução no número de operações, a equipe introduziu computação baseada em tempo no sistema, criando efetivamente uma “memória” para a rede, aumentando a velocidade com que ela poderia processar as operações diminuídas.

“Do ponto de vista do projetista de circuitos, você não precisa da sobrecarga da multiplicação, que acarreta muitos custos”, disse Eshraghian. E embora a equipe tenha implementado sua nova rede em hardware FGPA personalizado, eles continuam confiantes de que muitas das melhorias de eficiência podem ser adaptadas aos modelos existentes usando software de código aberto e pequenos ajustes de hardware. Mesmo em GPUs padrão, a equipe observou uma redução de 10 vezes no consumo de memória e melhorou a velocidade operacional em 25%.

Com fabricantes de chips como Nvidia e AMD expandindo continuamente os limites do desempenho do processador GPU, as demandas elétricas (e seus custos financeiros associados) para os data centers que abrigam esses sistemas dispararam nos últimos anos. Com o aumento do poder de computação, ocorre um aumento proporcional na quantidade de calor residual produzido pelos chips – calor residual que agora requer sistemas de refrigeração líquida com uso intensivo de recursos para ser totalmente dissipado.

O CEO da Arm, Rene Haas, alertou o The Register em abril que os data centers de IA poderiam consumir até 20-25% de toda a produção elétrica dos EUA até o final da década se medidas corretivas não forem tomadas, e rapidamente.