Testei o futuro da geração de imagens de IA. É incrivelmente rápido.

Um dos principais problemas da IA ​​é a notoriamente alta demanda de energia e computação, especialmente para tarefas como geração de mídia. Em telefones celulares, quando se trata de execução nativa, apenas alguns dispositivos caros com silício poderoso podem executar o conjunto de recursos. Mesmo quando implementado em escala na nuvem, é caro .

A Nvidia pode ter abordado esse desafio discretamente em parceria com o pessoal do Instituto de Tecnologia de Massachusetts e da Universidade de Tsinghua. A equipe criou uma ferramenta híbrida de geração de imagens de IA chamada HART (transformador autorregressivo híbrido) que combina essencialmente duas das técnicas de criação de imagens de IA mais amplamente utilizadas. O resultado é uma ferramenta extremamente rápida com requisitos de computação drasticamente menores.

Só para vocês terem uma ideia de quão rápido é, pedi para criar a imagem de um papagaio tocando baixo. Ele retornou com a seguinte imagem em apenas um segundo. Eu mal conseguia acompanhar a barra de progresso. Quando pressionei o mesmo prompt antes do modelo Imagen 3 do Google no Gemini , demorou cerca de 9 a 10 segundos em uma conexão de Internet de 200 Mbps.

Imagem de um papagaio gerada pelo HART.
MIT/HART

Um grande avanço

Quando as imagens de IA começaram a fazer ondas, a técnica de difusão estava por trás de tudo, alimentando produtos como o gerador de imagens Dall-E da OpenAI , o Imagen do Google e o Stable Diffusion . Este método pode produzir imagens com um nível de detalhe extremamente alto. No entanto, é uma abordagem de várias etapas para a criação de imagens de IA e, como resultado, é lenta e dispendiosa em termos computacionais.

A segunda abordagem que ganhou popularidade recentemente são os modelos auto-regressivos, que funcionam essencialmente da mesma forma que os chatbots e geram imagens usando uma técnica de previsão de pixels. É mais rápido, mas também um método mais sujeito a erros de criação de imagens usando IA.

A equipe do MIT fundiu os dois métodos em um único pacote chamado HART. Ele se baseia em um modelo de autorregressão para prever ativos de imagem compactados como um token discreto, enquanto um pequeno modelo de difusão cuida do resto para compensar a perda de qualidade. A abordagem global reduz o número de etapas envolvidas de mais de duas dúzias para oito etapas.

Os especialistas por trás do HART afirmam que ele pode “gerar imagens que correspondem ou excedem a qualidade dos modelos de difusão de última geração, mas fazem isso cerca de nove vezes mais rápido”. O HART combina um modelo autoregressivo com uma faixa de 700 milhões de parâmetros e um pequeno modelo de difusão que pode lidar com 37 milhões de parâmetros.

Evolução do treinamento de imagem para HART.
MIT/HART

Resolvendo a crise da computação de custos

Curiosamente, esta ferramenta híbrida foi capaz de criar imagens que correspondiam à qualidade dos modelos de primeira linha com capacidade de 2 bilhões de parâmetros. Mais importante ainda, o HART conseguiu atingir esse marco com uma taxa de geração de imagens nove vezes mais rápida, exigindo 31% menos recursos de computação.

De acordo com a equipe, a abordagem de baixa computação permite que o HART seja executado localmente em telefones e laptops, o que é uma grande vitória. Até agora, os produtos mais populares do mercado de massa, como ChatGPT e Gemini, exigem uma conexão à Internet para geração de imagens, pois a computação ocorre nos servidores em nuvem.

No vídeo de teste, a equipe o mostrou rodando nativamente em um laptop MSI com processador Intel da série Core e placa gráfica Nvidia GeForce RTX. Essa é uma combinação que você pode encontrar na maioria dos laptops para jogos por aí, sem gastar uma fortuna.

Análise comparativa de imagens de IA.
MIT/HART

O HART é capaz de produzir imagens com proporção de aspecto 1:1 com uma resolução respeitável de 1024 x 1024 pixels. O nível de detalhe nessas imagens é impressionante, assim como a variação estilística e a precisão do cenário. Durante os testes, a equipe observou que a ferramenta híbrida de IA era de três a seis vezes mais rápida e oferecia um rendimento sete vezes maior.

O potencial futuro é estimulante, especialmente quando se integram as capacidades de imagem do HART com modelos de linguagem. “No futuro, será possível interagir com um modelo generativo de linguagem de visão unificada, talvez pedindo-lhe que mostre as etapas intermediárias necessárias para montar uma peça de mobiliário”, diz a equipe do MIT.

Eles já estão explorando essa ideia e até planejam testar a abordagem HART na geração de áudio e vídeo . Você pode experimentá-lo no painel da web do MIT.

Algumas arestas

Antes de mergulharmos no debate sobre qualidade, tenha em mente que o HART é um projeto de pesquisa que ainda está em seus estágios iniciais. Do lado técnico, existem alguns incômodos destacados pela equipe, como sobrecargas durante o processo de inferência e treinamento.

Falhas do HART.
HART/Nadeem Sarwar

Os desafios podem ser corrigidos ou ignorados, porque são menores no esquema geral das coisas aqui. Além disso, considerando os enormes benefícios que o HART oferece em termos de eficiência computacional, velocidade e latência, eles podem simplesmente persistir sem levar a quaisquer problemas importantes de desempenho.

Em meu breve período de teste imediato do HART, fiquei surpreso com o ritmo de geração de imagens. Quase não encontrei um cenário em que a ferramenta web gratuita levasse mais de dois segundos para criar uma imagem. Mesmo com instruções que abrangem três parágrafos (aproximadamente mais de 200 palavras), o HART foi capaz de criar imagens que aderem perfeitamente à descrição.

Amostra de imagens de IA geradas com HART.
HART/Nadeem Sarwar

Além da precisão descritiva, havia muitos detalhes nas imagens. No entanto, o HART sofre com as falhas típicas de uma ferramenta geradora de imagens de IA. Ele luta com dígitos, representações básicas como comer alimentos, consistência de personagem e falha na captura de perspectiva.

O fotorrealismo no contexto humano é uma área onde notei falhas gritantes. Em algumas ocasiões, simplesmente errou no conceito de objetos básicos, como confundir um anel com um colar. Mas, no geral, esses erros eram muito poucos e fundamentalmente esperados. Um grupo saudável de ferramentas de IA ainda não consegue acertar, apesar de já estar disponível há algum tempo.

No geral, estou particularmente entusiasmado com o imenso potencial do HART. Seria interessante ver se o MIT e a Nvidia criariam um produto a partir disso ou simplesmente adotariam a abordagem híbrida de geração de imagens de IA em um produto existente. De qualquer forma, é um vislumbre de um futuro muito promissor.