5 coisas com as quais os geradores de imagens AI ainda lutam

Geradores de imagem AI como Dall-E , Stable Diffusion , Midjourney e Bing Image Creator produzem resultados surpreendentes, mas às vezes podem ser incrivelmente frustrantes. Com prompts simples contendo apenas algumas palavras, uma IA pode produzir imagens impressionantes que parecem ser fotografias profissionais e arte convincente em vários estilos. No entanto, o mesmo prompt ocasionalmente criará alguma criatura horrível ou uma renderização hilariante e defeituosa.

Os prompts negativos podem ajudar a reduzir a probabilidade desses erros, mas a complexidade nem sempre pode salvá-lo. Mesmo os especialistas em IA lutam com criaturas disformes e cenas sobrenaturais, exigindo longas horas de solicitações de refinamento ou retoques de imagens com um editor de fotos tradicional. Por enquanto, se você olhar com atenção nas áreas certas de uma imagem, há uma boa chance de conseguir identificar se ela foi feita por uma máquina.

Salada de mão e bolas de dedos

Os desenvolvedores de IA progrediram na luta para ensinar às ferramentas de inteligência artificial como as mãos humanas devem ser, mas há muito espaço para melhorias. Se os dedos não estiverem em destaque, é fácil perder erros, mas é um problema contínuo.

Dall-E foi um dos primeiros líderes de IA, mas as mãos não são o seu forte.
Dall-E foi um dos primeiros líderes de IA, mas as mãos não são o seu forte. Dall-E solicitado por Alan Truly

Um dos primeiros e melhores geradores de imagens de IA disponíveis ao público, o Dall-E da OpenAI , criou essas imagens de pessoas de mãos dadas. À primeira vista, pode parecer bom. Em uma inspeção mais detalhada, alguns problemas se tornam aparentes. Cuidado com dedos extras, unhas estranhas e dígitos mesclados.

Apertos complicados e dedos entrelaçados são ainda mais desafiadores. Não se surpreenda se suas imagens de IA voltarem com falhas clássicas conhecidas como “salada de mãos” ou “bolas de dedos”.

As mãos entrelaçadas de Dall-E são perturbadoras.
As mãos entrelaçadas de Dall-E são perturbadoras. Dall-E solicitado por Alan Truly

Texto e escrita problemáticos

Você pode esperar que o texto seja fácil de ser gerado por um computador. Você vê evidências de palavras nas telas diariamente quando atende o telefone ou abre um navegador. Os primeiros computadores, ao contrário dos principais PCs para jogos de hoje, não podiam exibir gráficos de nenhum tipo. Tudo era texto ou números.

Leonardo AI conhece estilos, mas o texto impresso é um desafio.
Leonardo AI conhece estilos, mas o texto impresso é um desafio. Leonardo AI solicitado por Alan Truly

No entanto, exibir letras e símbolos reais como palavras impressas ou escritas é surpreendentemente complicado para um gerador de imagens AI . Pode parecer um problema fácil de resolver, mas não é. Um aplicativo não pode simplesmente sobrepor texto simples. Para ser convincente, o estilo do texto, o sombreamento, o ângulo e a perspectiva devem corresponder ao restante da cena.

No exemplo, um gerador de imagem AI relativamente novo, Leonardo AI, fez um grande esforço com um outdoor vintage para o restaurante de Jack Rabbit Slim. Depois de várias tentativas, a IA conseguiu soletrar “Jack Rabbit's”, que está bem próximo do pedido. O estilo de fotografia vintage era perfeito em cada imagem, mas as letras e palavras eram em sua maioria imperfeitas.

Leonardo AI chegou perto de acertar o texto em uma dessas renderizações.
Leonardo AI chegou perto de corrigir o texto na renderização à esquerda. Leonardo AI renderiza solicitado por Alan Truly

os olhos não tem

Bing Image Creator luta com os olhos.
Bing Image Creator solicitado por Alan Truly

Costuma-se dizer que os olhos são as janelas da alma. Confiamos tanto no contato visual que pode ser o detalhe mais crítico na criação de um retrato realista. Mas muitas ferramentas de IA têm dificuldade em renderizar olhos humanos.

O Bing Image Creator fez um trabalho decente com o plano de fundo do estúdio e exibiu uma foto de família multigeracional. No entanto, quase todas as pessoas têm olhos bizarros que parecem ter sido inseridos por alienígenas, ou talvez essas pessoas sorridentes estejam se transformando em criaturas sobrenaturais.

Dois exemplos mais próximos dos problemas oculares do Bing Image Creator.
Dois exemplos mais próximos dos problemas oculares perturbadores do Bing Image Creator. Bing Image Creator solicitado por Alan Truly

Ferramentas problemáticas

Os humanos são ótimos com ferramentas e não apenas com a variedade digital, como a IA. Dominamos rapidamente qualquer ferramenta física ao nosso alcance. Uma IA, por outro lado, luta para entender o que são e como são usados.

Midjourney entende as mãos, mas fica intrigado com as chaves.
Midjourney entende de mãos, mas fica intrigado com chaves inglesas. Isso é uma lâmpada no canto inferior esquerdo? Midjourney solicitado por Alan Truly

Midjourney é um gerador de imagens de IA que está fazendo progressos fantásticos na solução de problemas com rostos e mãos humanas. No entanto, quando solicitado a mostrar um mecânico apertando um parafuso com uma chave inglesa, a ferramenta está totalmente ausente. Unhas são adicionadas às luvas em um caso e uma lâmpada de alguma forma aparece em outro.

As tesouras são muito complicadas para o Bing Image Creator nesta renderização aproximada de cabelo sendo cortado. Eles são abertos apenas em uma imagem e nunca parecem estar no ato de cortar.

O Bing Image Creator não consegue entender a tesoura.
O Bing Image Creator não consegue entender como a tesoura funciona. Bing Image Creator solicitado por Alan Truly

Dentes de pesadelo

As renderizações de difusão estável de sorrisos às vezes têm dentes demais.
Difusão estável via Leonardo AI, solicitado por Alan Truly

Quando as pessoas sorriem e riem, isso geralmente melhora a imagem, tornando-a agradável e divertida. Quando recebe um prompt simples como dois alunos sorrindo e rindo, uma IA pode transformar isso em combustível de pesadelo com várias fileiras de dentes e outras distorções estranhas.

O Leonardo AI permite que você escolha entre vários modelos, e alguns lidam bem com os dentes. O popular modelo Stable Diffusion 2.1 precisava de ajuda para acertar os dentes. Com algumas sugestões negativas, o problema foi resolvido. Existem soluções para esses problemas de imagem de IA, mas ainda é preciso trabalhar para obter bons resultados.

Sorrisos de difusão estável se beneficiam de prompts negativos.
Sorrisos de difusão estável se beneficiam de instruções negativas para remover “dentes estranhos” e “boca distorcida”. Difusão estável via Leonardo AI, solicitado por Alan Truly

A arte da IA ​​está melhorando rapidamente

Nos primórdios da arte da IA, os resultados eram estranhos e maravilhosos, criando beleza e horror com igual abandono. Os erros estão se tornando menos perceptíveis a cada nova atualização, e muitos problemas podem ser superados com algum refinamento.

Com tantas ferramentas de IA disponíveis , é fácil experimentar outro sistema. Muitos geradores de imagem AI permitem prompts negativos ou outras opções para ajustar o algoritmo e obter melhores resultados.

Você pode precisar fazer várias tentativas para obter uma imagem utilizável, principalmente se houver foco em rostos ou mãos. Quando você quiser incluir palavras impressas ou escritas, esteja preparado para gastar tempo em um editor de imagens apagando as letras sem sentido da IA ​​e misturando o texto correto.

A boa notícia é que muitos geradores de imagens AI são gratuitos e os modelos de assinatura são relativamente baratos. Dentro de um ano, esses problemas persistentes podem ser resolvidos, permitindo que você use uma renderização de IA como uma peça de arte finalizada ouum substituto para uma fotografia .