5 coisas com as quais os geradores de imagens AI ainda lutam
Geradores de imagem AI como Dall-E , Stable Diffusion , Midjourney e Bing Image Creator produzem resultados surpreendentes, mas às vezes podem ser incrivelmente frustrantes. Com prompts simples contendo apenas algumas palavras, uma IA pode produzir imagens impressionantes que parecem ser fotografias profissionais e arte convincente em vários estilos. No entanto, o mesmo prompt ocasionalmente criará alguma criatura horrível ou uma renderização hilariante e defeituosa.
Os prompts negativos podem ajudar a reduzir a probabilidade desses erros, mas a complexidade nem sempre pode salvá-lo. Mesmo os especialistas em IA lutam com criaturas disformes e cenas sobrenaturais, exigindo longas horas de solicitações de refinamento ou retoques de imagens com um editor de fotos tradicional. Por enquanto, se você olhar com atenção nas áreas certas de uma imagem, há uma boa chance de conseguir identificar se ela foi feita por uma máquina.
Salada de mão e bolas de dedos
Os desenvolvedores de IA progrediram na luta para ensinar às ferramentas de inteligência artificial como as mãos humanas devem ser, mas há muito espaço para melhorias. Se os dedos não estiverem em destaque, é fácil perder erros, mas é um problema contínuo.
Um dos primeiros e melhores geradores de imagens de IA disponíveis ao público, o Dall-E da OpenAI , criou essas imagens de pessoas de mãos dadas. À primeira vista, pode parecer bom. Em uma inspeção mais detalhada, alguns problemas se tornam aparentes. Cuidado com dedos extras, unhas estranhas e dígitos mesclados.
Apertos complicados e dedos entrelaçados são ainda mais desafiadores. Não se surpreenda se suas imagens de IA voltarem com falhas clássicas conhecidas como “salada de mãos” ou “bolas de dedos”.
Texto e escrita problemáticos
Você pode esperar que o texto seja fácil de ser gerado por um computador. Você vê evidências de palavras nas telas diariamente quando atende o telefone ou abre um navegador. Os primeiros computadores, ao contrário dos principais PCs para jogos de hoje, não podiam exibir gráficos de nenhum tipo. Tudo era texto ou números.
No entanto, exibir letras e símbolos reais como palavras impressas ou escritas é surpreendentemente complicado para um gerador de imagens AI . Pode parecer um problema fácil de resolver, mas não é. Um aplicativo não pode simplesmente sobrepor texto simples. Para ser convincente, o estilo do texto, o sombreamento, o ângulo e a perspectiva devem corresponder ao restante da cena.
No exemplo, um gerador de imagem AI relativamente novo, Leonardo AI, fez um grande esforço com um outdoor vintage para o restaurante de Jack Rabbit Slim. Depois de várias tentativas, a IA conseguiu soletrar “Jack Rabbit's”, que está bem próximo do pedido. O estilo de fotografia vintage era perfeito em cada imagem, mas as letras e palavras eram em sua maioria imperfeitas.
os olhos não tem
Costuma-se dizer que os olhos são as janelas da alma. Confiamos tanto no contato visual que pode ser o detalhe mais crítico na criação de um retrato realista. Mas muitas ferramentas de IA têm dificuldade em renderizar olhos humanos.
O Bing Image Creator fez um trabalho decente com o plano de fundo do estúdio e exibiu uma foto de família multigeracional. No entanto, quase todas as pessoas têm olhos bizarros que parecem ter sido inseridos por alienígenas, ou talvez essas pessoas sorridentes estejam se transformando em criaturas sobrenaturais.
Ferramentas problemáticas
Os humanos são ótimos com ferramentas e não apenas com a variedade digital, como a IA. Dominamos rapidamente qualquer ferramenta física ao nosso alcance. Uma IA, por outro lado, luta para entender o que são e como são usados.
Midjourney é um gerador de imagens de IA que está fazendo progressos fantásticos na solução de problemas com rostos e mãos humanas. No entanto, quando solicitado a mostrar um mecânico apertando um parafuso com uma chave inglesa, a ferramenta está totalmente ausente. Unhas são adicionadas às luvas em um caso e uma lâmpada de alguma forma aparece em outro.
As tesouras são muito complicadas para o Bing Image Creator nesta renderização aproximada de cabelo sendo cortado. Eles são abertos apenas em uma imagem e nunca parecem estar no ato de cortar.
Dentes de pesadelo
Quando as pessoas sorriem e riem, isso geralmente melhora a imagem, tornando-a agradável e divertida. Quando recebe um prompt simples como dois alunos sorrindo e rindo, uma IA pode transformar isso em combustível de pesadelo com várias fileiras de dentes e outras distorções estranhas.
O Leonardo AI permite que você escolha entre vários modelos, e alguns lidam bem com os dentes. O popular modelo Stable Diffusion 2.1 precisava de ajuda para acertar os dentes. Com algumas sugestões negativas, o problema foi resolvido. Existem soluções para esses problemas de imagem de IA, mas ainda é preciso trabalhar para obter bons resultados.
A arte da IA está melhorando rapidamente
Nos primórdios da arte da IA, os resultados eram estranhos e maravilhosos, criando beleza e horror com igual abandono. Os erros estão se tornando menos perceptíveis a cada nova atualização, e muitos problemas podem ser superados com algum refinamento.
Com tantas ferramentas de IA disponíveis , é fácil experimentar outro sistema. Muitos geradores de imagem AI permitem prompts negativos ou outras opções para ajustar o algoritmo e obter melhores resultados.
Você pode precisar fazer várias tentativas para obter uma imagem utilizável, principalmente se houver foco em rostos ou mãos. Quando você quiser incluir palavras impressas ou escritas, esteja preparado para gastar tempo em um editor de imagens apagando as letras sem sentido da IA e misturando o texto correto.
A boa notícia é que muitos geradores de imagens AI são gratuitos e os modelos de assinatura são relativamente baratos. Dentro de um ano, esses problemas persistentes podem ser resolvidos, permitindo que você use uma renderização de IA como uma peça de arte finalizada ouum substituto para uma fotografia .