O DALL-E 3 pode levar a geração de imagens AI para o próximo nível

DALL-E 2DALL-E 2 Imagem no OpenAI.
OpenAI

A OpenAI pode estar preparando a próxima versão de seu gerador de texto para imagem DALL-E AI com uma série de testes alfa que agora vazaram para o público, de acordo com o Decoder .

Um vazador anônimo no Discord compartilhou detalhes sobre sua experiência, tendo acesso ao próximo modelo de imagem OpenAI chamado DALL-E 3. Ele apareceu pela primeira vez em maio, dizendo ao canal Discord baseado em interesses que fazia parte de um teste alfa para OpenAI, experimentando um novo modelo de imagem AI. Ele compartilhou as imagens que gerou na época.

A versão de teste alfa de maio tinha a capacidade de gerar imagens de várias proporções dentro do modelo de imagem. O YouTuber, MattVidPro AI, apresentou várias das imagens que foram geradas em uma proporção de 16:9. Esta versão também mostrou a proeza do modelo para produção de texto de alta qualidade, que continua a ser um ponto problemático para modelos rivais, mesmo para geradores de ponta, como Stable Diffusion e Midjourney .

Alguns exemplos exibiam imagens, como texto fundido em uma parede de tijolos, um sinal de néon com palavras, um outdoor em uma cidade, uma decoração de bolo e um nome gravado em uma montanha. O modelo sustenta que DALL-E é bom em gerar pessoas. Uma dessas imagens exibia uma mulher comendo espaguete em uma festa do ponto de vista do olho de peixe.

O vazador voltou ao canal Discord em meados de julho com mais detalhes e novas imagens. Ele alegou fazer parte de uma versão de teste “alfa fechada” que incluía aproximadamente 400 indivíduos. Ele acrescentou que foi convidado para o teste por e-mail e também foi incluído no teste do DALL-E e DALL-E 2 originais. Foi isso que levou à conclusão de que o teste alfa pode ser para DALL-E 3, embora não tenha sido confirmado.

Imagem da versão de teste alfa do OpenAI Dall-E 3. Imagem da versão de teste alfa do OpenAI Dall-E 3.

O modelo foi atualizado consideravelmente entre maio e julho. O vazador demonstrou isso compartilhando imagens geradas com base no mesmo prompt, mostrando o quão poderoso o DALL-E 3 se tornou ao longo do tempo. O prompt diz uma pintura de um bobo da corte rosa dando mais cinco para um panda durante uma competição de ciclismo. As bicicletas são feitas de queijo e o chão é muito lamacento. Eles estão dirigindo em uma floresta nebulosa. O panda está com raiva.

O alfa de maio produz a cena geral que atinge a maioria dos pontos do prompt. Há uma pequena distorção na conexão das mãos e as rodas das bicicletas são amarelas, em vez de serem feitas de queijo. No entanto, o alfa de julho é muito mais detalhado, com o bobo da corte rosa e o panda claramente cumprimentando e as rodas de bicicleta feitas de queijo em várias gerações.

Enquanto isso, em Midjourney, o bobo da corte está desaparecido, os pandas estão em motocicletas em vez de bicicletas. Existem estradas, em vez de lama. Os pandas estão felizes em vez de zangados.

Há uma série de exemplos de imagens alfa DALL-E de 3 de julho que mostram o potencial do modelo. No entanto, com o teste alfa sem censura, o vazador observou que também tem o potencial de gerar cenas de “violência e nudez ou material protegido por direitos autorais, como logotipos de empresas”.

Alguns exemplos incluem uma garota de anime sangrenta, um personagem de Game of Thrones , uma capa de Grand Theft Auto V , um zumbi Jesus comendo um sanduíche do Subway, também sugerindo sangue leve e Shrek sendo desenterrado de uma escavação arqueológica, entre outros.

MattVidPro AI observou que o modelo de imagem gera imagens como se devessem estar em um estilo específico.

O DALL-E 2 foi lançado em abril de 2022, mas foi fortemente regulamentado com uma lista de espera devido à sua popularidade e preocupações com ética e segurança. O gerador de imagens AI tornou-se acessível ao público em setembro de 2022.