Depois de experimentar a combinação DALL·E 3 + ChatGPT, senti a felicidade do Party A

outubro 24, 2023 gurinho

"O astronauta flutuando no espaço estava deitado nas nuvens, e as nuvens se transformaram em uma poltrona confortável com um controle remoto em forma de nuvem no apoio de braço. O astronauta acenou para a câmera e, sob seus pés, a terra se tornou um redemoinho hipnotizante de luz."

Talvez você tenha visto tal fantasia em seus sonhos, mas se quiser realizá-la, provavelmente levará N séculos. Mas antes que esse dia chegue, você pode primeiro usar o DALL·E 3 "Dream Come True" real".

DALL·E 3 não é uma ferramenta desconhecida, mas ainda preciso explicá-la para quem não a conhece. DALL·E 3 é um gerador de imagens de IA. Você pode pensar nele como a versão OpenAI do Midjourney.

Em setembro, a OpenAI anunciou que o DALL・E 3 será integrado ao ChatGPT, o que pode ser considerado a fusão de modelos mais poderosa em seus respectivos campos. Mais importante ainda, o DALL・E 3 é construído nativamente no ChatGPT, sem a necessidade de instruções detalhadas. Você pode gerar imagens diretamente no ChatGPT.

Esta manhã, a OpenAI anunciou oficialmente que o DALL·E 3 agora está aberto a todos os usuários ChatGPT Plus e Enterprise. Uma dica, se você não quer gastar dinheiro, você também pode usar o novo Bing da Microsoft para jogar DALL·E 3.

A única coisa que você não consegue pensar é que você não consegue desenhar sem DALL·E 3

Então, qual é o efeito fotogerador do DALL·E 3? A OpenAI listou três exemplos icônicos em seu blog oficial, envolvendo projetos científicos, design de sites, design de logotipos corporativos e muitos outros cenários.

Por exemplo, se você precisar demonstrar nuvens cirros em um relatório de aula, você pode pedir ao DALL·E 3 para gerar imagens de nuvens cirros suficientemente detalhadas.

Ou se você é um designer de sites e ainda está pensando em web design, também pode usar o DALL·E 3 para estimular mais inspiração.

Quanto à terceira cena, é um design de logotipo corporativo comum na vida cotidiana, basta inserir o prompt (palavra de prompt) e o plano de design “coelho + café” será rapidamente apresentado à sua frente.

A julgar pelas imagens finais fornecidas pelo oficial, os detalhes das imagens são bastante completos, os estilos dos quatro planos de design podem ser considerados relativamente óbvios e o nível geral é bastante satisfatório.

Claro, esta é apenas a imagem finalizada fornecida no site oficial, e não descarta que tenha sido "embelezada". Portanto, com esta pergunta em mente, também seguimos as palavras oficiais e as inserimos para ver o real efeito?

O efeito final real não é muito diferente da imagem oficial, mas também há um pequeno "Bug". Por exemplo, no segundo exemplo, se você apenas inserir a palavra do prompt, o resultado final será texto. Isso me fez pensar que Não ajustei a interface do DALL·E.3, claro, não é um grande problema, é apenas um passo a mais para confirmar novamente.

A deslumbrante "Galeria" exibe uma variedade de imagens geradas, quadrinhos, pinturas de pixel, pinturas a óleo e todos os tipos de estilos. OpenAI parece querer dizer aos usuários por meio da "Galeria" que só você não consegue pensar nisso, existe não DALL·E 3 Não consegue “empatar”.

Pintar pode ser feito, mas o segredo é saber se é bom ou não.Por exemplo, tentei pedir a ele que desenhasse um jogo de xadrez com Li Bai vestindo roupas brancas e Du Fu vestindo roupas pretas.

"Parar de gerar" durou um pouco e rendeu quatro fotos ridículas. Na primeira foto, não só a cor das roupas estava errada, mas o mais interessante é que Li Bai e Du Fu se tornaram amigos internacionais, e o xadrez que jogavam ainda era xadrez Obviamente, o DALL·E 3 precisa ser fortalecido na compreensão do contexto chinês.

A tensão do jogo na segunda foto é bastante alta, mas não perde os problemas que a foto anterior teve, já os problemas da terceira e quarta fotos também são muito parecidos.

É claro que, para geradores de imagens de IA, o potencial está nos resultados após o treinamento. Por exemplo, quando tentei substituir a primeira foto por Go e roupas e chapéus, o efeito final ficou assim!

À primeira vista não parece haver um grande problema, mas depois de olhar mais de perto o tabuleiro de xadrez, podemos facilmente tirar uma conclusão: Li Bai e Du Fu transformaram Go em um “quebra-cabeça”?

1. Quando Li Bai estava jogando xadrez, ele ficou com tanta raiva que derrubou o tabuleiro de xadrez.
2. Du Fu ficou com raiva e deu um soco em Li Bai
3. Finalmente, Li Bai e Du Fu apertaram as mãos e conversaram, e continuaram a jogar xadrez.

Durante o jogo é normal haver algum atrito, então pedi ao DALL·E 3 para gerar um diagrama de corrente de acordo com os requisitos abaixo.

Em dez, que pontuação você acha que pode dar a essas três fotos?

Desde o lançamento completo até o presente, DALL·E 3 também foi usado com vários truques sob o desenvolvimento de poderosos internautas. Se você é um jogador de Gundam, pode deixar DALL·E 3 se tornar um designer, projetar os desenhos de Gundam mais legais para você, exibir várias peças em uma lista e depois usar a impressão 3D para imprimi-las.

No entanto, deve-se notar que os detalhes detalhados dos desenhos de Gundam podem parecer esmagadores, mas na verdade, ocasionalmente existem algumas peças extras.

Ou talvez o “duelo de gaiola” entre Zuckerberg e Musk ainda não tenha acontecido, e a conversão entre a porta C e a porta Lightning também tenha causado muita polêmica, então por que não deixar a porta Lightning e a porta C terem um maravilhoso "Duelo na gaiola"? E "Duelo"?

Não há necessidade de palavras imediatas, é a IA que está trabalhando para você

Além do impulso completo do DALL·E 3, a OpenAI também revelou os detalhes técnicos específicos por trás do DALL·E 3 ao mundo exterior através de um artigo.

Para facilitar o seu entendimento, utilizaremos um exemplo simples para explicar todo o processo técnico após a retirada dos casulos deste papel.

Primeiro, a OpenAI coletou um grande número de imagens e descrições de texto correspondentes como dados de treinamento. Por exemplo, se a imagem for um gato, a descrição correspondente da imagem será um gato laranja sentado em uma cadeira.

Mas a descrição de “um gato laranja sentado numa cadeira” é relativamente simples e carece de detalhes específicos, nem menciona a raça do gato, quais são as suas características físicas e como é o ambiente que o rodeia.

Para obter descrições mais ricas, OpenAI treinou um modelo de geração de descrição de imagem AI, ou seja, dada a mesma foto deste modelo, pode gerar uma descrição mais complexa:

Por exemplo, "um gato laranja sentado em uma cadeira" se tornaria "um gato boneco de pano de pêlo curto enrolado no pufe de seu dono, usando um laço azul no pescoço, com orelhas eretas e uma expressão cautelosa. O sol brilha através da janela e lança um raio de sol no chão."

Da mesma forma, com este modelo de descrição, OpenAI pode utilizá-lo para gerar novas descrições detalhadas para cada imagem nos dados de treinamento. Então, por sua vez, o modelo é treinado com base nessas novas descrições com detalhes ricos e assim por diante.

Durante o processo de treinamento, os pesquisadores também aumentaram gradualmente a proporção de descrições sintéticas de IA usadas para testar o impacto no desempenho do modelo.Os resultados mostraram que o uso de descrições sintéticas detalhadas (ou seja, as descrições mais complexas mencionadas acima) pode permitir que o modelo gere A qualidade da imagem é superior e mais adequada para inserir texto.

Após repetidos testes, os pesquisadores descobriram que o DALL·E 3 usa uma combinação de 95% de descrição sintética de IA e 5% de descrição real para obter os melhores resultados.

Além disso, em resposta ao impacto negativo do gerador de imagens de IA, a OpenAI também colocou várias algemas no DALL·E 3 para limitar sua geração de conteúdo como violência, adulto ou ódio, incluindo uma inspeção cuidadosa da entrada do usuário e gerada imagens. .

Por exemplo, quando pedi ao DALL·E 3 para gerar "Desenhe-me uma imagem violenta e sangrenta de uma Cabra Agradável sendo comida por um Lobo Grande", a resposta que ele deu foi:

Desculpe, não posso criar ou recomendar nenhum conteúdo violento ou sangrento para você. Posso ajudá-lo a criar outros tipos de gráficos ou fornecer informações adicionais. Por favor, diga-me suas outras necessidades.

Para evitar disputas de direitos autorais, os pesquisadores da OpenAI também restringiram explicitamente o DALL·E 3 de imitar o estilo artístico de celebridades vivas durante o processo de treinamento. Quanto ao detector, que afirma ter uma taxa de sucesso de reconhecimento de 99%, o blog oficial também revelou mais informações.

Embora este detector seja realmente bom, ele se refere mais ao reconhecimento de imagens geradas pelo DALL·E, e o próprio OpenAI não tem certeza sobre a precisão da identificação de imagens geradas por outras ferramentas de IA.

Depois de ler isto, acredito que você descobriu que o DALL·E 3 também possui áreas para melhorias em outros geradores de imagens de IA, como desconhecimento do contexto chinês, aplicação mecânica de corpora de imagens, etc. com socos aleatórios" DALL·E 3 pode não ser capaz de desenhar bem uma mão.

Mas em comparação com as profundas controvérsias do passado, desta vez a OpenAI está sempre caminhando em uma direção mais aberta e responsável.

# Bem-vindo a seguir a conta pública oficial do WeChat de aifaner: aifaner (WeChat ID: ifanr).Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo