A grande atualização do Midjourney! Outro artefato de geração de imagens de IA que “segue suas palavras” Em anexo estão mais de 10 demonstrações de cenas e classificação de defeitos

PS, que antes era considerado uma habilidade necessária, agora parece estar em uma situação delicada de “você consegue aprender ou não”.

A versão mais recente do Gemini pode alterar imagens com apenas uma frase, tornando-se um fenômeno. Desde o lançamento da função de geração de imagens multimodais do GPT-4o, as imagens geradas no estilo Ghibli varreram a Internet quase da noite para o dia.

Com o surgimento de novas forças, o veterano gigante de geração de imagens de IA Midjourney não ficará atrás e acaba de lançar oficialmente a versão mais recente V7.

Os pontos-chave da nova versão são os seguintes:

  • A qualidade geral da imagem é melhorada, os prompts de texto são processados ​​melhor e a consistência dos detalhes do corpo, das mãos e de vários objetos é bastante aprimorada.
  • A cor da pele dos personagens e os detalhes faciais são mais naturais e claros, as texturas dos materiais (como penas e roupas) são expressas com precisão e os efeitos de luz e sombra são realistas
  • Pode compreender e apresentar melhor a cena completa descrita pelas palavras imediatas, a relação espacial entre os elementos é razoável e o fundo e o assunto são altamente integrados.
  • Capaz de representar com precisão ângulos de visão específicos, estilos de fotografia em ângulo baixo e close-up para demonstrar profissionalismo
  • A atmosfera e a expressão emocional são ligeiramente fracas, faltando algum drama e mistério, e falta um pouco a singularidade e criatividade de alguns estilos artísticos.

É importante ressaltar que a V7 é a primeira versão a permitir a personalização do modelo por padrão. Os usuários precisam desbloquear as configurações de personalização para usar este recurso. Todo o processo leva cerca de 5 minutos e pode ser ligado e desligado a qualquer momento.

Outro destaque do V7 é o “Modo Rascunho”. O custo deste modo é apenas metade do modo padrão, mas a velocidade de renderização da imagem é aumentada em até 10 vezes.

Quando usada na web, a barra de prompt mudará automaticamente para o “modo de conversa”, e os usuários poderão ajustar diretamente o conteúdo por meio de comandos, como substituir o gato por uma coruja ou mudar o cenário para noite, e o sistema ajustará automaticamente o prompt e gerará uma nova imagem.

Após clicar em “Modo Rascunho” e ativar o botão do microfone, os usuários também podem entrar no “Modo Voz” para criar em tempo real por meio de comandos de voz. Se você precisar executar explicitamente a tarefa de rascunho, o usuário poderá adicionar o parâmetro "-draft" após o prompt, que é adequado para cenários como permutação, combinação ou geração repetida.

Os funcionários do Midjourney acreditam que o “modo rascunho” é de longe a melhor maneira de iterar ideias.

Se o usuário estiver satisfeito com a imagem de rascunho, ele poderá clicar no botão "Aprimorar" ou "Alterar" para renderizá-la novamente com qualidade total. Deve-se notar que a qualidade da imagem no modo Rascunho é inferior à do modo Padrão, mas seu comportamento e estética são altamente consistentes e adequados para verificar ideias rapidamente.

▲Foto de: @U79916881747113

Atualmente, o V7 suporta dois modos de operação: Turbo e Relax. O modo Turbo é mais rápido, mas custa o dobro de um trabalho V6 normal; O modo rascunho custa a metade. O modo de velocidade padrão ainda está sendo otimizado e deverá ser lançado em breve.

Atualmente, as funções de ampliação, edição e retexturização voltarão ao modelo V6 e serão gradualmente atualizadas para o V7 no futuro. Os recursos Mood Board e SREF já estão disponíveis, e as atualizações subsequentes irão melhorar ainda mais o desempenho.

A equipe do Midjourney revelou que nos próximos 60 dias, novos recursos serão lançados a cada uma ou duas semanas, sendo o mais esperado o novo sistema de referência de funções e objetos V7.

Sem mais delongas, vamos primeiro ver as fotos.

O conhecido blogueiro @nickfloats compartilhou uma comparação de imagens geradas pela versão MIdjourney V6/V7 com base na mesma palavra de prompt. Vamos dar uma olhada.

Incitar:
Uma jovem indiana com cabelos escuros presos em um rabo de cavalo aberto e uma jaqueta preta está em um campus universitário, olhando diretamente para a câmera. A imagem tem uma estética ainda de filme no estilo dos anos 1990, com um retrato em close em um dia ensolarado.
(Uma jovem indiana com cabelo preto preso em um rabo de cavalo solto e uma jaqueta preta está em um campus universitário e olha diretamente para a câmera. A foto está no estilo de um filme dos anos 90, com um dia ensolarado ao fundo, um retrato em close.)

▲ Esquerda: V6 Direita: V7

A luz na nova versão é mais natural, principalmente no rosto do personagem, a cor da pele é mais clara, os detalhes são mais ricos e o foco da imagem é mais claro, principalmente o penteado do personagem, mas também sacrifica um pouco de atmosfera e expressão emocional.

Dica: Uma majestosa coruja-das-torres empoleirada em um galho de árvore antigo coberto de musgo, cercado pela floresta enevoada. A cena é banhada por uma luz suave que se filtra pela densa folhagem, criando uma atmosfera mágica e etérea. Estilo fotorrealista com atenção aos detalhes das penas e texturas.
(Uma majestosa coruja-das-torres pousa em um galho antigo coberto de musgo, cercado por uma floresta enevoada. Uma luz suave brilha através das folhas densas, criando uma atmosfera misteriosa e etérea. O estilo da imagem é realista e realista, mostrando a textura das penas e da casca em detalhes.)

▲ Esquerda: V6 Direita: V7

A nova versão das penas de coruja tem uma textura mais delicada, e as penas têm camadas mais fortes e efeitos de luz e sombra, tornando-as mais realistas. No que diz respeito à postura da coruja, a nova versão também é mais natural. O corpo é ligeiramente inclinado, fazendo com que pareça mais dinâmico. Os detalhes dos olhos também ficam mais vivos, transmitindo um olhar vigilante.

Resumindo, você não pode ter seu bolo e comê-lo também. V7 é melhor na busca pelo realismo; V6 pode ter mais vantagens na busca de impacto e mistério na imagem.

Dica: A mão de uma pessoa aponta para a janela de um avião, que é vista de dentro com sua asa visível de perfil. O céu lá fora mostra um horizonte claro ao amanhecer ou ao anoitecer. Na frente deles encontra-se uma vasta extensão de oceano.
(A mão de um homem aponta para a janela do avião, onde as asas do avião são visíveis lateralmente. O céu lá fora está claro e o horizonte mostra uma cena do amanhecer ou do anoitecer. À sua frente está o vasto oceano.)

▲ Esquerda: V6 Direita: V7

É também uma cena em que se olha pela vigia do avião, com uma das mãos apontando para fora da janela. O progresso do V7 é visível a olho nu. Ao adicionar os elementos da asa do avião, as camadas e o realismo da imagem aumentam, permitindo ao público sentir melhor a perspectiva de estar no avião.

Dica: Um close de brócolis sendo refogado em óleo, com as florzinhas verdes do vegetal contrastando com o molho marrom escuro. Uma colher grande é parcialmente visível dentro de uma panela de aço inoxidável cheia de esmalte preto caramelizado e brilhante por cima, contra um fundo branco…
(Um close de um pedaço de brócolis salteado em óleo, a exuberante cor verde contrastando com o molho marrom escuro. Uma colher grande é parcialmente visível em uma panela de aço inoxidável coberta com um molho preto brilhante cor de caramelo contra um fundo branco…)

▲ Esquerda: V6 Direita: V7

V6 Embora o molho e a colher sejam destacados em close, o foco é muito claro e a atenção é facilmente atraída para a textura e os detalhes do molho. Mas do ponto de vista das palavras imediatas, a nova versão apresenta um cenário culinário mais completo, mostrando a combinação de brócolis e molho em toda a panela, o que é mais logicamente consistente com o processo de cozimento real.

Dica: Close do rosto de uma mulher de anime com expressão chocada, cabelos escuros, no estilo anime. Imagens estáticas de animação coloridas, intensidade de close-up, iluminação suave, visão da câmera em ângulo baixo e muitos detalhes.
(Close-up do rosto de uma mulher de anime com expressão chocada e cabelos pretos, no estilo anime. Imagem animada colorida, close-up forte, luz suave, filmada em ângulo baixo, com detalhes muito finos.)

▲ Esquerda: V6 Direita: V7

Em termos de processamento de luz, sombra e cores, o V7 também atende aos requisitos de “iluminação suave” no prompt. As transições de realce e sombra no rosto são mais suaves e naturais, principalmente a distribuição de luz e sombra nos olhos e bochechas, criando um efeito mais tridimensional.

Prompt: Um filme dinâmico de uma batalha espacial épica com caças estelares elegantes passando por uma enorme estação espacial, lasers disparando e um planeta distante visível ao fundo.
(Uma cena dinâmica de filme mostra uma batalha espacial épica, com caças estelares aerodinâmicos voando, uma enorme estação espacial parada de lado, lasers disparando e planetas distantes claramente visíveis, formando uma imagem chocante.)

▲ Esquerda: V6 Direita: V7

Em termos de retratos, v7 melhorou na finura e realismo dos detalhes (roupas, pele, luz e sombra, etc.), e os personagens têm maior sentido tridimensional e integração com o fundo, mas regrediu na transmissão emocional, drama e dinâmica de expressões.

A seguir estão três casos de comparação específicos:

Prompt: filme de mistério dos anos 1980, foto em ângulo baixo de um mordomo francês de olhos malvados vestindo um terno preto e segurando uma vela no corredor de uma assustadora mansão vitoriana com decoração mofada. O brilho quente da vela evoca uma sensação assustadora de mistério
(Uma tomada de ângulo baixo, no estilo de um filme de mistério dos anos 1980, mostra um mordomo francês mal-intencionado, vestindo um terno preto e segurando uma vela, parado no corredor de uma velha e mofada mansão vitoriana. A luz quente das velas cria uma atmosfera estranha e misteriosa.)

▲ Esquerda: V6 Direita: V7

Dica: foto de moda de rua média-completa dos anos 90, tirada na Kodak 500T, capturando um homem robusto de 50 anos com cabelos grisalhos encaracolados, sombra das 5 horas e um olhar severo andando pela calçada em uma manhã brilhante de primavera em Paris. Ele está vestindo…
(Uma fotografia média de corpo inteiro da década de 1990, tirada em filme Kodak 500T, captura um homem na casa dos cinquenta anos com cabelos grisalhos encaracolados, barba por fazer e uma expressão séria andando pela calçada em uma manhã ensolarada de primavera em Paris. Ele está vestindo…)

▲ Esquerda: V6 Direita: V7

Dica: filme cinematográfico, descentralizado, de duas tomadas, 35mm, de um francês de 30 anos, cabelo castanho encaracolado e um suéter pólo bege manchado, lendo um livro para sua adorável filha de 5 anos, vestindo um pijama rosa felpudo, sentado em um canto aconchegante…
(Uma tomada cinematográfica de 35 mm, composta fora do centro, de um francês de 30 anos com cabelos castanhos encaracolados, vestindo uma camisa pólo bege manchada, lendo para sua adorável filha de 5 anos. A filha está vestindo um pijama rosa suave e sentada em um canto aconchegante.)

▲ Esquerda: V6 Direita: V7

Conch AI + Midjourney será a melhor combinação para fazer as fotos se moverem? O internauta @inextastro também experimentou.

A foto abaixo gerada por @tanvitabs usando v7 passou por todas as armadilhas da geração de imagens de IA, incluindo uma terceira mão extra do nada, confusão entre camisetas e ternos e geração facial incompatível.
[foto]

Finalmente, aqui está uma tarefa de aula. Dentre as quatro fotos abaixo geradas a partir da mesma palavra prompt, qual versão você prefere? Por favor vote.

Dica: modelo feminina elegante parada perto de uma grande janela em uma sala iluminada pelo sol, suave matinal lançando reflexos e sombras naturais em seu rosto, usando um vestido bege esvoaçante, pose relaxada, maquiagem mínima, profundidade de campo de lente de 85 mm, estilo de vida editorial de moda, tons cinematográficos, atmosfera arejada
(Uma elegante modelo feminina está ao lado da grande janela da sala onde o sol brilha. A suave luz da manhã lança reflexos e sombras naturais em seu rosto. Ela está usando um vestido bege esvoaçante, com uma postura relaxada e maquiagem simples. Filmado com uma lente de 85 mm, o fundo tem uma profundidade de campo rasa, criando uma sensação editorial de moda e estilo de vida. A imagem mostra um tom de filme e é cheia de ar.)

Qual versão da imagem você prefere:
Meio da jornada v7
Imagem 3 do Google
Bate-papoGPT 4o
Reeve

Nos últimos anos, o tema principal da geração de imagens de IA tem sido a busca pela autenticidade e pela ausência de oleosidade.

No ano passado, o Flux rompeu a indústria e ficou famoso por gerar retratos ultra-realistas. Agora, Midjourney V7 assume o comando e mais uma vez leva a “realidade” a um novo nível com detalhes mais ricos, mais camadas de luz e sombra e textura natural da pele.

Mas será a busca da verdade o fim de tudo?

Recentemente, com o lançamento da função de geração de imagem multimodal do GPT-4o, uma tendência inesperada se espalhou – as imagens no estilo Ghibli incendiaram a Internet quase da noite para o dia e também explodiram no mundo da geração de imagens de IA como uma brisa primaveril.

Há mais possibilidades de escolhas técnicas e a forma de criação também mudou. Em termos mais populares, é como estar na cozinha agora. Se você deseja uma refeição sólida ou algo sombrio, depende inteiramente de você.

# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo