A geração de imagens de IA acaba de dar um grande passo em frente

Já faz algum tempo que convivemos com imagens geradas por IA, mas esta semana, alguns dos principais players deram grandes passos em frente. Em particular, estou falando de atualizações significativas para Midjourney , o novo modelo do Google, e Grok .

Cada empresa mostra a tecnologia evoluindo em ritmos e direções diferentes. Ainda é um campo de jogo aberto e cada empresa demonstra até que ponto os avanços chegaram.

Midjourney chega à web

Professor Dumbledore à beira da piscina em Harry Potter, de Wes Anderson.
Uma imagem de IA gerada no Midjourney. Canal/meio caminho

Vamos começar com Midjourney, que lançou discretamente um novo editor web na quinta-feira que reúne uma série de ferramentas úteis de manipulação de imagens em uma única interface de usuário.

Anteriormente, funções como reenquadramento, repintura (adicionar recursos gerados por IA ou modificar uma imagem existente), panorâmica, extensão de tela (expandir os limites da imagem e gerar conteúdo para preencher) e zoom exigiam sua própria ferramenta específica para uso e estavam localizados em vários menus, exigindo que os criadores alternassem constantemente. Esta nova IU oferece um processo de edição mais coerente e simplificado, um afastamento marcante do início do programa no Discord.

O novo editor da web foi projetado para tornar a edição de imagens geradas por IA mais fácil e contínua, segundo David Holz, CEO da Midjourney, no Discord recentemente. “Achamos que isso torna a edição de suas imagens de MJ muito mais simples do que antes e é um grande avanço”, escreveu ele.

Embora Midjourney continue migrando do Discord para se tornar um aplicativo baseado na web, a empresa também anunciou que espelhará mensagens de canais populares como “tema diário”, “prompt-craft” e “general-1” entre seus sites. salas e canais do Discord para que as pessoas possam acompanhar esses tópicos na plataforma de sua preferência. A empresa também introduziu uma nova ferramenta de seleção que funciona como um pincel digital e substituiu as ferramentas de seleção quadrada e laço.

O novo editor está disponível para todos os usuários do Midjourney que já geraram mais de 10 imagens na plataforma. As reações iniciais da comunidade de criadores foram amplamente positivas.

O editor chega duas semanas após o lançamento do Midjourney 6.1 , que melhorou a qualidade e a coerência da imagem (como o número correto de dedos), bem como melhorou significativamente os tempos de processamento e a compreensão da precisão do texto em seus prompts de imagem.

Grok-2 liberta o monstro

A atualização Midjourney também chega apenas dois dias após o lançamento do Grok-2 pela startup xAI de Elon Musk, que é a próxima grande novidade que aconteceu esta semana.

Os recursos de geração de imagens do Grok são alimentados pelo modelo Flux.1 do Black Forrest Lab, que tem crescido rapidamente em popularidade devido à sua impressionante qualidade de imagem e uso gratuito.

A maior controvérsia com o Grok-2 não é apenas a sua qualidade, que é bastante boa, mas as suas diretrizes aparentemente indefinidas. Ao contrário de muitos outros geradores de imagens de IA, o Grok-2 parece ter muito poucas diretrizes sobre propriedade intelectual, violência e outros conteúdos explícitos. Não é a primeira vez que um gerador de imagens de IA vê esse tipo de erro, mas com Grok parece intencional, com Musk chamando-o de “a IA mais divertida do mundo”.

As pessoas já testaram seus limites e criaram todos os tipos de imagens horríveis e bizarras, evocando os primeiros dias da geração de imagens por IA. Mas se você acredita na retórica de Musk, a falta de diretrizes do Grok-2 parece proposital e pode acabar moldando a evolução dessa tecnologia no futuro.

Google se torna competitivo com Imagen 3

Uma imagem de IA gerada pelo modelo Imagen-3 do Google. Google

Por fim, o Google anunciou seu novo modelo Imagen 3 AI , que foi lançado para todos os usuários dos EUA na quinta-feira . O Google o chama de “modelo de texto para imagem da mais alta qualidade”, agora capaz de produzir “melhores detalhes, iluminação mais rica e poucos artefatos que distraem do que nossos modelos anteriores”. O Google também afirma que o Imagen-3 é melhor na renderização de texto e agora vem em diferentes versões, construídas para a tarefa em questão, como algo leve como um esboço rápido ou algo muito mais detalhado e de alta resolução.

Por enquanto, o Imagen 3 está disponível apenas no AI Test Kitchen do Google, como parte do ImageFX. Atualmente, está em beta fechado, o que significa que você terá que entrar na lista de espera se ainda não for participante.