Esta ferramenta de desenho de IA é tão divertida que você nem precisa escrever palavras imediatas

Já existem muitas ferramentas de mapeamento de IA, mas o Whisk mais recente do Google encontrou uma maneira muito nova de jogar, que até mesmo os internautas que o viram dizem que é divertido.

Basta inserir três imagens, assunto, cena e estilo, e o Whisk pode gerar uma imagem que aproveite os pontos fortes de todos.

▲ Foto de: Google

Por exemplo, o tema é um homem velho, a cena são vinhas, o estilo é animação retrô dos anos 90, escreva a palavra “Personagem andando de bicicleta voadora”, espere um pouco, nasce uma nova imagem semelhante ao estilo Ghibli.

▲ Foto de: Google

O velho ainda é o mesmo, de chapéu, terno e segurando um livro, mas dirige o carro com palavras prontas, e a cena e o estilo também mudaram para os da imagem de referência.

Esta é a vantagem do Whisk – ele nos permite brincar facilmente com vários estilos enquanto escrevemos menos e sem palavras imediatas. A mãe não precisa mais se preocupar se eu não consigo escrever palavras rápidas.

Não escreva instruções complicadas, apenas mostre as imagens.

Mesmo que exija apenas algumas fotos, as maneiras de jogar Whisk são simples, mas infinitas.

Carregue três fotos – a imagem do tema, as batatas fritas do McDonald's; a imagem da cena, a pintura de Monet "Water Lilies";

Sem escrever palavras imediatas, ela é gerada diretamente. O resultado dado pelo Whisk é que uma imagem é melhor que três.

Além de enviar suas próprias fotos, também podemos lançar os dados e deixar o Whisk gerar temas, cenas e estilos aleatoriamente.

Na verdade, os estilos predefinidos fornecidos pelo Whisk são suficientes, incluindo emblemas, adesivos, bordados, argila, quadrinhos, mosaicos, etc., com características distintivas e efeitos imediatos.

Enquanto tivermos inteligência e imaginação, sem uma palavra, apenas através da disposição e combinação de diferentes imagens, podemos continuar a jogar jogos cloze – tema + cena + estilo, e nem todos os espaços em branco devem ser preenchidos.

▲ 1. Imagem temática, frango defumado; 2. Imagem de cena, pintura "Noite Estrelada" de Van Gogh 3. Imagem de estilo, xilogravura japonesa;

▲ 1. Imagem temática, "Garota com Brinco de Pérola"; 2. Imagem de cena, still do filme "A Viagem de Chihiro" 3. Imagem de estilo, pintura abstrata de Mondrian;

▲ 1. Imagem temática, pacote de emoticons "Death Smiling Face" do WeChat; 2. Imagem da cena, fotos do filme "Interstellar" 3. Imagem de estilo, capturas de tela dos quadrinhos do Snoopy;

▲ 1. Imagem temática, o avatar de surf padrão é o dinossauro rosa momo 2. Imagem de estilo, boneca Jellycat;

Além disso, para cada geração do Whisk, você só pode selecionar uma imagem de referência para cena e estilo, mas pode selecionar vários temas. o que isso significa? Podemos ter vários personagens no mesmo quadro!

Por exemplo, deixe Musk, Ultraman e Zuckerberg se tornarem emblemas esmaltados.

Os trajes, decorações e expressões das três pessoas foram todos muito bem restaurados. O microfone e o colar de Zuckerberg não faltaram, mas os rostos não conseguiram manter a consistência e todos se tornaram rostos públicos.

Embora o Whisk reduza a necessidade de escrever palavras imediatas, o Whisk também incentiva você a escrevê-las, se necessário.

Adicione a frase "Os personagens estão segurando uma placa que diz AGI" na caixa de diálogo e os vilões do distintivo seguirão facilmente o prompt.

E se precisarmos de uma determinada cena ou de um determinado estilo, mas não conseguirmos encontrar uma imagem de referência no momento e as predefinições do Whisk não fornecerem isso?

A solução é muito simples. Se você não tiver uma imagem, basta escrever uma palavra imediata e deixar o Whisk criar uma na hora.

Assim como eu precisava de uma base em estilo pixel para o personagem servir de cena, então pedi ao Whisk para gerá-la para mim.

Em seguida, use o pacote de emoticons de gato como imagem de tema e o pintinho de pixel como imagem de estilo para obter um gato de pixel com base.

Resumindo, o Whisk é muito gratuito, como a plasticina, você pode modelá-lo como quiser.

Ele pode gerar e compreender imagens, empacotando fluxos de trabalho complexos em interessantes "batedores de ovos"

Whisk é na verdade uma forma de os modelos multimodais do Google flexionarem seus músculos.

Para nos ajudar a escrever menos palavras imediatas, o Whisk integra recursos de compreensão visual e geração de imagens.

O modelo Gemini reconhece imagens e gera automaticamente descrições detalhadas. Essas descrições são então inseridas no modelo de geração de imagens Imagen 3 do Google, que gera imagens.

O Whisk é assim. Os usuários só precisam fazer upload e gerar imagens, mas há muitas coisas a considerar.

Cada imagem no Whisk, seja carregada ou gerada, tem uma longa palavra de aviso subjacente escrita e não está oculta. Podemos clicar na imagem para vê-la e também podemos modificá-la.

Se você escolher uma pessoa como objeto da imagem, Whisk descreverá sua aparência em detalhes e a imagem da cena será semelhante.

▲ Descrição de Ultraman por Whisk: "Um homem de pele mais clara, com cabelo curto e encaracolado castanho escuro, exibido do peito para cima. Ele tem olhos claros. Ele usa um suéter de malha bege claro com gola redonda. Fundo É uma parede de concreto cinza manchada A expressão do homem é séria e neutra, e a luz está ligeiramente fraca. Há uma leve sombra no lado direito de seu rosto.

As imagens de estilo são um pouco diferentes. Se você usar uma captura de tela de animação como referência de estilo, Whisk não dirá que há três pessoas na imagem, mas descreverá a cor, a luz e as linhas da pintura…

▲ Descrição de Whisk do estilo de Snoopy: "Esta imagem é renderizada em estilo cartoon, com contornos ásperos e sombreamento plano. A paleta de cores é limitada, usando principalmente cores primárias e cores secundárias suaves. A iluminação é uniforme e carece de sombras fortes. ou realces , conferindo-lhe uma textura simples, quase infantil. As linhas são claras e consistentes, com uma textura ligeiramente irregular que sugere um efeito desenhado à mão."

Portanto, Whisk não copia exatamente a imagem, mas extrai as características e a essência da imagem, e integra naturalmente o tema, a cena e o estilo, cada um desempenhando suas funções sem interferir um no outro.

Ao mesmo tempo, o Whisk também se sobrepõe – ele extrai apenas um pequeno número de recursos principais da imagem e os resultados podem ser diferentes dos esperados. Isso também explica por que o Whisk não consegue restaurar rostos com precisão.

Portanto, mesmo que você escolha um estilo de filme retrô menos abstrato, os rostos dos três chefes não ficam próximos um do outro, mas outros detalhes são precisos.

O mesmo vale para objetos. O Cybertruck da Tesla se torna muito comum após a extração e regeneração de recursos.

Mas se for um super IP com materiais ricos como batatas fritas do McDonald's, o efeito não é ruim e pode ser usado como imagem publicitária. Experimentei alguns personagens da Disney e o Whisk os reproduziu exatamente como eram, mas não vou postar as fotos.

Além disso, o Whisk ainda tem um problema – ele não consegue fazer referências de estilo muito detalhadas e não consegue imitar um estilo específico de pintura.

Quando pedi a Whisk para gerar uma minifigura de Lego da Mona Lisa, o resultado me deixou com os olhos roxos. No entanto, se eu adicionasse um prompt adicional, "Faça o personagem mais parecido com um personagem de Lego", Whisk poderia imitá-lo de 70% a 80. % melhorar.

É ainda mais difícil imitar o estilo de um determinado cartunista. Faça upload de uma captura de tela de um desenho animado para o Whisk consultar e, eventualmente, você terá uma imagem muito comum no estilo de desenho animado. e cartunista, não terá efeito algum.

Na verdade, Whisk é bastante divertido. É mais adequado para exploração criativa que não busca precisão, comumente conhecida como trabalho completo.

Whisk pode ser traduzido como “mexendo” ou “batedor de ovos”. O nome Google tem um forte sentido visual. Não é apenas misturar e combinar ingredientes?

A imprecisão do Whisk também o posiciona de forma diferente dos editores de imagens tradicionais e é mais uma ferramenta criativa. Se você tiver alguma ideia, use-a para obter efeitos visuais aproximados.

▲ Geração de batedor, 1. Imagem temática, captura de tela de "Naruto" 2. Imagem de estilo, brinquedo de pelúcia;

No passado, para obter o efeito estilizado do Whisk e percorrer todo o processo de geração de imagens, talvez fosse necessário construir um fluxo de trabalho no ComfyUI.

Mas agora com o Whisk, parece que você está jogando um jogo de desenho de cartas ou abrindo uma caixa cega e, desde que você consiga fazer login (somente nos Estados Unidos), atualmente é gratuito.

Guia de experiência
https://labs.google/fx/zh/tools/whisk

As capacidades do modelo líder do Google são certamente a premissa e a base, mas projetar produtos que todos precisam ainda requer criatividade e estética.

Gosto muito do slogan do Whisk: “instrua menos, toque mais”.

Whisk vem dos laboratórios do Google, de onde também veio o anteriormente popular podcast de IA NotebookLM, e mais tarde se desenvolveu em um projeto maduro. Este laboratório em si é a melhor anotação deste slogan.

Com capacidades de modelo poderosas, produtos inovadores e uma mente aberta, o Google, que antes parecia ameaçado pela OpenAI, mostrou calmamente o seu regresso como rei.

É tão forte quanto a geada do outono e pode evitar desastres malignos. E-mail comercial: [email protected]

# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo |