Transformando Elon Musk em um marginal de rua e Lin Daiyu em marcas da moda — este novo recurso de vídeo com IA é tão viciante que ensina passo a passo como se tornar um(a) fashionista em segundos.

dezembro 16, 2025 gurinho

Você tem 30 segundos para apresentar seu look do dia.

Tim Cook, CEO da Apple, geralmente discreto e que usa apenas roupas básicas, vestiu um casaco de plumas grande demais e suspensórios cravejados de diamantes em seu "vídeo de identificação pessoal" e fez uma pose de gângster bem ousada para a câmera.

O toque mais genial foi ele ter sacado uma calculadora da Texas Instruments como se estivesse sacando uma arma.

▲Fonte do vídeo: https://x.com/ReflctWillie/status/1997819640874205685

Muitos espectadores ficaram cativados pelo vídeo, achando a execução em plano-sequência incrivelmente satisfatória e assistindo-o repetidamente. O criador do vídeo aplicou uma cinematografia de nível hollywoodiano a um conteúdo absurdo. O estilo sofisticado e o conteúdo humorístico impediram que este vídeo de IA exibisse a falta de refinamento frequentemente associada a esse tipo de vídeo, tornando-o rapidamente um sucesso nas redes sociais.

Imediatamente, surgiu a versão de Musk.

▲ Fonte do vídeo: https://x.com/VibeMarketer_/status/1999227084250448083

O autor descreveu meticulosamente todo o processo de produção, utilizando folhas de contato como guia para obter um conjunto de 6 imagens com fundos, expressões faciais e roupas idênticas, mas com poses diferentes.

▲ Prova de impressão em filme 3×2

O termo "print" originalmente se referia a uma página de índice de fotos em formato de miniatura, usada na fotografia durante a era do filme. Aplicar esse conceito ao Nano Banana Pro significa utilizar plenamente seus recursos de consistência para gerar uma série de capturas de tela de vídeo com diferentes estilos e ângulos simultaneamente e, em seguida, usar o primeiro e o último quadro para gerar o vídeo.

O Nano Banana Pro consegue gerar provas completas com até nove ou mais quadros-chave em uma única execução, mantendo cada quadro com excelente consistência em termos de personagem, detalhes e narrativa. Mesmo quando gerados separadamente, o Nano Banana Pro pode preencher automaticamente o conteúdo com base em imagens de referência carregadas, garantindo a consistência narrativa.

▲ Geração de vídeo do primeiro e último fotograma, descrição: Filmagem em plano-sequência, a câmera move-se suave e lentamente, focando nos óculos da pessoa, mantendo-a sempre enquadrada. Os movimentos da pessoa são mínimos e cautelosos.

Depois de obtermos as imagens, podemos combiná-las em um vídeo convertendo o primeiro e o último quadro. Modelos e ferramentas de geração de vídeo como Keling, Veo 3.1, Hailuo e CapCut podem fazer isso facilmente.

Vale ressaltar que o Sora 2 atualmente não suporta o upload de imagens com rostos reais, e o Grok Imagine de Musk só permite converter o primeiro quadro em vídeo. No geral, ainda recomendamos o uso do Google Veo 3.1, do recurso "Jimeng" do CapCut ou do Kuaishou Keling para realizar essa tarefa.

▲Conversor de imagem para vídeo Grok, conteúdo padrão, motivo desconhecido.

No guia fornecido por este vlogger, ele usou o Nano Banana Pro e o Coring para realizar isso, e desenvolveu um conjunto completo de ferramentas que nos permitem substituir livremente vários caracteres.

▲ Fonte do vídeo: https://x.com/ReflctWillie/status/1998720751806066916

De acordo com o fluxo de trabalho compartilhado, como este vídeo é basicamente semelhante ao de Cook, basta modificar as três imagens de entrada e fazer alguns ajustes menores. Por exemplo, o que ele tira do bolso é um console de videogame Game Boy, e há outros elementos que se adequam melhor ao personagem: Cook tem um dente de ouro com o código das ações da Apple, AAPL, gravado, e o presidente do Federal Reserve, Powell, usa um anel de ouro com o logotipo do FED.

▲Endereço do projeto: https://github.com/shrimbly/node-banana

Ele hospedou este projeto na conhecida plataforma de código aberto GitHub. Se você quiser experimentar por conta própria, pode baixar o projeto para sua máquina local, inserir sua própria API Gemini e aplicar este processo diretamente.

Também experimentamos este projeto automatizado e geramos várias imagens. Comparado com a geração de imagens no site ou aplicativo Gemini, é definitivamente muito mais prático. Não precisamos fazer upload de imagens repetidamente; em vez disso, podemos selecionar diretamente as imagens de que precisamos e modificar os campos, simplificando todo o processo.

No entanto, não há problema se você não tiver uma API. Siga os passos detalhados abaixo e você poderá fazer a mesma coisa usando a versão web do Gemini.

Encontre uma foto sua, com suas roupas favoritas da moda e óculos estilosos. Vamos usar Lin Daiyu, uma mulher de talento excepcional, natureza reservada e temperamento melancólico, como exemplo e ver como seria seu ensaio fotográfico de look do dia (OOTD).

Aqui, geramos diretamente uma foto de Lin Daiyu usando o Nano Banana Pro.

▲Palavra-chave: Assunto: Um retrato hiper-realista de alta costura de Lin Daiyu, do filme "O Sonho da Câmara Vermelha". Ela possui uma beleza frágil e melancólica, pele pálida e suas características "sobrancelhas franzidas" (levemente franzidas). Ela tem uma expressão distintamente triste e intelectual. Vestimenta: Usando um requintado traje tradicional da Dinastia Qing (estilo Hanfu). O tecido é composto por camadas de seda translúcida e organza em tons de verde-bambu e branco-lua. Bordados intrincados de pétalas caindo. Ela usa um grampo de cabelo de jade. Cenário: Dentro de um estúdio fotográfico profissional moderno e minimalista. Um fundo sólido cinza-escuro ou de lona texturizada. Iluminação e Câmera: Iluminação cinematográfica de estúdio, iluminação Rembrandt para acentuar suas maçãs do rosto e atmosfera. Iluminação com softbox, foco nítido, fotografado com Hasselblad X2D, lente de 85mm. Grande profundidade de campo. Estilo: Editorial da Vogue China, etéreo, elegante, melancólico, estética oriental, fotografia de moda de vanguarda, textura ultradetalhada. 16:9, 4K.

Após obter a foto do personagem, as imagens dos óculos e da jaqueta são opcionais. Caso não sejam enviadas, o Nano Banana Pro gerará automaticamente a jaqueta e os óculos estilosos correspondentes.

Encontramos uma jaqueta moderna online para ela usar e, em seguida, adicionamos alguns ajustes de penteado, maquiagem e uma expressão de desdém que menosprezava essas coisas banais às opções padrão.

Palavra-chave padrão: Mostre-me uma imagem de um ensaio fotográfico de alta moda da modelo usando a jaqueta oversized e os óculos. A imagem deve mostrar o corpo inteiro da modelo. Ela olha para além da câmera com uma expressão ligeiramente entediada e as sobrancelhas arqueadas. Uma das mãos está levantada, com dois dedos tocando a lateral dos óculos.
A imagem foi tirada de um ângulo baixo, olhando para cima em direção ao objeto.
A imagem foi capturada com filme Fuji Velvia, lente fixa de 55mm e flash potente. A luz está concentrada no sujeito e se dissipa ligeiramente em direção às bordas da imagem. A foto está superexposta, apresentando granulação significativa e saturação excessiva. A pele parece brilhante (quase oleosa) e há reflexos brancos intensos nas armações dos óculos.

O próximo passo é gerar uma chamada Folha de Contato. Inserindo a foto da jaqueta e dos óculos que obtivemos anteriormente e, em seguida, seguindo as instruções abaixo, podemos obter um storyboard com múltiplos ângulos e enquadramentos consistentes dos personagens.

Palavras-chave:
Analise a imagem de entrada e faça um inventário silencioso de todos os detalhes essenciais de moda: o(s) sujeito(s), as peças exatas do guarda-roupa, os materiais, as cores, as texturas, os acessórios, o cabelo, a maquiagem, as proporções do corpo, o ambiente, a geometria do cenário, a direção da luz e a qualidade das sombras.
Todas as configurações de figurino, estilo, cabelo, maquiagem, iluminação, ambiente e correção de cores devem permanecer 100% inalteradas em todos os frames.
Não adicione nem remova nada.
Não reinterprete os materiais ou as cores.
Não apresente nenhuma justificativa.
O resultado visível deve ser:
Uma imagem de folha de contato 2×3 (6 quadros).
Em seguida, uma análise detalhada dos quadros-chave para cada quadro.
Cada fotograma deve representar um ponto de repouso após um movimento dramático da câmera — descreva apenas a posição final da câmera e o que o sujeito está fazendo, nunca o movimento em si.
Os seis quadros devem ser espacialmente dinâmicos, não lineares e visualmente distintos.
Lista de 6 enquadramentos obrigatórios
1. Retrato de beleza de alta costura (close, editorial, íntimo)
A câmera posicionada bem próxima ao rosto da modelo, ligeiramente acima ou abaixo da linha dos olhos, utiliza um ângulo elegante que realça a estrutura óssea e destaca elementos-chave do figurino perto do decote. Profundidade de campo reduzida, textura impecável e uma composição escultural e moderna.
2. Quadro de três quartos em ângulo alto
A câmera foi posicionada acima, mas descentralizada, capturando o objeto em um ângulo diagonal descendente.
Essa moldura deve criar uma forte abstração de forma e revelar detalhes do guarda-roupa vistos de cima.
3. Postura oblíqua de corpo inteiro em ângulo baixo
A câmera foi posicionada próxima ao chão e inclinada obliquamente em direção ao objeto.
Isso alonga a silhueta, enfatiza o calçado e cria uma perspectiva dramática distinta das Molduras 1 e 2.
4. Armação de compressão lateral (lente longa)
A câmera foi posicionada bem ao lado do objeto, utilizando uma distância focal mais curta para comprimir o espaço.
O sujeito aparece de perfil limpo ou quase perfil, mostrando a estrutura da roupa de forma achatada, como em um editorial.
5. Retrato íntimo de perto a partir de uma altura inesperada
A câmera foi posicionada bem perto do rosto (ou parte superior do tronco) do sujeito, mas ligeiramente acima ou abaixo da linha dos olhos.
O ângulo deve ter um ar de editorial de moda, não convencional — descentrado, elegante e expressivo.
6. Enquadramento com detalhes extremos a partir de um ângulo não intuitivo
Câmera posicionada extremamente perto de um detalhe da roupa, acessório ou textura, mas a partir de uma direção espacial incomum (por exemplo, de baixo, de trás, da lateral do decote).
Essa deve ser uma moldura editorial marcante, abstrata e detalhada.
Continuidade e Requisitos Técnicos
Mantenha a fidelidade perfeita do guarda-roupa em cada foto: tipo exato de peça, silhueta, material, cor, textura, costura, acessórios, fechos, joias, sapatos, cabelo e maquiagem.
O ambiente, as texturas e a iluminação devem permanecer consistentes.
A profundidade de campo varia naturalmente com a distância focal (maior para fotos distantes, menor para fotos de perto/detalhes).
São necessárias texturas fotorrealistas e comportamento de luz fisicamente plausível.
Os enquadramentos devem dar a sensação de diferentes posicionamentos de câmera dentro da mesma cena, e não de cenas diferentes.
Todos os quadros-chave devem ter exatamente a mesma proporção e devem ser gerados exatamente 6 quadros-chave. Mantenha o mesmo estilo visual em todos os quadros-chave, onde a imagem foi capturada em filme Fuji Velvia com flash potente, a luz está concentrada no sujeito e se dissipa levemente em direção às bordas do quadro. A imagem está superexposta, apresentando granulação significativa e saturação excessiva. A pele parece brilhante (quase oleosa) e há reflexos brancos intensos nas armações dos óculos.
Formato de saída
A) Imagem de folha de contato 2×3 (Obrigatória)

Após obter a grade de imagens de seis quadrados, precisamos usar as seguintes instruções para extrair essas seis imagens em sequência.

Instruções: Analise a grade de seis imagens. Quero que você isole e amplie a imagem na primeira/segunda/terceira coluna da primeira/segunda linha de imagens. Não altere a pose nem quaisquer detalhes do modelo. Exiba apenas a imagem única da grade de seis imagens.

O Nano Banana Pro é capaz de gerar imagens com grade de nove pixels diretamente, mas para manter uma proporção fixa de 3:2, um layout com seis pixels separa melhor as imagens. Aqui, usamos o formato 16:9 e qualidade 4K para todas as imagens.

Com essas 6 imagens, podemos dar asas à nossa criatividade para gerar ainda mais imagens-chave, como Cook exibindo seus dentes de ouro ou tirando um aparelho antigo do bolso, exatamente como no vídeo original.

Por exemplo, encontramos uma foto de uma pulseira online e pedimos para Lin Daiyu exibir sua pulseira de jade em vez de seu grande relógio de ouro.

▲Imagem 7｜Entrada: Imagem 3 + Imagem 5 + foto da pulseira de jade e descrição: Mostre-me um close-up em grande angular da modelo. A modelo está segurando um dos pulsos verticalmente à sua frente. A mão oposta está delicadamente puxando para baixo a manga volumosa de seu robe, revelando uma pulseira de jade esmeralda translúcida. A mão que puxa a manga tem um anel de prata em formato de pétala de flor caída incrustado na parte frontal dos dois últimos dedos.

Se você quiser manter esse estilo de gangster de rua, pode usar diretamente o recurso padrão para encontrar uma imagem de um relógio de ouro grande e, em seguida, inserir o seguinte conteúdo.

Palavra-chave padrão: Mostre-me um close-up em grande angular do modelo. O modelo está segurando um dos pulsos verticalmente à sua frente, enquanto a outra mão puxa a manga do moletom para baixo, revelando o relógio. A mão que puxa a manga tem um anel de dois dedos nos dois últimos dedos da mão, com as letras "LOVE" incrustadas na parte frontal.

Além disso, os sapatos foram substituídos por tênis de cano alto modernos com bordados, apresentando cetim e bordados florais que lembram sapatos bordados antigos, com uma sola de borracha preta grossa e serrilhada.

▲Imagem 8｜Insira a imagem 7 + imagem 3 + fotos dos sapatos, com as seguintes palavras-chave: Mostre-me uma foto em grande angular, de baixo para cima, da modelo em pé, com o pé direito estendido à frente, mostrando que ela está usando os sapatos da imagem de referência. Mantenha o enquadramento perfeito, incluindo o anel no dedo da modelo, e com o pé levemente inclinado para o lado para destacar os detalhes dos sapatos.

Por fim, ela tirou do bolso uma caixa de comprimidos nutritivos de ginseng. Essa era uma garota cyberpunk que dependia de medicamentos para sobreviver.

▲Figura 9｜Inserir Figura 7 + Figura 8 + uma foto da caixa de remédios. Instrução: Close do modelo alcançando a lateral do bolso canguru do moletom, mostrando parcialmente a caixa de comprimidos.

Aqui, você só precisa modificar "mostrando a caixa de comprimidos" substituindo o conteúdo após "mostrando" pelos itens que deseja tirar do bolso.

Após obtermos todas as imagens dos quadros-chave, o próximo passo é juntá-las para criar um vídeo interessante, com aparência de plano-sequência. Converter imagens em vídeo não elimina completamente a necessidade de indicações. Para alcançar o mesmo ritmo e controle do vídeo original, usar movimentos suaves e minimizar a movimentação do modelo é crucial para reduzir o número de indicações.

O blogueiro mencionou que você pode inserir instruções como "A câmera gira lenta e suavemente ao redor dos óculos enquanto aplica o zoom. O sujeito está quase imóvel, e o movimento é extremamente calmo e deliberado."

Por exemplo, na transição entre a Figura 8 e a Figura 9, adicionamos o texto "As pernas descem lentamente e a câmera sobe verticalmente" às instruções.

▲Gerado pelo Google Veo 3.1 | Comando: Movimento da câmera (varredura vertical):
Um plano sequência vertical contínuo e fluido com grua, movendo-se para cima. A câmera começa baixa, focada nos tênis de cano alto bordados, depois inclina-se suavemente para cima e desliza ao longo da textura da calça cargo cinza. À medida que a câmera sobe até a altura da cintura, ela se aproxima (movimento de dolly) em direção à jaqueta de cetim verde.
Ação do sujeito (O fluxo):
Início: A perna da pessoa (mostrando o sapato) desce lentamente até a posição em pé enquanto a câmera se move para cima.
Transição: O sujeito está em pé, confiante. A mão que usa o anel de borboleta move-se naturalmente para o bolso.
Fim: A mão retira uma caixa de remédios amarela e branca (“Renshen Yangrong Wan”). O foco se desloca bruscamente para o texto na caixa.
Atmosfera e consistência:
Estética streetwear de alta costura. Iluminação forte com flash e fundo azul de estúdio. Mantém-se a consistência do bordado verde da jaqueta sukajan e da pulseira de jade. A transição é fluida, como um único movimento de câmera planejado.

Você pode estar se perguntando por que as instruções diziam para se mover lentamente, mas o vídeo de pré-visualização final parece realmente limpo e nítido. Na verdade, isso acontece porque este vlogger usou outra ferramenta. É preciso admirar a criatividade e as capacidades dos vloggers de IA atualmente; eles não apenas têm ótimas ideias, mas também desenvolvem ferramentas úteis.

▲Endereço: https://easypeasyease.vercel.app/, esta ferramenta permite unir vários vídeos, aplicar curvas de suavização e adicionar áudio; atualmente, seu uso é gratuito.

Com a ferramenta EasyPeaseEase, nossos vídeos podem ser comprimidos para durações entre 0,5s e 6s. A câmera lenta obtida anteriormente por meio de modelos de geração de vídeo é suavizada pela curva de suavização, tornando o processo de aceleração ou desaceleração do vídeo do início ao fim mais suave e natural, e simulando melhor os efeitos físicos do mundo real. Como resultado, o vídeo acelerado parece mais vívido e texturizado, em vez de um movimento rígido e uniforme.

Finalmente, juntando todos esses vídeos, temos a apresentação em vídeo do look do dia da Lin Daiyu para hoje.

A sugestão de converter o primeiro e o último quadro em vídeo é útil. Se você se preocupa em precisar sortear cartas com frequência, simplesmente enviar as imagens do primeiro e do último quadro e pedir para a Gemini fazer isso é um método muito eficaz.

O Contact Sheet Prompt é, na verdade, um recurso muito interessante do Nano Banana Pro. Primeiro, ele usa os poderosos recursos de geração de imagens e compreensão de conhecimento do ambiente do Nano Banana Pro para gerar uma grade de nove quadrados de quadros-chave de vídeo e, em seguida, extrai os quadros-chave correspondentes linha por linha e coluna por coluna.

▲Fonte do vídeo: https://x.com/techhalla/status/1996650389228355819

Por fim, vamos resumir as formas oficiais de usar o Nano Banana Pro.

ai.studio: o estúdio oficial de IA do Google. Requer a vinculação de um método de pagamento e permite que os usuários selecionem diferentes resoluções e tamanhos de imagem por meio de um menu suspenso. Não requer avisos e não cobra por uso.
gemini.google.com: Versão web e aplicativo móvel do Gemini, gratuito para gerar imagens, com um limite de uso. Após atingir o limite, o modelo Nano Banana será utilizado automaticamente. Sua principal característica é a impossibilidade de controlar a proporção das imagens geradas.
flow.google: Plataforma de geração de vídeos do Google, que permite gerar imagens sem consumir créditos; é gratuita.

O vídeo mencionado no artigo pode ser visualizado clicando neste link: https://mp.weixin.qq.com/s/s_EIYB0qqcWv29zMM1g-7Q

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo