A geração de vídeos por IA agora também possui habilidades; uma simples menção com @ pode trazer toda uma equipe de filmagem de Hollywood.

O Claude Skills viralizou recentemente nas redes sociais. Ele transforma a IA, de simples interlocutora, em trabalhadora capacitada. Ao agrupar habilidades profissionais em módulos, os usuários podem selecionar a habilidade correspondente com apenas uma barra (/).

Quer fazer análise de dados? /DataAnalyst. Quer escrever código? /Coding Expert. A IA deixou de ser uma caixa preta que adivinha o que queremos e se tornou um conjunto de ferramentas sob demanda. Essa abordagem modular chegou agora também ao campo da geração de vídeo por IA.

A nova comunidade de temas da Vidu reúne oito categorias — movimento de câmera, efeitos especiais, atmosfera, performance, composição, narrativa, estilo, cena e movimentos — em uma "biblioteca de temas". Basta adicionar um "@" na caixa de entrada para acessar esses temas.

▲No vídeo de referência, digitar @ abrirá automaticamente uma caixa de seleção, permitindo que você encontre diretamente o assunto desejado.

Quer um zoom da câmera? @CameraLibrary. Quer uma vibe cyberpunk? @AtmosphereLibrary. Quer efeitos de partículas? @EffectsLibrary.

Podemos até usá-los em camadas como Claude Skills: @Camera + @Atmosphere + @Effects + Character Images, gerenciando o trabalho do diretor, do diretor de fotografia, do artista de efeitos visuais e do diretor de arte, tudo ao mesmo tempo.

Antes, dizia-se que a IA roubaria os empregos dos atores de Hollywood. Agora, a Vidu oferece a todos os criadores um estúdio de Hollywood com IA. Atores, diretores e diretores de fotografia são todos controlados por IA; basta identificá-los.

Esta é também a primeira comunidade de vídeo do mundo alimentada por inteligência artificial, uma comunidade que permite o compartilhamento, a troca e a interação.

 Experimente aqui: https://www.vidu.cn | API do Vidu: http://platform.vidu.cn/

A APPSO obteve rapidamente a qualificação para testes da comunidade de temas Vidu e experimentou todos os 8 tipos de temas . Vamos ver como se comporta na prática.

 Preparamos também um bônus para todos: acesse vidu.cn , insira o código de convite: APPSON e você receberá 500 pontos ao se cadastrar. Venha experimentar!

A IA finalmente aprendeu a "agir".

Em vídeos tradicionais de IA, o aspecto mais difícil de descrever é a qualidade visual. Adicionar até mesmo alguns adjetivos extras pode facilmente levar a IA a criar ilusões. A rigidez das expressões faciais, em particular, é uma grande fraqueza dos vídeos de IA.

A biblioteca principal de performances e emoticons da comunidade Vidu padronizou essas descrições emocionais complexas e designs de ação. Agora, performances e emoticons como riso maníaco, medo, tristeza e alegria podem gerar diretamente a expressão e o estado emocional correspondentes do personagem; e emoticons de ação como brigas entre duas pessoas, confrontos em grupo e envolvimentos românticos até mesmo organizaram as ações específicas dos personagens.

Com um único clique para adicionar emojis, podemos replicar perfeitamente vários emojis da comunidade principal sem precisar de instruções adicionais. Ao mesmo tempo, mantemos a integridade e a consistência do vídeo.

Inserimos a imagem de um palhaço e usamos o tema da risada maníaca para dar ao palhaço traços e movimentos mais expressivos, mantendo sua aparência inalterada e preservando a atmosfera geral de horror e suspense.

▲Fórmula de combinação: @Thunderstorms Never Stop @Urban Ruins , @Figura 1: Em pé na rua, de frente para a câmera e dando uma @risada maníaca , combinada com uma @vibração rápida da câmera violenta, criando uma atmosfera forte de @aterrorização e suspense.

Ele pode rir e, claro, pode chorar. Usando o sujeito @ExaggeratedBigEyedCrying , você pode fazer os personagens do vídeo chorarem copiosamente. Essas expressões e sujeitos de atuação realmente dão vida aos personagens em vídeos de IA.

▲ Fórmula de combinação: A Figura 1 mostra-a em pé em frente a um espelho, com seus olhos grandes e expressivos, demonstrando profunda tristeza . Combinada com uma forte atmosfera de tristeza , seu choro torna-se cada vez mais doloroso. Ao mesmo tempo, a iluminação lateral por trás destaca seu contorno e a expressão de choro nítida no espelho.

O controle das expressões faciais não só é preciso, como, com as predefinições da biblioteca de personagens, podemos facilmente fazer o personagem executar movimentos poderosos. E não se trata apenas de animações de personagens; até mesmo efeitos de vídeo são adicionados automaticamente, bastando marcar o personagem correspondente na comunidade de personagens.

Primeiro selecionamos um clone da lista de movimentos: @Hundred Flowers in Full Bloom .

▲Fórmula de Combinação: @Personagem 3 usa @Cem Flores Clone Deslumbrante

O efeito é muito bom. Mesmo com golpes mais complexos como @Ice Rain e Chains, Vidu consegue lidar muito bem com eles.

▲Fórmula de Combinação: @Santa da Espada usa @Chuva de Gelo para atacar @Cang Xuan . No momento em que a Chuva de Gelo está prestes a atingir @Cang Xuan , @Cang Xuan rapidamente usa @Escudo do Sino Dourado para resistir ao ataque.

Esses movimentos e efeitos especiais são simplesmente as melhores ferramentas para criadores de curtas-metragens e histórias em quadrinhos.

Diferentes temas podem ser combinados e sobrepostos, e Vidu pode me entregar um maravilhoso filme de fantasia e artes marciais.

▲Fórmula de combinação: @星野仙尊enfrenta @鬼怪e libera @降龙十八掌 ( Dragão Subjugando Dezoito Palmas), a cena é @大战 (Campo de Batalha) , @智能运镜 (Movimento de Câmera Inteligente)

Em combate corpo a corpo dois contra dois, os movimentos fluidos e graciosos poderiam até mesmo replicar os de Matrix.

@ Consigo tirar uma foto rapidinho, também consigo fazer trabalhos de câmera que valem milhões de dólares.

Após definir as expressões e os movimentos dos personagens, o próximo passo foi o design visual.

A capacidade de controlar a perspectiva e capturar o olhar do espectador é inegavelmente crucial na apresentação de conteúdo em vídeo. Movimento de câmera e composição são elementos-chave; o movimento de câmera determina a forma como a câmera se move e sempre foi a base da linguagem cinematográfica, enquanto a composição determina o enquadramento e o ângulo da tomada.

Na comunidade principal do Vidu, os tipos de enquadramento incluem closes, panoramas, vistas aéreas e imagens em 360 graus. As composições também incluem confrontos em grupo, regra dos terços e composições com ângulos holandeses. As técnicas de câmera são mais diversas, incluindo planos aproximados, panorâmicas, planos circulares e planos de sondagem.

Começamos selecionando aleatoriamente um conjunto de palavras-chave de nossa biblioteca de assuntos, categorizadas por personagem, estilo, cena, atmosfera e movimento de câmera. Não havia muitas palavras de ligação para conectar esses assuntos. O resultado final, apresentado de uma só vez, tinha um ar de blockbuster de Hollywood.

▲Fórmula de combinação: @Atmosfera tensa e opressiva , @Leonardo DiCaprio em pé em um @estacionamento , a câmera primeiro @mostra a cena em 360 graus , depois dá um zoom out para @mostrar o estacionamento vazio em uma vista panorâmica.

Leonardo DiCaprio é o personagem que criamos. Ao enviar de 1 a 3 fotos, selecionar o áudio correspondente e definir o estilo e as instruções, obtemos um personagem reutilizável.

A visão panorâmica de 360 ​​graus acentua ainda mais a atmosfera tensa e opressiva. Quando a câmera se afasta e utiliza uma visão panorâmica , o impacto visual é amplificado; em apenas cinco segundos, a tensão dramática toma conta da cena.

Além do excelente desempenho em ambientes fechados, a configuração de lentes da câmera principal Vidu também apresenta ótimo resultado em espaços abertos e sem limites.

▲Fórmula Combinada: @Vista Traseira, @Garota Enérgica Sentada na Beira de um Arranha-céu, @Drone Afastando o Zoom , @Vista Panorâmica, @Paisagem Urbana de Nanjing e @Atmosfera Inspiradora

Além disso, a comunidade principal do Vidu também fornece rastreamentos de lentes especiais, como a lente @probe . É difícil descrever claramente o trajeto do movimento da câmera em linguagem natural. Agora, podemos chamar diretamente o corpo principal para nos ajudar a realizar rapidamente o deslocamento macro.

▲Fórmula de combinação: @Zheng Kaikai @Estilo Ficção Científica @Cena de Cápsula Espacial @Atmosfera Tecnológica @Lente de Sonda

Muitos vídeos gerados por IA costumam ter uma qualidade de imagem excelente, mas a animação parece artificial. Os novos recursos de movimentação de câmera, mais avançados e adicionados à comunidade principal do Vidu, são de fato muito mais controláveis ​​e fáceis de usar do que antes, quando precisávamos inserir comandos para dizer à IA como mover a câmera e os personagens. Sua compreensão da linguagem profissional de câmera é bastante precisa.

Continue testando a compreensão do movimento de câmera e enquadramento. O plano de aproximação é um dos planos mais básicos do cinema, avançando lentamente de um plano geral para um close-up, criando uma sensação de progressão emocional. Começamos escrevendo as palavras-chave da maneira tradicional: "Elean está em frente ao hospital, está chovendo, a câmera se aproxima do rosto dela e depois se afasta para uma visão aérea."

Deixando de lado a qualidade do movimento de câmera obtida com o uso de instruções, existem muitos aspectos incontroláveis ​​em um vídeo puramente textual, sem um objeto de referência. Por exemplo, o estilo visual pode ser surreal demais, e a apresentação do assunto pode não ser apropriada para o contexto. Geramos o vídeo diversas vezes, e o uso exclusivo de instruções quase nunca nos permitiu controlar a velocidade e o efeito do movimento da câmera em direção à perspectiva aérea.

▲Na versão com o prompt, as pessoas desaparecem na visão aérea e não podem ser mantidas no centro do quadro.

Usando a biblioteca de temas do Vidu, também podemos selecionar diretamente imagens de personagens existentes da comunidade de temas para gerar vídeos. Simultaneamente, selecionamos " Zoom da Câmera " da Biblioteca @Camera e adicionamos uma descrição simples da cena. A primeira geração produziu um vídeo com uma transição natural de zoom in para zoom out e, em seguida, para uma visão aérea.

▲Fórmula Combinada: @Elean está em frente ao hospital , está chovendo, @a câmera dá um zoom em seu rosto e, em seguida, @a câmera se afasta com uma visão aérea.

Essa comparação é muito reveladora. A "compreensão" da geração de vídeo por IA tradicional é errática; gerar a mesma palavra-chave repetidamente é como abrir uma caixa surpresa. A biblioteca de temas, por outro lado, padroniza e encapsula esses conceitos especializados, de modo que o modelo não precisa mais adivinhar qual efeito desejamos.

Não é apenas visualmente atraente; torna a história mais envolvente.

Além disso, a atmosfera, o estilo e as cenas dentro da biblioteca de conteúdo principal determinam a sensação geral do vídeo.

Especificamente, a cena determina o ambiente espacial do vídeo, o estilo define o estilo artístico geral e a atmosfera traz uma nova narrativa para a carga emocional da imagem. A comunidade principal do Vidu também oferece cenários que incluem cápsulas espaciais, hospitais, florestas, cafeterias e luxuosos salões de banquetes; estilos como ficção científica, suspense, cyberpunk e estilo antigo; e atmosferas como tensas e opressivas, alegres, tristes, românticas e afetuosas, e tecnológicas.

Transformamos um luxuoso salão de banquetes em um thriller sombrio e aterrorizante, usando câmera tremida para criar o efeito de observar o ambiente da perspectiva dos personagens, aumentando a sensação de imersão.

▲Fórmula Combinada: O luxuoso salão de banquetes é transformado em uma atmosfera aterrorizante e cheia de suspense , empregando movimentos de câmera instáveis , resultando em um estilo geral de filme de suspense.

Ele pode exibir mudanças na atmosfera por meio da iluminação ambiente, outras atmosferas dentro da comunidade principal de Vidu e até mesmo combiná-las com expressões dos personagens.

Também pode adicionar uma atmosfera romântica e carinhosa para @LeonardoDelGregor e @MarilynMonroe . O vídeo final gerado pelo Vidu tem excelentes efeitos de luz e sombra. No modo panorâmico, utiliza uma atmosfera de dia chuvoso relativamente escura, mas quando dá zoom automaticamente nos rostos dos dois, a imagem clareia automaticamente.

▲Fórmula de teste: @Retrato de grupo confrontando @Leonardo DiCaprio e @Marilyn Monroe @Atmosfera romântica e afetuosa , fundo: @cafeteria

Ao testar essas diferentes categorias de entidades, confirmei uma coisa: as combinações de múltiplas entidades não são simplesmente um "empilhamento funcional". O Vidu implementou um mecanismo de coordenação no nível subjacente, permitindo que diferentes entidades cooperem entre si.

Essa sensação de sinergia é o que mais falta na geração de vídeos por IA tradicional. Não importa o quão detalhados sejam os comandos, é difícil para o modelo entender simultaneamente o equilíbrio entre ângulos de câmera, atmosfera e efeitos especiais.

Mais interessante ainda é que não só podemos usar diretamente a biblioteca de assuntos para gerar vídeos; o Vidu também transformou esses assuntos em uma comunidade onde podemos compartilhar, interagir e trocar conteúdo.

▲Os usuários podem enviar seus próprios designs.

Cada um de nós pode criar e carregar seus próprios temas, além de usar temas de outros usuários. Durante o processo de criação e uso, a Vidu implementou um modelo de monetização de ativos, tornando cada tema negociável .

Em conjunto com o Vidu Agent 1.0 e o modelo Vidu Q2 Reference Pro , recentemente atualizados, oferece um fluxo de trabalho mais automatizado, está pronto para uso imediato e permite a criação de vídeos com um único clique, equilibrando perfeitamente flexibilidade e conveniência. Os novos recursos aprimorados incluem suporte para upload de música de fundo, remoção de narração, edição de storyboards e uma vasta biblioteca de materiais com suporte para vários idiomas, vozes, modelos e cenas.

Por outro lado, existe um modelo básico mais potente que pode replicar diretamente o Q2 Reference Pro com diferentes efeitos de vídeo.

A Vidu parece estar adquirindo uma compreensão mais clara do caminho da geração de vídeo por IA.

De "jogos gacha" a "construir com Lego"

Após esta rodada de testes, tenho uma compreensão mais clara da comunidade principal do Vidu. Além de ser uma ferramenta melhor que pode nos ajudar a gerar vídeos de IA com mais qualidade, ela visa mudar todo o fluxo de trabalho de geração de vídeos.

A geração tradicional de vídeos por IA é um "sistema gacha". Escrevemos uma série de instruções, esperamos que o modelo as entenda e, então, apostamos na probabilidade. Se tivermos sorte, conseguimos um vídeo de alta qualidade; se não tivermos sorte, não conseguimos nada além de lixo. O problema com esse sistema é que o processo de criação é incontrolável e a barreira profissional ainda existe de outra forma (referindo-se à engenharia de instruções).

A comunidade principal do Vidu segue um "modelo LEGO", decompondo elementos profissionais em módulos padronizados. Basta selecionar, combinar e gerar. A principal vantagem desse modelo é a controlabilidade; ao escolher um elemento principal, geralmente sabemos qual será o efeito, em vez de simplesmente contar com a sorte.

Quem se beneficia mais com essa mudança? Criadores de conteúdo independente, autores de curtas-metragens e histórias em quadrinhos, equipes de marketing de e-commerce e proprietários de pequenas e médias empresas. Eles precisam produzir conteúdo de vídeo de alta qualidade em grande quantidade, mas não dispõem de equipes profissionais nem de grandes orçamentos. Para eles, a Mainstream Library equivale a contratar uma "equipe de produção virtual" por um valor acessível.

▲Processo complexo de produção de vídeo

Criadores independentes, designers e profissionais de publicidade também se beneficiarão. A biblioteca de temas pode suprir suas lacunas, permitindo que criem cenas e efeitos especiais incríveis sem precisar aprender After Effects do zero.

Num contexto industrial mais amplo, a comunidade principal da Vidu representa um passo significativo na "industrialização" da geração de vídeo por IA.

Ao longo do último ano, o principal campo de batalha na geração de vídeo por IA tem sido qual modelo é o mais robusto — Korlin, Runway, Sora e Veo têm competido em qualidade de imagem, duração e consistência. Mas, à medida que a tecnologia atinge um certo nível de desenvolvimento, a dimensão competitiva mudará para "como gerar", ou seja , fluxo de trabalho, controlabilidade e reutilização.

Essa transformação segue essencialmente a mesma lógica das Habilidades do Claude. O valor das Habilidades não reside em tornar o Claude mais inteligente, mas sim em tornar suas capacidades previsíveis, invocáveis ​​e combináveis. Os usuários não precisam mais adivinhar "Será que ele vai entender o que eu quero dizer desta vez?", mas sabem com certeza "Eu invoquei esta Habilidade e ela funcionará desta maneira".

▲Claude oferece uma seleção de habilidades, cada uma capaz de resolver diretamente um problema específico.

A biblioteca principal do Vidu faz exatamente a mesma coisa. Ela transforma a geração de vídeos de um "jogo gacha" em "comandos precisos". Essa certeza é a chave para realmente reduzir a barreira de entrada.

Para criadores que realmente têm ideias, senso estético e habilidade para contar histórias, isso é uma coisa boa. Eles finalmente não estão mais limitados por barreiras técnicas e podem concentrar sua energia nas partes realmente importantes.

Em outras palavras, a nova comunidade principal do Vidu pode nos ajudar a conseguir um close-up perfeito, mas não pode nos ajudar a decidir onde esse close-up deve aparecer na história, que tipo de ritmo emocional o zoom deve seguir ou como esse plano e os planos anteriores e posteriores a ele devem criar tensão narrativa.

▲A comunidade principal inclui algumas das principais entidades

Essas decisões ainda exigem o discernimento e o senso estético de nós, criadores humanos.

É claro que ainda há espaço para melhorias, como o limite de 8 segundos e a abrangência da biblioteca principal, mas essas são áreas que podem ser aprimoradas e otimizadas. Mais importante ainda, a comunidade principal do Vidu assumiu a liderança, provando que o caminho da "padronização + composibilidade" é viável.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo