Após o Nano Banana 2, outro gerador de imagens com inteligência artificial desenvolvido no país surgiu como uma “referência de consistência”: o gerador de imagens da Vidu está disponível por tempo limitado com acesso gratuito e ilimitado.

Sinceramente, a relação que tenho com as ferramentas de geração de imagens por IA é, por vezes, de amor e ódio.

Quando você o conhece pela primeira vez (na primeira vez que é gerado), você o acha incrível, perfeito em todos os sentidos; mas quando você quer desenvolvê-lo ainda mais (transformá-lo em uma série de diagramas, implementá-lo em um fluxo de trabalho), ele começa a "deixar a desejar" e cai no mistério do gacha.

Esse estado de "só pode observar, não pode lutar" torna extremamente difícil usá-la para trabalho. No entanto, com o surgimento de ferramentas como o Nano Banana, as coisas finalmente começaram a mudar, revelando que a IA pode ser controlada com mais precisão.

Agora, finalmente, a IA doméstica está assumindo o controle e abrindo ainda mais caminho. As funções recém-lançadas de texto para imagem, referência para imagem e edição de imagem do Vidu Q2 seguem essa linha: depois de deixar a imagem "apresentável", o foco passa a ser a "estabilidade".

Desta vez, a Vidu Q2 concentrou todos os seus esforços na "consistência". O que isso significa? Significa eliminar completamente problemas antigos como "quebra de personagem", "distorção do produto" e "mudança repentina de estilo".

Em resumo, não se trata apenas de permitir que você mostre suas habilidades nas redes sociais; trata-se de fornecer um fluxo de trabalho criativo prático que você possa usar "do início ao fim".

Nos mais recentes rankings da AA, os recursos de edição de imagem do Vidu Q2, lançados pela primeira vez, superaram até mesmo o GPT-5 da OpenAI . O mais louvável é que, como uma startup com pouco mais de dois anos de existência, ela já demonstrou sua capacidade tecnológica ao figurar entre as três melhores, ao lado de gigantes como Google e ByteDance , alcançando o Nana Banana Pro e capturando verdadeiramente a essência da "sem preocupações".

A Vidu também está oferecendo um "pacote de brindes grátis" com duração de um mês, abrindo suas portas para que todos possam aproveitar as ofertas. De agora até 31 de dezembro, os membros da Vidu podem usar imagens RAW gratuitamente, sejam elas imagens de referência, imagens com texto ou para edição de imagens — eles podem criar o que quiserem. Os membros dos planos Standard e Professional também recebem 300 imagens gratuitas por mês, enquanto a versão premium oferece imagens RAW gratuitas ilimitadas.

Hoje, vamos aproveitar esta oportunidade de "recarga ilimitada" para colocar a função de imagem RAW da Vidu Q2 à prova e ver se ela realmente pode salvar nossas linhas de cabelo.

Comece com uma imagem; o resto fica por conta da sua imaginação.

Entre as ferramentas de IA, o Vidu foi um dos primeiros a refinar a "criação contínua de referências em torno de uma única imagem" como uma capacidade essencial. Ele suporta o maior número de imagens de entrada e possui a maior consistência na geração de imagens com múltiplos parâmetros na China .

Na recente atualização do Vidu Q2, essa capacidade deu um grande passo adiante: ela não só suporta combinações de múltiplas referências mais complexas, como também reduz significativamente o obstáculo para a criação de imagens brutas. Designers, diretores e até mesmo usuários comuns que gostam de criar podem fornecer imagens de objetos e referências ambientais à sua maneira, e o modelo consegue replicar a ação, posição, layout, textura, iluminação, cor, etc., com um único clique, alinhando-se automaticamente com a imagem de referência necessária e mantendo o personagem inalterado.

Imagem bruta com múltiplos parâmetros

No cenário de imagens brutas com múltiplos parâmetros, as imagens brutas que fornecemos ao Vidu Q2 são muito próximas do fluxo de trabalho real: uma é o recente frango Dawan "de primeira linha" dos Jogos Nacionais, e a outra é a atmosfera da cena que esperamos criar, a plataforma de observação do Bund ao pôr do sol.

Então escrevi um pequeno texto explicativo e deixei o resto por conta própria.

Quando os resultados saíram, eu simplesmente disse: "Respeito!"

Não se trata de uma abordagem simplista que apenas recorta o sujeito e o cola; ela realmente "recalcula" a iluminação e as sombras dentro da cena. A direção da luz e das sombras do sujeito se alinha com o ambiente, e seus movimentos mudam precisamente de acordo com os comandos.

Cheguei até a imprimir em um carro, e o sistema calculou perfeitamente as cores do reflexo na carroceria.

Mais importante ainda, muitas imagens mantêm um alto grau de consistência ao gerar diferentes composições e poses várias vezes, como o padrão no peito da galinha Da Wan e a crista colorida em sua cabeça. Isso é algo que geralmente é difícil de alcançar no processo tradicional de geração de imagens, que depende do ajuste rápido de parâmetros.

Isso é realmente genial. No passado, para as marcas inserirem um personagem de uma propriedade intelectual em pôsteres em diferentes cenários, era necessário modelar, renderizar e editar as imagens. Agora? Pode ser feito em segundos, e essa "incongruência" desapareceu completamente.

Consistência espacial

O que é ainda mais impressionante é a capacidade de Vidu de compreender relações espaciais. Quando pedi a "galinhas Dawan que serpenteassem entre as grades esculpidas da Cidade Proibida", Vidu não atravessou as grades como outras IAs, nem transformou a cena em um filme de terror.

Na verdade, o programa "imaginou" a estrutura espacial da Cidade Proibida com base no mapa ambiental, permitindo que a Galinha Da Wan caminhasse naturalmente pelo corredor.

Vamos aumentar a dificuldade fazendo com que o personagem controlado pela IA utilize movimentos complexos de artes marciais como referência.

No passado, os personagens de IA não conseguiam reproduzir com precisão os movimentos complexos que você criava; ou os movimentos ficavam distorcidos, ou o personagem parecia completamente diferente durante o combate. Agora, com as imagens de referência do Vidu Q2, esse problema está resolvido para os criadores de IA. Você pode replicar movimentos com um único clique, permitindo que seu protagonista de IA possua uma ampla gama de habilidades.

No exemplo abaixo, os dois protagonistas do anime recriaram com precisão as poses de luta da Figura 1, mantendo um alto grau de consistência em suas roupas, detalhes faciais e relações espaciais.

Essa compreensão de "espaço" permite que as imagens de referência vão além de serem simplesmente coladas como planos de fundo; elas realmente se tornam capazes de servir ao storyboard e ao planejamento das cenas .

Essa compreensão do espaço é incrivelmente útil para criar storyboards de filmes ou pôsteres de grupo, como os do recente sucesso "Zootopia 2".

Por exemplo, no caso abaixo, a mesma imagem combinada com diferentes enquadramentos de câmera pode gerar closes, planos gerais e closes de um jogador de futebol chutando uma bola, e então editá-los em uma cena narrativa completa por meio da conversão de imagem para vídeo. Para curtas-metragens, animações e produções cinematográficas, isso elimina a necessidade de múltiplas tomadas ou storyboards extensos para uma única cena, tornando-se uma ferramenta de produtividade verdadeiramente eficiente.

Em seguida, utilizando a função de conversão de imagem em vídeo do Vidu Q2, gere um vídeo com os melhores momentos dos dois jogadores disputando a bola no campo de futebol:

Em termos de consistência de estilo, as funções tradicionais de geração de imagens a partir de texto por IA têm grande imaginação, mas frequentemente apresentam baixa consistência, com estilos inconsistentes e mistura de caracteres sendo ocorrências comuns. Em contraste, o Vidu Q2 não só suporta centenas de estilos de anime, como também mantém a consistência de estilo e a coerência narrativa nas múltiplas imagens contínuas geradas.

Por exemplo, o editor de texto Vidu Q2 pode gerar uma história em quadrinhos de quatro quadros a partir de apenas algumas frases. Ele não só mantém a consistência no estilo e nos personagens, e os detalhes permanecem estáveis, como também consegue contar uma história completa em poucas frases:

Esses casos demonstram que as melhorias da Vidu em imagens de referência vão além de simplesmente "fazer a imagem parecer com a imagem de referência". Em vez disso, incorporam "consistência do sujeito" e "compreensão espacial" em seu design . Por um lado, consegue gerar de forma confiável um conjunto completo de imagens de uma pessoa a partir de diferentes ângulos, em diferentes atmosferas, estilos e sob diferentes condições de iluminação, tudo com base na imagem de referência. Por outro lado, trata as imagens ambientais como espaços reais, em vez de simplesmente como texturas de fundo.

Mais do que um simples brinquedo, é uma verdadeira "arma de batalha".

Se a imagem de referência resolve o problema de "como decidir qual a primeira imagem", então a nova edição de imagens do Vidu Q2 integra verdadeiramente essa imagem ao fluxo de trabalho diário, permitindo um controle mais preciso da imagem e atendendo às necessidades de cenários comerciais reais.

O posicionamento do Vidu nessa área é muito direto: ele abrange 90% dos cenários comuns de edição de imagens — adicionar elementos, remover elementos, alterar planos de fundo, alterar cores, ajustar a iluminação, aplicar zoom e alterar proporções, tudo isso pode ser feito usando linguagem natural , mantendo a consistência do assunto durante todo o processo contínuo de modificação.

No teste de substituição e edição parcial, tentei substituir um anúncio de estação de trem por uma imagem do Musk. Antes, eu teria que recortar a imagem até ficar cego, mas agora leva apenas alguns segundos e consigo replicá-la diretamente com um clique.

No futuro, ao ver um anúncio ou capa popular, você poderá replicá-lo facilmente em massa com um único clique, exportá-lo em 4K e fazer o upload diretamente. Criar anúncios e conteúdo para redes sociais nunca foi tão fácil.

De forma semelhante, no caso seguinte, o requisito era adicionar taças de vinho a três meninas — a Q2 não só cumpriu o requisito, como também refinou os detalhes das mãos das três meninas, levando em consideração a refração da luz nas taças de vinho.

A edição de imagens é uma habilidade verdadeiramente "prática", especialmente em cenários como comércio eletrônico ou marketing em mídias sociais. Muitas imagens de produtos inicialmente consistem apenas em um desenho simples: o designer fornece um esboço, enquanto a equipe de operações precisa de uma imagem principal que possa ser carregada imediatamente.

É aqui que os editores de imagem realmente brilham. Usamos o Vidu para realizar um exercício completo de esboço, coloração e substituição de materiais. Primeiro, geramos desenhos de linha dos móveis e, em seguida, os usamos diretamente como imagem de referência com um único clique, especificando os materiais e o estilo no prompt.

A Vidu utiliza renderização de materiais para criar imagens realistas altamente detalhadas e precisas em uma única etapa. Em seguida, com um único clique, a imagem pode ser reutilizada, exibindo o sofá em diversos estilos de decoração com sugestões de uso.

Alterar o material do mesmo produto também pode ser feito com facilidade.

É possível perceber que os recursos de edição de imagem do Vidu Q2 colocam em prática as "capacidades inerentes à era das imagens RAW com múltiplos parâmetros": identificar quem é o sujeito na imagem, fixá-lo e, em seguida, permitir adicionar, excluir e modificar tudo ao redor em linguagem natural, mesmo em várias imagens e um vídeo.

É como antigamente, quando você tinha que ajustar vários parâmetros ao dirigir um carro manual, mas agora o Vidu oferece um sistema de direção autônoma. Você só precisa se concentrar nos aspectos criativos, e ele cuida de todo o resto do trabalho tedioso.

Isso também envolve outra funcionalidade muito útil: salvar o assunto principal. Podemos salvar a imagem bruta/imagem bruta de referência/imagem após a edição do Q2 como assunto principal com um clique, "adicionando este IP à biblioteca de personagens". Posteriormente, o assunto principal pode ser chamado diretamente no vídeo bruto de referência do Vidu.

Depois disso, seja alterando o plano de fundo, a ação ou inserindo o personagem em uma nova cena, contanto que você selecione esse personagem ou propriedade intelectual, o modelo manterá rigorosamente a consistência do personagem, e não haverá nenhuma situação em que o protagonista gerado no segundo seguinte seja diferente do do segundo anterior.

Imagens de referência brutas – salve o assunto principal – vídeos de referência brutos. O Vidu simplificou o fluxo de trabalho da inspiração ao produto final , eliminando a necessidade de alternar entre diferentes plataformas. É uma dádiva para profissionais de curtas-metragens, animação, publicidade e comércio eletrônico. A API já está disponível.

Na área da IA, esqueça a "disrupção" e concentre-se em "fazer o trabalho".

Para os criadores, como era trabalhar com IA no passado? Provavelmente era uma experiência agridoce: num segundo, ela te dava uma imagem incrível, no segundo seguinte, você entrava em colapso mental pelas próximas dez horas porque não conseguia recriar aquele visual.

Na encruzilhada da evolução das ferramentas criativas baseadas em IA, observamos duas filosofias de produto distintas.

Produtos como o Midjourney são como um "motor" poderoso que apenas os geeks mais dedicados conseguem dominar, com seus parâmetros complexos e instruções quase repetitivas, que buscam levar os limites estéticos de uma única imagem ao extremo.

É legal, é nerd, mas também é incrivelmente torturante.

O Vidu Q2, por outro lado, optou por um caminho mais pragmático, até mesmo aparentemente "monótono": criar um "carro produzido em massa" que qualquer pessoa possa dirigir. Ele não se concentra mais em gerar surpresas aleatórias, mas prioriza a estabilidade.

Esse tipo de fluxo de trabalho "à prova de falhas", que engloba todas as etapas, é a verdadeira produtividade. Afinal, para equipes que estão constantemente sob pressão de clientes para revisar rascunhos e de equipes operacionais para lançar produtos, a "certeza" da entrega é muito mais importante do que a "aleatoriedade" de uma inspiração repentina.

Talvez, ao explorar certos estilos artísticos extremos, não seja tão selvagem e livre quanto as ferramentas parametrizadas, e, por buscar demais a estabilidade, careça da inspiração das "surpresas inesperadas".

Mas para os criadores que sofrem com a mecânica gacha, o Vidu Q2 oferece uma sensação de segurança há muito perdida.

Enquanto a indústria discute a grande narrativa da Inteligência Artificial Geral (AGI), a Vidu se mantém discreta e para de criar sonhos irreais; ela te ajuda a construir uma base sólida para o seu trabalho.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo