Primeiras Impressões: O tão aguardado HappyHorse 1.0 já está disponível gratuitamente na Qianwen.

O HappyHorse 1.0, o modelo de geração de vídeos que já liderou o ranking do Artificial Analysis AI Video Arena , está finalmente disponível em sua versão oficial. Agora você pode usá-lo diretamente abrindo o aplicativo Qianwen e o cliente web Qianwen Creator (c.qianwen.com), e há até mesmo vagas de teste gratuitas disponíveis.

Há algum tempo, um modelo de geração de vídeos chamado HappyHorse 1.0 discretamente alcançou o topo do ranking de vídeos com IA na renomada plataforma de avaliação de IA, Artificial Analysis, gerando ampla discussão nas redes sociais. O mistério foi resolvido quando o Alibaba reivindicou oficialmente a propriedade do HappyHorse; este pequeno cavalo feliz era originário do recém-criado grupo de negócios ATH do Alibaba, com menos de um mês de existência.

Hoje, a Alibaba anunciou os canais de experiência para o HappyHorse 1.0. A plataforma oficial Qianwen será a primeira a realizar um teste em escala de cinza, e poderá ser usada diretamente tanto no aplicativo Qianwen quanto no cliente web Qianwen Creator.

No aplicativo móvel (Qianwen APP) , basta atualizar o Qianwen para a versão mais recente e clicar no ícone "HappyHorse" na página inicial para acessar diretamente o painel de criação de vídeos ao vivo do HappyHorse 1.0. O Qianwen também oferece um período de teste gratuito.

A versão web para PC (Qianwen Creation Web Client) destina-se a usuários com necessidades criativas mais profissionais. Os usuários podem fazer login e utilizá-la abrindo o endereço c.qianwen.com em seu navegador. Cada atualização no cliente web consome pontos, mas, no geral, oferece uma relação custo-benefício relativamente boa.

Tanto os vídeos baseados em texto quanto os baseados em imagens suportam uma resolução máxima de 1080p. Os usuários podem escolher livremente as proporções de tela de 16:9, 9:16 ou 1:1, com durações de 5, 10 ou 15 segundos, e a geração de áudio nativo também é suportada.

A APPSO testou o aplicativo assim que foi lançado. As avaliações falam por si, mas quais são exatamente as vantagens dos vídeos gerados pelo HappyHorse 1.0? Vamos conferir nosso teste prático.

Através de testes práticos, percebe-se que o HappyHorse 1.0 não se concentra em opções de referência complexas e integradas, mas sim na naturalidade dos movimentos, sons e espaços. Aliado a uma linguagem de câmera adequada e à reprodução precisa do estilo, o desempenho geral é realmente impressionante.

Com um único comando, você pode controlar tanto o movimento da câmera quanto o storyboard.

A maioria dos modelos de vídeo convencionais trata o movimento da câmera como uma biblioteca para os usuários utilizarem. O chamado movimento da câmera é, na verdade, uma escolha aleatória de um método de movimento dessa biblioteca, como dar zoom in, zoom out ou girar, sem que ele corresponda de fato ao que está acontecendo na tela.

Sendo a parte mais importante de um vídeo, a diferença na presença da câmera costuma ser imediatamente perceptível, mas é difícil de quantificar com valores específicos.

A forma como HappyHorse 1.0 lida com a situação também é louvável; o timing das transições de câmera deve servir à obra. Quando a emoção precisa ser intensificada, a câmera dá um zoom; quando o ambiente precisa ser explicado, temos uma visão panorâmica; por trás disso, há uma encenação com lógica narrativa.

A mesma palavra-chave, quando fornecida a vários modelos para gerar imagens de vídeo, pode tender a resultar em uma "posição de câmera fixa", com o sujeito parado no centro e sem movimento da câmera. Isso ocorre porque é a opção com menor probabilidade de erros, mas prejudica significativamente a experiência geral de visualização.

No vídeo gerado, o HappyHorse 1.0 age como um diretor de fotografia experiente, empregando diversos movimentos de câmera de nível profissional, desde tomadas panorâmicas até closes da poeira levantada pelos cascos do cavalo, e então alternando suavemente para uma tomada em ângulo baixo do momento em que a arma é sacada.

O projeto rompe com o modelo tradicional de geração de vídeo por IA, que "escolhe a mediocridade em prol da estabilidade" e utiliza uma composição segura, com excelente trabalho de câmera, para capturar a tensão dinâmica desta cena de perseguição em sua forma original.

As emoções e os movimentos tornaram-se mais sutis; até mesmo microexpressões podem ser usadas na atuação.

Para muitos modelos de vídeo, o movimento do personagem é o problema mais difícil de resolver. Mesmo com a geração de referências detalhadas, distorções ainda podem ocorrer facilmente na segunda metade da animação, como um dedo extra, um rosto borrado ou mudanças abruptas no ritmo dos movimentos.

No entanto, o HappyHorse 1.0 apresentou um desempenho muito consistente nessa métrica fundamental. Em um vídeo de 5 segundos, os movimentos do personagem permaneceram praticamente contínuos do início ao fim, com significativamente menos erros de continuidade.

Para dar um exemplo específico, a deixa que usamos foi uma menina de vestido branco caminhando em um campo de flores, movendo-se da esquerda para a direita da tela. A câmera a seguiu enquanto ela girava o vestido e pegava uma flor para cheirar.

O HappyHorse 1.0 proporciona transições muito naturais entre os movimentos. A garota caminhando entre as flores não apresenta nenhum daqueles deslizes típicos do "moonwalk". Desde o giro da saia até o momento em que segura as flores perto do nariz, todo o movimento é suave e natural.

Os movimentos são complexos e as expressões da personagem são igualmente realistas. Criamos um vídeo de uma criança mordendo um limão azedo, mostrando a sensação inicial da mordida, a acidez intensa causando tensão nos músculos faciais, rugas e olhos fechados com força, a acidez diminuindo gradualmente, os músculos faciais relaxando lentamente e, finalmente, a criança abrindo bem os olhos em perplexidade.

Ao utilizar ações e expressões, as emoções dos personagens tornam-se mais sutis, e os vídeos gerados pelo HappyHorse 1.0 têm menos probabilidade de distrair o espectador da história.

Os dados oficiais mostram que a pontuação GSB (Good-Significant-Ruim, ou seja, a pontuação de preferência humana) interna do HappyHorse 1.0 é 3 vezes maior que a do Wan2.7, com melhorias significativas na suavidade e clareza dos movimentos.

Os diálogos soam mais realistas e os sons ambientes começam a participar da narrativa.

Além da apresentação visual, o HappyHorse também supera outros modelos na dublagem de vídeo por IA.

A maioria das dublagens de vídeo geradas por IA sofre de um problema persistente: parece que a voz está sendo "lida" em vez de "falada".

O tom de voz é monótono e a entonação não acompanha as emoções. Quando duas pessoas conversam, uma fala enquanto a outra permanece em silêncio, sem reagir ou mudar de expressão, como se cada uma estivesse realizando suas próprias tarefas.

Em HappyHorse 1.0, o diálogo realmente parece contextualizado. O tom e a entonação combinam com as emoções da cena; a entonação é apropriada quando há surpresa, e o ritmo é relaxado quando há relaxamento. Em cenas com várias pessoas conversando, o ouvinte também age naturalmente, com expressões faciais e reações musculares sutis, e não apenas se distraindo e esperando a próxima frase.

A mesma lógica se aplica aos sons ambientes. Os sons de escrita, de virar páginas e ruídos de fundo distantes estão ausentes na maioria dos modelos de vídeo, ou soam como se tivessem sido retirados aleatoriamente de uma biblioteca de efeitos sonoros.

Em HappyHorse 1.0, os sons correspondem perfeitamente aos eventos que se desenrolam na tela e ressoam com as emoções. Em cenas tranquilas, o som de papel farfalhando pode ser mais envolvente do que a maioria das músicas de fundo.

Outra funcionalidade menos comum, mas prática, é a sincronização labial multilíngue, que abrange mandarim, cantonês, inglês, japonês, coreano, alemão, francês e outros idiomas.

Ao inserir texto em chinês, é gerado um vídeo de um personagem falando, com os movimentos labiais perfeitamente sincronizados com a fala. O potencial dessa funcionalidade é enorme, abrangendo desde dublagens de vídeos curtos até apresentadores virtuais, e todas essas possibilidades serão utilizadas no futuro.

Sem necessidade de dicas de estilo complicadas, domine facilmente os estilos clássicos do cinema e da televisão.

Se os pontos sobre ângulos de câmera, movimento e som abordaram as questões de hardware do vídeo com IA — garantindo que a imersão do espectador não seja quebrada —, então a fidelidade estilística se concentra em tornar os visuais finais mais envolventes. Ela começa a usar cor, iluminação e textura para estabelecer a atmosfera estética que pertence ao criador.

Adicionar estilos também é muito importante. Não se trata apenas de aplicar um filtro ou uma LUT pré-definida. É necessário que o modelo de vídeo compreenda diferentes estilos estéticos para aplicar a estilização adequada.

O HappyHorse 1.0 demonstra uma atenção excepcional aos detalhes na reprodução de estilos específicos. Os estilos de vários filmes clássicos e séries de televisão, a granulação dos antigos filmes de Hong Kong e os destaques sutis são todos evidentes nos resultados da nossa produção.

Seja o peso histórico bruto e realista do estilo antigo de Water Margin/Three Kingdoms, o estilo clássico de Hong Kong com sua luz e sombra difusas, o alto contraste e a luz e sombra frias dos dramas americanos, ou a atmosfera dos dramas coreanos com sua luz delicada e suave, ele consegue capturar tudo com precisão.

Se você é um criador que busca qualidade visual, recomendo fortemente que experimente em primeira mão esse controle estético de "nível de diretor" em Qianwen.

A indústria de vídeos com IA precisa de um azarão.

Diga adeus às filas intermináveis ​​para geração de vídeos. Um modelo que alcançou o primeiro lugar na lista da Video Arena agora não só está disponível no aplicativo móvel, como também oferece um período de teste gratuito. A iniciativa da Qianwen é realmente impressionante.

Analisando esses recursos do HappyHorse 1.0, as ações são fluidas e as tomadas transmitem uma sensação de diálogo , resolvendo o problema da previsibilidade na qualidade do conteúdo gerado por IA. Isso nos permite experimentar a geração de vídeos por IA sem precisar encará-la com a mentalidade de "ganhar em um jogo de gacha".

O diálogo natural, os sons ambientes realistas e a reprodução estilística precisa reduzem significativamente os custos de pós-produção para nós e para os criadores, eliminando a necessidade de alternar entre várias ferramentas.

Se aplicarmos essa capacidade de gerar dados com barreiras de entrada extremamente baixas e alta tolerância a erros a um contexto empresarial específico, seu valor se torna óbvio.

Para operações de novas mídias, diretores de curtas-metragens ou equipes de marketing de e-commerce, o storyboard, o design conceitual ou os curtas-metragens visuais que antes exigiam grandes equipes de pós-produção e altos orçamentos de filmagem agora podem ser implementados rapidamente, simplesmente inserindo instruções em um celular ou computador. Na Qianwen, uma única pessoa é uma equipe de produção audiovisual altamente eficiente.

▲Agora podemos obter um vídeo de âncora virtual real sobre Qianwenli.

Há algum tempo, a lógica competitiva no campo da geração de vídeo tem sido "qual modelo é o mais forte" — maior resolução, maior duração e simulação física mais complexa.

É uma competição técnica de parâmetros e algoritmos, mas o verdadeiro gargalo que encontramos raramente é porque "o modelo não consegue fazer isso". Na maioria das vezes, é porque "conseguimos fazer isso, mas não temos recursos para usar ou não podemos usar". O tempo de espera é muito longo, o áudio e o vídeo precisam ser processados ​​separadamente e a estabilidade da animação depende inteiramente da sorte. O atrito em cada etapa impede que a geração de vídeo esteja ao alcance de usuários profissionais e supercriadores de IA.

Desta vez, Qianwen não só nos poupou o trabalho de alternar entre diferentes ferramentas e colocou os melhores recursos de geração de vídeo diretamente na caixa de diálogo mais familiar, como também eliminou completamente esses atritos criativos, um a um, aproveitando o poder do modelo subjacente.

Qianwen agora é uma assistente de IA completa para trabalho, estudo, vida e criação.

Sem dúvida, a HappyHorse é uma forte candidata a surpreender. Ela é uma peça fundamental no quebra-cabeça da cadeia de valor do recém-criado grupo de negócios ATH da Alibaba, que engloba recursos de modelagem, distribuição de plataforma e aplicações específicas. Após os testes iniciais em escala reduzida na Qianwen, a rede começou a operar.

Desde diálogos baseados em texto que ajudam os usuários a resolver problemas cotidianos e a melhorar a eficiência no trabalho e nos estudos, até a atual integração de imagens e vídeos de alta qualidade gerados por IA, a trajetória evolutiva da Qianwen é muito clara: ela está rompendo as barreiras entre "melhoria da eficiência na vida" e "criação profissional".

Por meio de repetidas iterações de recursos, o Qianwen está democratizando o poder computacional de ponta, transformando-se verdadeiramente de uma simples ferramenta de perguntas e respostas em um "assistente de IA completo" que abrange todos os cenários de uso.

Como pessoas comuns, talvez não precisemos nos preocupar com a complexa arquitetura do algoritmo por trás disso, porque a melhor tecnologia já foi instalada em seu telefone da maneira mais tranquila possível através do Qianwen.

Agora, é a vez de todos subirem ao palco.

Se você quiser experimentar os poderosos recursos de geração de vídeo do HappyHorse 1.0, a Qianwen também lançou o desafio "Imaginação Desencadeada". Há quatro categorias de vídeo AIGC com uma premiação total de 200.000 RMB esperando por você.

Acesse diretamente o aplicativo Qianwen ou a plataforma web Qianwen Creator e deixe sua inspiração realmente "dar asas à sua imaginação" nesta nova tela sem barreiras.

* Clique neste link para visualizar o vídeo dentro do artigo.*

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.