Exclusivo: YouTube revela como pode fazer você falar línguas que você não conhece
Seria um eufemismo dizer que a indústria de conteúdo em vídeo está atualmente em um ponto de inflexão. De um lado, temos a IA potencializando o potencial criativo dos criadores de conteúdo, mas do outro lado do oceano, o problema da desorganização e da desinformação da IA persiste. O potencial da IA, no entanto, não pode ser ignorado.
O pessoal do YouTube está fazendo bom uso disso, com foco em acessibilidade e realismo. Então, o que vem a seguir? Fazer os lábios se moverem naturalmente ao som de qualquer idioma, mesmo que o falante do vídeo não o fale. Com base no recurso de dublagem automática lançado no ano passado, a equipe agora criou o novo recurso de sincronização labial com inteligência artificial.
O áudio traduzido automaticamente melhorou drasticamente nos últimos trimestres e agora soa quase natural. As visões gerais de áudio no NotebookLM do Google são um ótimo exemplo. Mas, quando se trata de vídeos, eles não funcionam porque o movimento dos lábios simplesmente não corresponde ao que o orador está dizendo com uma versão traduzida do roteiro.
É bastante chocante e desanimador. O recurso de sincronização labial com tecnologia de IA busca superar essa dissonância audiovisual. E, pelas amostras que vi até agora, elas parecem estranhamente naturais. Conversei com Buddhika Kottahachchi, Líder de Produto do YouTube para Autodubbing, para entender como a sincronização labial foi desenvolvida, seu impacto e o futuro.
Investigando o lado técnico
Em menos de um ano desde o seu lançamento, o recurso de dublagem automática do YouTube já foi usado para dublar mais de 60 milhões de vídeos em 20 idiomas. Mas preservar um tom natural com todas as nuances de uma conversa e, em seguida, combiná-lo com movimentos labiais realistas é um desafio totalmente novo.
Superficialmente, Kottahachchi me diz que o sistema de sincronização labial "modifica os pixels na tela para corresponder à fala traduzida". É uma pilha de tecnologia personalizada, o executivo do Google me diz, acrescentando que eles precisavam desenvolver uma compreensão 3D do mundo, formatos dos lábios, dentes, postura e rosto.
Por enquanto, a tecnologia é adequada para vídeos em Full HD (1080), mas não para vídeos em 4K. "Mas, em geral, deve funcionar com as resoluções de vídeo que você carrega", ressalta. Quanto ao suporte a idiomas, o recurso de sincronização labial do YouTube, com tecnologia de IA, oferece suporte a inglês, espanhol, alemão, português e francês.
Esse é um grupo bastante restrito, mas Kottahachchi me conta que a equipe está expandindo e que a sincronização labial eventualmente suportará o mesmo conjunto de idiomas que o recurso de dublagem automática (que atualmente conta com mais de 20 idiomas). Para efeito de comparação, o recurso de sincronização labial do Meta, alimentado por IA, para Facebook e Instagram suporta apenas inglês, espanhol, hindi e português.
A sincronização labial com IA não é um conceito totalmente desconhecido. A Adobe já oferece essa funcionalidade. Há também opções de terceiros, como a HeyGen, que prometem fazer isso gratuitamente. Mas, quando se trata do YouTube, estamos falando de um sistema integrado em larga escala em uma plataforma onde 20 milhões de vídeos são enviados diariamente.
O peixe Babel da IA para o seu rosto
Então, o que vem a seguir em termos de disponibilidade? "Não estamos prontos para fazer declarações amplas sobre a amplitude da nossa disponibilização, mas queremos disponibilizá-la a mais criadores e entender as restrições de computação e a qualidade", diz Kottahachchi. E isso nos leva à questão crucial do custo.
Quando perguntei sobre isso, o executivo do YouTube me disse que eles não podem fazer previsões sobre a taxa envolvida, se é que podem. Isso também explica por que o recurso ainda faz parte de um projeto piloto entre um pequeno grupo de testadores confiáveis para entender o mercado e calcular os custos. Vale lembrar que esta é uma implementação complexa de IA baseada em visão.
Assim como acontece com os vídeos gerados por IA, onde você pode criar alguns clipes gratuitamente, mas precisa pagar por resoluções mais altas ou tentativas, o YouTube terá que considerar os custos computacionais e decidir sobre a implementação. Mas, da perspectiva de um criador, se eu estiver buscando um alcance maior, provavelmente pagarei a taxa de assinatura.
O dilema da IA
Desde que os visuais de IA começaram a inundar a internet, o debate sobre autenticidade e divulgação justa se intensificou. "O que é mesmo real?" Usuários de redes sociais têm feito essa pergunta com ainda mais fervor logo após os vídeos incrivelmente realistas gerados pelo aplicativo Sora da OpenAI começarem a aparecer .
Esses vídeos têm uma marca d'água visível, mas já existem ferramentas gratuitas e pagas que removem o rótulo Sora dos clipes gerados por IA. Ou qualquer outro gerador de conteúdo de IA, aliás. O Google, um dos maiores desenvolvedores e adotantes de IA, sabe disso muito bem.
A empresa foi uma das primeiras líderes na corrida de impressão digital de IA com seu sistema SynthID e também lançou uma ferramenta SynthID Detector no início deste ano para ajudar os usuários a verificar as origens do conteúdo multimídia .
Os vídeos do YouTube que contam com o recurso de sincronização labial do Google, alimentado por IA, adotarão uma abordagem ainda mais cautelosa. "Teremos uma divulgação adequada informando que tanto o áudio quanto o vídeo deste vídeo foram criados ou alterados sinteticamente", me conta Kottahachchi. "O próprio conteúdo do vídeo também sofre uma identificação digital."
As divulgações de texto aparecerão na caixa de descrição abaixo do título dos vídeos do YouTube, assim como aparecem nos vídeos que usaram o sistema de dublagem automática. Mas como outras plataformas tratarão os vídeos do YouTube dublados por IA e com sincronização labial se um criador os publicar no Instagram ou TikTok?
Os algoritmos vão esquentar?
O TikTok anunciou recentemente que rotularia vídeos "feitos ou editados" com ferramentas de IA e também os identificaria para que os usuários pudessem verificar suas origens usando a ferramenta Verify do C2PA. O Meta possui um sistema semelhante. Então, qual é o destino dos vídeos editados por IA que são publicados em outras plataformas de vídeo sociais?
Eles serão rebaixados por algoritmos ou bloqueados de aparecer em determinados feeds? A situação é um pouco complicada e imprevisível. "É algo que estamos monitorando cuidadosamente, mas é um pouco cedo porque as plataformas fizeram declarações, mas ainda não vimos como elas são implementadas de forma eficaz", ele me conta. "Geralmente, estamos traduzindo traduções, mas não conteúdo novo."
Também levantei a questão de pessoas mal-intencionadas usando vídeos de criadores sem o devido consentimento, traduzindo o áudio e enviando-os de um canal ou plataforma diferente. A dublagem automática e a sincronização labial com IA tecnicamente tornam esse ato inescrupuloso mais fácil de executar, mas provavelmente não resultará em um caos total.
"Se a sua imagem estiver sendo usada em outro lugar na plataforma, você pode nos avisar e pedir para removê-la", disse-me Kottahachchi. Seria interessante ver como a dublagem automática, o áudio expressivo e os vídeos com dublagem labial tornarão a experiência no YouTube mais diversificada. À primeira vista, parece uma vitória.
Mal posso esperar para me ver falando em espanhol, embora eu tenha abandonado meu vício no Duolingo anos atrás.

