MusicLM: Inteligência Artificial gera música a partir de texto

fevereiro 1, 2023 gurinho

Já falamos longamente sobre inteligências artificiais no último período. Alguns resolveram exames universitários com um nível igual ao de um humano. Outros geraram imagens a partir de entrada de texto, outros ainda auxiliaram no diagnóstico de imagem. Agora, o Google revelou o MusicLM, um modelo de IA que pode gerar qualquer tipo de música a partir de texto. No entanto, a gigante da tecnologia optou por não disponibilizar o sistema publicamente devido a questões éticas.

O sistema de inteligência artificial MusicLM

Se você tivesse ouvido isso anos e anos atrás, talvez não acreditasse. Um computador que produz música a partir de uma descrição textual sabe muito sobre um futuro distópico. Um futuro que não imaginávamos poderia chegar tão cedo.

O resumo do artigo diz o seguinte:

Apresentamos o MusicLM, um modelo para gerar música de alta fidelidade a partir de descrições de texto, como “uma suave melodia de violino acompanhada por um riff de guitarra distorcido”. O MusicLM lança o processo de geração de música condicional como uma tarefa de modelagem hierárquica sequência a sequência e gera música de 24kHz que permanece coerente por vários minutos. Nossos experimentos mostram que o MusicLM supera os sistemas anteriores em termos de qualidade de áudio e conformidade com as descrições textuais. Além disso, demonstramos que o MusicLM pode ser influenciado tanto por um texto quanto por uma melodia, pois pode transformar faixas assobiadas e sussurradas de acordo com o estilo descrito em uma legenda de texto.
A equipe de autores

Recursos do algoritmo

Embora o MusicLM não seja o primeiro sistema de IA generativo para música, é o primeiro a criar músicas com "alta fidelidade". O algoritmo pode produzir canções que façam sentido para descrições de "complexidade substancial"; obviamente depois de ser treinado em um conjunto de dados de 280.000 horas de música.

O sistema pode, como mencionado, ser baseado em melodias existentes, sejam elas assobiadas, cantaroladas, cantadas ou tocadas em um instrumento. Ele também pode pegar uma série de descrições escritas sequencialmente e transformá-las em uma "história" musical ou narrativa, de acordo com os pesquisadores do Google.

O interessante é que o MusicLM pode produzir música a partir da combinação de uma imagem e uma legenda. Ou ele pode criar música que é "tocada" por um certo tipo de instrumento em um estilo particular. No entanto, embora o sistema possa sintetizar vozes tecnicamente, os resultados são inferiores ao ideal e apresentam problemas como amostras distorcidas.

Apesar disso, muitos continuam se surpreendendo com os resultados divulgados pela inteligência artificial do Google. Como disse um usuário do Twitter: “Estou impressionado em ver que a qualidade da voz gerada automaticamente aumentou! Parece real, mas em uma língua estrangeira.”

Neste link você pode ouvir as criações da inteligência artificial do Google (um repositório do GitHub). Desde composições curtas a mais longas, passando por descrições mais complicadas, até à combinação de imagens e legendas.

O problema dos direitos autorais

A principal dificuldade para o Google é a possibilidade de o MusicLM usar dados de treinamento que contenham material protegido por direitos autorais nas músicas que produz. De fato, os pesquisadores descobriram em um experimento que 1% da música produzida pelo sistema copiava diretamente as músicas de treinamento.

Então, como mencionado na introdução, o número é alto o suficiente para segurar o Google para um eventual lançamento do sistema. Para superar isso, os pesquisadores destacaram a necessidade de mais esforços futuros para lidar com esses perigos relacionados à geração de música. Justamente porque pode haver apropriação indébita de conteúdo criado com o sistema.

Não é a primeira vez que música gerada por inteligência artificial dá origem a problemas legais. Na verdade, uma empresa afiliada ao artista Jay-Z entrou com ações de violação de direitos autorais contra a Vocal Synthesis em 2020. Eles foram acusados de usar inteligência artificial para produzir as interpretações de Jay-Z de canções como 'We Didn't Start the Fire' de Billy Joel.

É necessário garantir que a música gerada por IA possa ser usada de forma justa tanto para compositores quanto para usuários. A indústria enfrenta esses desafios éticos e legais à medida que a tecnologia de IA se desenvolve . No entanto, pode levar algum tempo até que haja alguma clareza sobre como os tribunais decidirão sobre o uso de música gerada por IA.

O artigo MusicLM: Inteligência artificial gera música a partir de texto foi escrito em: Tech CuE | Engenharia de close-up .