O novo modelo de IA da Nvidia cria música a partir de prompts de texto e áudio

novembro 25, 2024 gurinho

Nvidia

A Nvidia lançou um novo modelo generativo de IA de áudio que é capaz de criar uma infinidade de sons, músicas e até vozes, com base em texto simples e prompts de áudio do usuário.

Apelidado de Fugatto (também conhecido como Foundational Generative Audio Transformer Opus 1), o modelo pode, por exemplo, criar jingles e trechos de músicas com base apenas em instruções de texto, adicionar ou remover instrumentos e vocais de faixas existentes, modificar o sotaque e a emoção de uma voz e “até mesmo permitir que as pessoas produzam sons nunca ouvidos antes”, de acordo com o anúncio de segunda-feira .

“Queríamos criar um modelo que entendesse e gerasse som como os humanos fazem”, disse Rafael Valle, gerente de pesquisa aplicada de áudio da Nvidia. “Fugatto é o nosso primeiro passo em direção a um futuro onde o aprendizado multitarefa não supervisionado em síntese e transformação de áudio emerge de dados e escala de modelo.”

A empresa observa que os produtores musicais poderiam usar o modelo de IA para criar rapidamente protótipos e examinar ideias de músicas em vários estilos musicais com arranjos variados, ou adicionar efeitos e camadas adicionais às faixas existentes. O modelo também pode ser aproveitado para adaptar e localizar a música e as narrações de uma campanha publicitária existente ou ajustar a música de um videogame dinamicamente enquanto o jogador avança em um nível.

O modelo é ainda capaz de gerar sons inéditos, como latidos de trombetas ou miados de saxofones. Ao fazer isso, ele usa uma técnica chamada ComposableART para combinar as instruções aprendidas durante o treinamento.

“Eu queria permitir que os usuários combinassem atributos de uma forma subjetiva ou artística, selecionando quanta ênfase eles dariam a cada um”, escreveu o pesquisador de IA da Nvidia, Rohan Badlani, no post de anúncio. “Em meus testes, os resultados muitas vezes foram surpreendentes e me fizeram sentir um pouco como um artista, mesmo sendo um cientista da computação.”

O próprio modelo Fugatto usa 2,5 bilhões de parâmetros e foi treinado em 32 GPUs H100. AIs de áudio como essa estão se tornando cada vez mais comuns. A Stability AI revelou um sistema semelhante em abril que pode gerar faixas de até três minutos de duração, enquanto o modelo V2A do Google pode gerar “um número ilimitado de trilhas sonoras para qualquer entrada de vídeo”.

O YouTube lançou recentemente um remixer de música com IA que gera uma amostra de 30 segundos com base na música inserida e nas instruções de texto do usuário. Até a OpenAI está fazendo experiências neste espaço, tendo lançado uma ferramenta de IA em abril que precisa de apenas 15 segundos de amostra de áudio para clonar completamente a voz e os padrões vocais de um usuário.