Há quanto tempo você não canta e dança enquanto compõe uma música com inteligência artificial?
Há quanto tempo você não canta e dança enquanto compõe uma música com inteligência artificial?
Ninguém canta e dança enquanto usa IA para compor músicas! — Não, alguns professores fazem isso.

Este é um blogueiro de música no YouTube que originalmente pretendia usar um software de geração de música para criar músicas terríveis geradas por IA, com o objetivo de satirizar a inteligência artificial, mas inesperadamente produziu um rock metal japonês "autêntico", que rapidamente se tornou um sucesso no TikTok.
A "surpresa" foi que ele não deu uma sugestão ou uma referência, mas sim uma sequência de seus… rugidos. 

Suno, pisque se você foi sequestrado.
A história começa com este blogueiro musical querendo aceitar um desafio e ver a que nível chegaram as ferramentas atuais de geração de música por IA — é claro, com uma pitada de malícia.
As ferramentas que ele testou incluíam ferramentas populares de música generativa como Suno, Mureka, ElevenLabs e Udio, e seu método de teste foi bastante inusitado.
Por exemplo, gritar com o computador como na imagem acima. Ou imitar Yoko Ono gritando e berrando…

Esta é uma obra de "arte performática" criada por Yoko Ono para seu aniversário de 90 anos. É completamente sem sentido; ela está apenas gritando. No entanto, a IA não sabe como intitulá-la; aceita tudo sem questionar, otimizando cuidadosamente a letra e adicionando uma melodia.
Sabe de uma coisa? Todos eles são muito bons.
A introdução de "My Name is Jeff" é realmente muito boa, especialmente a parte das sugestões, onde ele forçou um monte de palavras descritivas estilísticas, transformando tudo numa bagunça. Depois, há a música que surgiu diretamente da letra automática do sistema, soando muito como a banda sueca Meshuggah — o banco de dados da IA é insondável; é tão específico que deixa completamente perplexos aqueles que só conhecem música pop.
A parte mais surpreendente veio depois: o blogueiro estava divagando sem sentido algum, e a IA reproduziu uma música japonesa de heavy metal chamada "Isugaku: Never Say Goodbye". Seus gritos aleatórios foram identificados pela IA como japoneses, daí a correspondência de estilo. E sabe o que mais? Na verdade, combinou muito bem.
Essa é a essência da música gerada por IA: para que os humanos aprendam música e compreendam a teoria musical, eles precisam de um longo período de estudo e acúmulo, ouvindo uma grande quantidade de música. A IA também precisa aprender, mas aprende as características inerentes aos dados das obras musicais, incluindo, entre outros: acordes, melodias, ritmos e formas estruturais.
Por coincidência, a música pop depende muito de alguns acordes comuns. Sua alta repetição e previsibilidade permitem que a IA encontre padrões rapidamente ao aprender essas "fórmulas" básicas e gere músicas que soem plausíveis e agradem ao público em geral.
Abstrato, mas não abstrato o suficiente para os seres humanos.
Mas será que é isso que significa criatividade?
Há um pouco, mas não muito. Comparada à verdadeira criatividade, a IA é insignificante.
Por exemplo, o meme mais viral da internet este ano, "Skill Gomoku", começou com uma tentativa semelhante à do blogueiro acima: ver que tipo de música a IA conseguiria compor.

Quem diria que esta se tornaria a música mais contagiante do outono? Há quanto tempo você não canta e dança ao som de Gomoku?
Em "Skill Five", Zhang Xingchao revelou diretamente que a música foi escrita por IA, e o público também teve essa impressão: a melodia era complexa e estranhamente manipuladora quando analisada em conjunto.
Para ser justo, essa música pode ter se beneficiado da IA, mas certamente não foi inteiramente devido às capacidades da IA. Tentei recriar essa música incrível usando o Suno (o mesmo usado pelo Professor Wu) e descobri que não é tão simples quanto jogar Connect Four!
Primeiramente, eu não tinha ideia do que fazer, então só pude usar o comando mais básico no modo de criação simples para compor uma música — seria muito chato, mas eu estava preparado.

A IA permaneceu em silêncio, limitando-se a gerar dois conjuntos de letras e quatro versões de arranjo musical.
Sinceramente, é muito chato e tedioso. A importância da letra em uma música é óbvia. E na música "Skill Gomoku", a letra compõe metade da canção. Os dois conjuntos de letras gerados por IA não são particularmente problemáticos, são todos plausíveis, mas são completamente desinteressantes.

Não há outra maneira senão usar o original; nenhuma palavra pode ser omitida.
Eu não especifiquei um estilo musical em particular, apenas um ritmo leve e divertido. Acho que a modelo também não entendeu a letra; é muito abstrata. No entanto, ela ainda conseguiu capturar os pontos principais, como a pausa com "vai explodir", ou enfatizar a presença dessas três palavras.
Em seguida, executei mais algumas versões aleatoriamente, mas nenhuma delas funcionou corretamente, o que é estranho. Isso significa que não é possível reproduzir a imagem sem entender a letra da música? Acho difícil explicar letras tão abstratas para o modelo!
Para resolver o problema, precisamos voltar ao básico: a IA é excelente em reconhecimento de características, mas esses poucos acordes pop são muito simples, alguns até bregas demais, especialmente sem instruções de estilo específicas. Então, não importa como seja executado, simplesmente não funciona e não consegue criar um contraste com a letra de "Skill Five-in-a-Row"!
Então, depois de quase ter assistido ao vídeo original até gastá-lo de tanto ouvir, percebi sua musicalidade: a música dessa canção usava um tipo de ritmo semelhante ao da calistenia, regular, com um ritmo claro e uma sensação de movimento.
Ok, o Suno suporta o upload e a amostragem de músicas locais, então eu procurei especificamente a música para o terceiro conjunto de ginástica transmitida, para que a IA a estudasse corretamente desta vez.

No modo personalizado, você também pode escolher a estranheza e a consciência de estilo, mas infelizmente esses são recursos pagos. Desta vez, podemos usar apenas elementos de estilo broadcast como fonte geral de inspiração.

Desta vez ficou melhor? Um pouco melhor. O modelo reconheceu que a terceira série de ginástica transmitida era em estilo jazz, então desta vez a música gerada foi bem alegre, com um ritmo livre e até mesmo descontraído, que inesperadamente combinou um pouco com o jogo "Skill Gomoku".
Mas ainda não estava perfeito, então apaguei completamente a descrição do estilo e tentei novamente. A IA permaneceu em silêncio, simplesmente gerando quatro faixas finalizadas, cada uma com um estilo diferente. Havia não apenas baladas e músicas animadas, mas até mesmo uma versão de música folclórica…
Suno: Eu realmente não tenho tempo para ficar brincando com você.
Após mais de uma dúzia de versões, nenhuma conseguiu igualar o talento do Professor Skill Five. E isso mesmo usando a letra original. IA, você não chega aos pés!
O efeito cômico do jogo "Skill Gomoku" se resume, em última análise, ao oposto da IA. A IA analisa e aprende as características da música, e a música que ela fornece é teoricamente boa e cativante, adequada às tendências atuais — no entanto, nenhuma delas consegue igualar os elementos memoráveis da original.
Que estranho, a versão original também não foi escrita por IA?
Ainda não sabemos exatamente o quanto a IA contribuiu para o processo de criação original. Mas essa reprodução me faz acreditar que, mesmo que tenha contribuído, sua influência não superaria o talento do criador.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

