A nova ferramenta de IA de código aberto da Meta ajuda você a limpar gravações ruidosas apenas digitando.

A limpeza de áudio geralmente envolve a análise de linhas do tempo e o ajuste de filtros, mas a Meta acredita que deveria ser tão simples quanto descrever o som desejado. A empresa lançou um novo modelo de IA de código aberto chamado SAM Audio, capaz de isolar praticamente qualquer som de uma gravação complexa usando comandos de texto simples.

Os usuários podem extrair sons específicos, como vozes, instrumentos ou ruídos de fundo, sem precisar recorrer a softwares de edição complexos. O modelo já está disponível no Segment Anything Playground da Meta , que reúne outras ferramentas de edição de imagem e vídeo baseadas em prompts.

De forma geral, o SAM Audio foi projetado para entender com qual som você deseja trabalhar e separá-lo claramente de todo o resto. A Meta afirma que isso possibilita uma edição de áudio mais rápida para casos de uso como produção musical, podcasts, cinema e televisão, ferramentas de acessibilidade e pesquisa.

Por exemplo, um criador poderia isolar os vocais de uma gravação de banda, remover o ruído do trânsito de um podcast ou excluir o latido de um cachorro de uma gravação perfeita, tudo isso descrevendo o que ele quer que o modelo examine.

Como funciona o SAM Audio

O SAM Audio é um modelo multimodal que suporta três tipos diferentes de comandos. Os usuários podem descrever um som usando texto, clicar em uma pessoa ou objeto em um vídeo para identificar visualmente o som que desejam isolar ou marcar um intervalo de tempo em que o som aparece pela primeira vez. Esses comandos podem ser usados ​​individualmente ou combinados, oferecendo aos usuários um controle preciso sobre o que será separado.

Internamente, o sistema utiliza o mecanismo audiovisual Perception Encoder da Meta. Ele permite que o modelo reconheça e compreenda os sons antes de os remover da mixagem.

Para aprimorar a avaliação da separação de áudio, a Meta também introduziu o SAM Audio-Bench, um benchmark para medir o desempenho dos modelos no processamento de fala, música e efeitos sonoros. Ele é acompanhado pelo SAM Audio Judge, que avalia o quão natural e preciso o áudio separado soa para ouvintes humanos, mesmo sem faixas de referência para comparação.

A Meta afirma que essas avaliações mostram que o SAM Audio tem o melhor desempenho quando diferentes tipos de comandos são combinados e consegue processar áudio mais rapidamente do que em tempo real, mesmo em grande escala.

Dito isso, o modelo tem limitações claras. Ele não suporta instruções baseadas em áudio, não consegue realizar a separação completa sem qualquer auxílio e apresenta dificuldades com sons sobrepostos semelhantes, como isolar uma única voz de um coral.

A Meta afirma que planeja aprimorar essas áreas e já está explorando aplicações práticas, incluindo o trabalho de acessibilidade com fabricantes de aparelhos auditivos e organizações que apoiam pessoas com deficiência.

O lançamento do SAM Audio está ligado ao amplo investimento da Meta em IA. A empresa está aprimorando a clareza da voz em seus óculos de IA para ambientes ruidosos , trabalhando em óculos de realidade mista de última geração, com previsão de chegada em 2027 , e desenvolvendo uma IA conversacional que pode rivalizar com o ChatGPT , sinalizando um foco mais amplo em modelos de IA que compreendem som, contexto e interação.

O artigo "Nova ferramenta de IA de código aberto da Meta ajuda você a limpar gravações ruidosas apenas digitando" foi publicado originalmente no Digital Trends .