Fones de ouvido AI controlados pelo Apple M2 podem traduzir vários alto-falantes ao mesmo tempo

Os fones de ouvido sem fio Pixel Buds do Google já oferecem um fantástico recurso de tradução em tempo real . Nos últimos anos, marcas como Timkettle ofereceram fones de ouvido semelhantes para clientes empresariais. No entanto, todas essas soluções só podem lidar com um fluxo de áudio por vez para tradução.

O pessoal da Universidade de Washington (UW) desenvolveu algo verdadeiramente notável na forma de fones de ouvido controlados por IA que podem traduzir a voz de vários alto-falantes ao mesmo tempo. Pense nisso como um poliglota em um bar lotado, capaz de entender a fala das pessoas ao seu redor, falando em diferentes idiomas, ao mesmo tempo.

A equipe está se referindo à sua inovação como Tradução de Fala Espacial, e ela ganha vida graças aos fones de ouvido binaurais. Para quem não sabe, o áudio binaural tenta simular efeitos sonoros da mesma forma que os ouvidos humanos os percebem naturalmente. Para gravá-los, os microfones são colocados em uma cabeça falsa, separados na mesma distância das orelhas humanas de cada lado.

A abordagem é crucial porque nossos ouvidos não apenas ouvem o som, mas também nos ajudam a avaliar a direção de sua origem. O objetivo geral é produzir um palco sonoro natural com um efeito estéreo que possa proporcionar uma sensação de concerto ao vivo. Ou, no contexto moderno, escuta espacial .

O trabalho é cortesia de uma equipe liderada pelo professor Shyam Gollakota, cujo repertório prolífico inclui aplicativos que podem colocar GPS subaquático em smartwatches , transformar besouros em fotógrafos , implantes cerebrais que podem interagir com eletrônicos , um aplicativo móvel que pode detectar infecções e muito mais.

Como funciona a tradução para vários alto-falantes?

“Pela primeira vez, preservamos o som da voz de cada pessoa e a direção de onde ela vem”, explica Gollakota, atualmente professor da Escola Paul G. Allen de Ciência da Computação e Engenharia do instituto.

A equipe compara sua pilha a um radar, pois ele entra em ação identificando o número de alto-falantes nas redondezas e atualizando esse número em tempo real à medida que as pessoas entram e saem do alcance de audição. Toda a abordagem funciona no dispositivo e não envolve o envio de fluxos de voz do usuário para um servidor em nuvem para tradução. Sim, privacidade!

Além da tradução da fala, o kit também “mantém as qualidades expressivas e o volume da voz de cada locutor”. Além disso, ajustes direcionais e de intensidade de áudio são feitos à medida que o alto-falante se move pela sala. Curiosamente, a Apple também está desenvolvendo um sistema que permite aos AirPods traduzir áudio em tempo real.

Como tudo isso ganha vida?

A equipe da UW testou os recursos de tradução dos fones de ouvido AI em quase uma dúzia de ambientes internos e externos. No que diz respeito ao desempenho, o sistema pode capturar, processar e produzir áudio traduzido em 2 a 4 segundos. Os participantes do teste pareceram preferir um atraso de 3 a 4 segundos, mas a equipe está trabalhando para acelerar o processo de tradução.

Até agora, a equipe testou apenas traduções em espanhol, alemão e francês, mas espera adicionar mais ao conjunto. Tecnicamente, eles condensaram separação cega de fontes, localização, tradução expressiva em tempo real e renderização binaural em um único fluxo, o que é um feito impressionante.

No que diz respeito ao sistema, a equipe desenvolveu um modelo de tradução de fala capaz de rodar em tempo real em um silício Apple M2, conseguindo inferência em tempo real. As tarefas de áudio foram realizadas por um par de fones de ouvido WH-1000XM4 com cancelamento de ruído da Sony e um microfone USB binaural Sonic Presence SP15C.

E aqui está a melhor parte. “O código do dispositivo de prova de conceito está disponível para que outros possam utilizá-lo”, diz o comunicado de imprensa da instituição. Isso significa que a comunidade científica e de código aberto pode aprender e basear projetos mais avançados nas bases estabelecidas pela equipe da UW.