Google torna público seu codec de voz de baixa taxa de bits Lyra

O Google lançou seu código-fonte beta do codec de áudio Lyra no GitHub, tornando o processamento de áudio de baixa taxa de bits de qualidade incrível disponível para todos os desenvolvedores. O codec é mais útil em situações incorporadas e de largura de banda restrita, onde o máximo possível de dados precisa ser salvo.

Lyra: Quase nada nunca pareceu tão bom

O codec de áudio funciona com base no princípio de fornecer a voz de som mais natural com a taxa de dados mais baixa possível. Ele consegue criar níveis quase assustadores de reprodução de áudio com taxas de bits tão baixas quanto 3 kbps. O Google usa compressão Lyra em tempo real já em seu aplicativo Duo , embora você não seja culpado por nem mesmo perceber a diferença do áudio de largura de banda normal.

Para demonstrar como o Lyra é muito melhor do que outros codecs, o Google fornece exemplos por meio de uma postagem de blog comparando o codec de compressão dirigido por Machine Learning a outras alternativas de 3 e 6 kbps.

É uma diferença de uma noite para o outro, e dar aos desenvolvedores o mundo sobre essas ferramentas será um impulsionador significativo na melhoria da qualidade da comunicação onde a largura de banda é escassa. É também um excelente motivador para desenvolvedores que buscam criar novos aplicativos em mercados emergentes, algo que o Google certamente abordará na conferência virtual virtual Google I / O online gratuita deste ano.

O código-fonte beta é projetado atualmente com dispositivos Arm de 64 bits em mente, embora os exemplos também sejam executados em sistemas Linux x86 de 64 bits. O código-fonte é fornecido totalmente documentado, embora esteja em beta, e a página GitHub fornece instruções de instalação e como construir Lyra no Linux para destinos Arm de 64 bits.

Para obter o código-fonte beta do Lyra, vá para a página do Lyra no GitHub .

Como Lyra funciona?

Embora o processo real que Lyra usa seja uma combinação incrivelmente complexa de modelos de aprendizado de máquina treinados em milhares de horas de dados de fala e otimizações da tecnologia de codec de áudio existente, a teoria é bastante simples.

A cada 40 ms, os recursos são retirados da fala e compactados para 3 kbps. Esses recursos representam os pontos de energia da fala no espectro de frequência mais próximos da resposta auditiva humana da fala – as coisas que precisamos reconhecer e entender quando alguém fala.

A parte principal do que torna Lyra especial é como ela usa essas informações:

No entanto, os codecs paramétricos tradicionais, que simplesmente extraem parâmetros críticos da fala que podem ser usados ​​para recriar o sinal na extremidade receptora, alcançam taxas de bits baixas, mas muitas vezes soam robóticos e não naturais. Essas deficiências levaram ao desenvolvimento de uma nova geração de modelos geradores de áudio de alta qualidade que revolucionaram o campo ao serem capazes de não apenas diferenciar os sinais, mas também gerar outros completamente novos.

Após a transmissão, Lyra reconstrói a forma de onda preenchendo o que está faltando usando esse processo, embora de alguma forma não seja muito complexo computacionalmente.

Por um lado, é uma maravilha tecnológica que será executada em quase qualquer lugar. Por outro lado, ainda não estou 100% convencido de que não é bruxaria.