Áudio espacial via fones de ouvido: como a ciência coloca 9 alto-falantes e um subwoofer dentro de sua cabeça

Um Apple iPhone 14 exibindo o aplicativo Apple Music com uma página de recursos sobre conteúdo de Spatial Audio, ao lado de um conjunto de fones de ouvido Apple AirPods Max.
Simon Cohen / Tendências Digitais

O áudio espacial está em alta. Embora o objetivo de oferecer uma experiência auditiva mais envolvente, semelhante ao 3D, possa ter nascido nas salas de cinema, grande parte da conversa em torno do áudio espacial mudou para a música – especificamente, a disponibilidade relativamente nova de faixas Dolby Atmos Music por meio de serviços de streaming de música.

O apelo do áudio espacial não é mistério. Quando você combina uma das primeiras formas inovadoras de ouvir música desde o estéreo – juntamente com o prodigioso marketing da Apple – você tem muitas pessoas querendo experimentá-lo.

Algo misterioso, entretanto, é se há diferença entre o áudio espacial de um serviço de streaming para outro. Digamos, no Apple Music versus Amazon Music. E quanto aos seus fones de ouvido – eles afetam o som do áudio espacial?

As respostas são sim e sim, mas talvez não pelos motivos que você pensa. Para explicar, vamos dar uma olhada mais profunda no que acontece nos bastidores quando você ouve áudio espacial usando fones de ouvido.

Antes de continuar, aqui está uma cartilha de áudio espacial que explica o que é e as várias maneiras de experimentá-lo.

Uma sala cheia de alto-falantes dentro da sua cabeça

Homem ouvindo alto-falantes KEF LS50 com os olhos fechados.
Bill Roberson / Tendências Digitais

Formatos de áudio espacial como Dolby Atmos são extensões do som surround multicanal (pense em Dolby Digital), projetados para uma experiência auditiva de cinema por meio de alto-falantes colocados em uma sala. Esta sala teórica tem uma frente, uma traseira, duas laterais e um teto.

A música criada em Dolby Atmos começa com uma “cama” de 9.1 canais, geralmente configurada em um layout 7.1.2 que corresponde aos alto-falantes frontais (esquerdo, central, direito), laterais (surround esquerdo/direito), traseiros (esquerda/direita), o teto (altura esquerda/direita), além de um canal de efeitos de baixa frequência (LFE) enviado para um subwoofer. Além desses nove canais, que podem produzir quantidades variadas de som, o Dolby Atmos soma 118 “objetos” sonoros que podem se mover livremente em qualquer lugar do hemisfério coberto por esses nove alto-falantes.

Ao ouvir áudio espacial via fones de ouvido, você ouve a mesma trilha sonora de 9.1 canais e 118 objetos, o que parece um paradoxo. Como dois pequenos alto-falantes conectados à sua cabeça podem fazer a mesma coisa que nove alto-falantes dispostos ao seu redor?

Enganando seu cérebro

Imagem THX Spatial Audio de um homem parecendo surpreso enquanto usava fones de ouvido.
THX

A resposta pode ser encontrada na psicoacústica, o campo da ciência que estuda como o cérebro interpreta e reage às informações sonoras. Isso inclui um processo conhecido como localização sonora – como o cérebro usa sinais sonoros para descobrir de que direção um som vem e quão perto ou longe a fonte do som pode estar.

Localizamos o som sintetizando o tom e o volume. Mas a maior pista é a forma como o som chega a cada um dos nossos ouvidos. Somos extremamente sensíveis até mesmo às menores diferenças de tempo. Se um som chegasse ao nosso ouvido esquerdo apenas um milissegundo antes de chegar ao ouvido direito, o nosso cérebro saberia e reagiria de acordo.

Usando modelos psicoacústicos (e um conjunto de fones de ouvido estéreo), podemos simular a direção e a distância dos sons do mundo real, controlando cuidadosamente como esses sons chegam a cada ouvido.

Renderização binaural

Áudio espacial de rastreamento de cabeça da Apple para Apple TV 4K.
Maçã

O processo de pegar um formato de áudio espacial como Dolby Atmos e transformá-lo usando os princípios da psicoacústica em um conjunto de sons que podem ser transmitidos por meio de fones de ouvido é conhecido como renderização binaural.

Se você já ouviu Dolby Atmos, DTS:X ou Sony 360 Reality Audio (360RA) usando fones de ouvido, em algum ponto da cadeia de reprodução, um algoritmo de software de renderização binaural foi usado para criar essa experiência. O mesmo se aplica a videogames com trilhas sonoras 5.1 ou 7.1 – elas podem ser renderizadas binauralmente por tecnologias como THX Spatial Audio ou Immerse Gaming Hive .

A parte interessante da renderização binaural é que ela funciona em qualquer conjunto de fones de ouvido estéreo. Seja com ou sem fio, e quer você tenha gasto US$ 10 ou US$ 1.000, todos os fones de ouvido estéreo são compatíveis com áudio espacial renderizado binauralmente. Um conjunto de fones de ouvido pode anunciar especificamente que “funcionam com áudio espacial”, mas isso é como dizer que um conjunto de quatro pneus de carro “funciona com estradas pavimentadas” – todos funcionam.

Áudio espacial: está tudo fora da sua cabeça?

Um microfone binaural de cabeça fictícia Neumann KU 100.
O formato da cabeça humana é tão importante para a percepção espacial que os engenheiros de gravação costumam usar microfones em formato de cabeça como este Neumann KU 100 para capturar som espacial. Tem um microfone em cada ouvido. Neumann

Agora que acabei de explicar que a renderização binaural pode levar seu cérebro a pensar que está ouvindo um sistema de som completo de 7.1.2 canais usando qualquer fone de ouvido antigo – em outras palavras, está tudo na sua cabeça – vou para me contradizer. Parcialmente.

A maneira como cada um de nós interpreta os sinais de localização sonora tem muito a ver com o formato de nossa cabeça. Especificamente, o formato e o posicionamento de nossas orelhas. A fisiologia de nossas cabeças cria uma impressão digital única (impressão auditiva?) Nos sons que chegam aos nossos tímpanos – não há dois iguais. Desde a primeira infância, à medida que o nosso cérebro desenvolve a nossa capacidade de localizar o som, utiliza esta impressão auditiva como modelo.

Quando descrita matematicamente e usada para filtrar os sons que chegam a cada ouvido, essa impressão auditiva é conhecida como “ função de transferência relacionada à cabeça ” (HRTF).

HRTFs são a chave

Uma ilustração de áudio espacial.
Incorporar

Para que a renderização binaural soe o mais realista possível, o áudio espacial é processado usando um perfil HRTF.

Como você provavelmente já adivinhou, todos nós temos perfis HRTF exclusivos. Em um mundo ideal, teríamos nossas cabeças e parte superior do tronco digitalizadas em 3D e carregaríamos o perfil HRTF resultante no Apple Music ou Amazon Music (ou qualquer outro aplicativo que suporte áudio espacial). O algoritmo de renderização binaural de cada aplicativo usaria então esse perfil HRTF para criar um conjunto de sons que nosso cérebro interpreta com um alto grau de realismo.

Ainda não chegamos lá. Na ausência de HRTFs personalizados e carregáveis, cada aplicativo de áudio espacial usa um HRTF genérico. Como o nome sugere, esses HRTFs genéricos são compilados a partir de centenas de HRTFs individuais para criar uma aproximação de como os sons entram em nossos ouvidos. Quanto mais próximo o seu HRTF pessoal corresponder ao HRTF médio, mais realista será o áudio espacial.

HRTFs genéricos também são usados ​​para espacializar o conteúdo estéreo ou melhorar o áudio espacial rastreado pela cabeça. Se o seu aplicativo de música, fones de ouvido sem fio ou fones de ouvido sem fio tiverem um modo de som espacial, ele poderá ser usado para fornecer profundidade extra ao som estéreo. E se seus fones de ouvido tiverem sensores integrados para rastrear os movimentos da cabeça, eles poderão gerar áudio espacial rastreado pela cabeça para uma experiência auditiva ainda mais realista, semelhante à de uma sala.

Quem tem o melhor HRTF?

Curiosamente, embora todo renderizador binaural use um HRTF genérico, nem todos usam o mesmo HRTF genérico. Alguns, como Amazon Music e Tidal, usam um HRTF genérico fornecido pela Dolby – ele está incorporado no mecanismo de renderização binaural Dolby Atmos incluído nesses aplicativos – enquanto o Apple Music usa um HRTF genérico proprietário desenvolvido pela Apple.

Por definição, cada HRTF genérico será mais adequado para algumas pessoas do que para outras, da mesma forma que um conjunto de fones de ouvido sem fio se adequará melhor a algumas pessoas do que a outras. Se o HRTF da Apple soa melhor para você do que o Dolby, dependerá de quão próximo você os combina. A única maneira de saber é experimentar os dois.

Um passo mais perto da realidade: HRTFs personalizados

Um gráfico 3D representando um perfil HRTF personalizado da Embody.
Incorporar

Embora as varreduras anatômicas completas em 3D sejam o Santo Graal dos HRTFs personalizados, algumas empresas descobriram uma etapa intermediária que nos dá uma maneira fácil de ir além dos HRTFs genéricos. A Apple chama sua versão de “áudio espacial personalizado”. ”Se você tiver um iPhone X ou mais recente (não incluindo modelos SE), executando iOS 16 ou posterior, poderá usar a câmera selfie TrueDepth integrada do telefone para tirar fotos 3D da frente do seu rosto e de cada orelha. É a mesma tecnologia que a Apple usa para escanear seu rosto ao usar o FaceID para desbloquear o telefone.

Infelizmente, o HRTF personalizado criado só pode ser usado em conjunto com alguns Apple AirPods ou fones de ouvido e fones de ouvido sem fio Beats – isso não afetará a forma como você ouve o áudio espacial ao usar qualquer outro dispositivo.

A Sony faz algo semelhante dentro do aplicativo Sony Headphones. Se você comprar um conjunto de fones de ouvido ou fones de ouvido Sony compatíveis com 360RA, poderá tirar fotos de cada orelha e carregá-las no aplicativo.

As fotos são avaliadas e usadas para criar um HRTF personalizado, que é transferido para aplicativos de música no seu telefone que transmitem faixas Sony 360RA. Em março de 2024, isso inclui Amazon Music, Tidal, Nugs.net e PeerTracks.

Criando um estúdio de áudio espacial virtual

Captura de tela do software Immerse Virtual Studio da Embody.
Simon Cohen / Tendências Digitais/Embody

Por mais legal que seja usar a renderização binaural como forma de ouvir áudio espacial com fones de ouvido, para muitos músicos e outros criadores, ela se tornou uma parte essencial da produção de áudio espacial.

Conforme observado na seção “Uma sala cheia de alto-falantes dentro de sua cabeça”, formatos de áudio espacial como Dolby Atmos são criados para audição em alto-falantes. Mas criar um estúdio 7.1.2 ou superior, completo com tratamentos acústicos apropriados para erradicar ecos e outros efeitos indesejados, pode custar milhares.

Se você é um artista promissor ou alguém que deseja experimentar o áudio espacial como hobby, este pode ser um investimento proibitivo. Mas graças à renderização binaural, tudo que você precisa é de um conjunto decente de fones de ouvido e do software certo, e você terá um estúdio virtual direto no seu computador.

Um exemplo de software de estúdio virtual é o Immerse Virtual Studio Signature Edition da Embody. Ele funciona com qualquer estação de trabalho de áudio digital (DAW) — como ProTools — ou como uma forma autônoma de experimentar áudio espacial renderizado binauralmente de uma variedade de outras fontes.

Immerse permite simular como é mixar áudio espacial dentro de alguns dos mais prestigiados estúdios Dolby Atmos profissionais, incluindo o estúdio 7.1.6 de Alan Myerson – onde Hans Zimmer dominou muitas de suas icônicas trilhas sonoras de filmes – e Lurssen Mastering, um Grammy e um Oscar. Estúdio 7.1.4 vencedor.

Uma ilustração de um exame de ouvido baseado em telefone usando o software Embody.
Assim como a Apple e a Sony, a Embody usa uma câmera de smartphone para gerar HRTFs personalizados. Incorporar

A chave para ouvir esses espaços de gravação da maneira que você faria se estivesse trabalhando fisicamente dentro deles é a combinação do HRTF personalizado da Immerse – que você pode criar usando praticamente qualquer smartphone – com perfis de fone de ouvido dedicados para dezenas de fones de ouvido populares e profissionais com e sem fio. e fones de ouvido.

Esses elementos proporcionam aos artistas um ambiente otimizado para o desenvolvimento de conteúdo de áudio espacial. No entanto, conforme discutido anteriormente, a maioria das pessoas não possui ambientes otimizados para ouvir áudio espacial. O software da Embody permite que você alterne para diferentes renderizadores binaurais – com e sem HRTFs personalizados – para que você possa ouvir suas gravações da mesma forma que os ouvintes comuns. O software inclui o renderizador binaural proprietário da Apple Music e também pode ser usado para monitorar Dolby binaural com o mesmo HRTF genérico usado no Tidal e Amazon Music.

Indo em busca do ouro

De modo geral, quando uma gravadora fornece uma faixa em Dolby Atmos para um serviço de streaming como Apple Music ou Tidal, é apenas uma versão. Isso cria um dilema para os artistas.

Essa versão provavelmente terá sido masterizada em um estúdio físico com configuração de alto-falantes Atmos ou usando software que virtualiza um espaço semelhante. No entanto, como discutimos acima, variáveis ​​como HRTFs e os renderizadores binaurais específicos usados ​​podem afetar profundamente a forma como essas faixas soam quando você as ouve em diferentes plataformas.

Um artista pode ficar tentado a ajustar seu mix para que soe melhor quando transmitido via Amazon Music e renderizado binauralmente com um HRTF genérico – especialmente se ele acreditar que é assim que a maior parte do público acabará ouvindo.

Mas isso comprometeria o som em um sistema de som Dolby Atmos 7.1.4 completo ou mesmo no Apple Music com HRTF personalizado.

Como a maioria dos artistas não tem tempo ou dinheiro para voltar ao estúdio e remasterizar suas faixas depois de lançadas, eles precisam tomar uma decisão: criar uma versão otimizada para a melhor experiência auditiva possível. e confie que, com o tempo, à medida que empresas como Apple e Amazon melhoram suas renderizações binaurais e suporte para HRTFs personalizados, a experiência com fones de ouvido simplesmente ficará cada vez melhor, ou criará uma versão que fica aquém do que poderia soar, para criar um mix de fone de ouvido otimizado para os ouvintes de hoje.

Obviamente, esta decisão caberá inteiramente ao artista e/ou à sua gravadora. No entanto, temo que programas comoo programa de áudio espacial da Apple criem um incentivo para que todos no mundo da música apressem suas mixagens espaciais simplesmente para obter a recompensa financeira prometida.

Ainda assim, estamos no início de uma era emocionante no áudio. Ele irá redefinir como a música é feita e como ela soa quando a ouvimos – com ou sem o uso de fones de ouvido.