Seus próximos fones de ouvido poderão traduzir textos e identificar objetos para você.
Pesquisadores da Universidade de Washington desenvolveram um novo protótipo que pode mudar a forma como as pessoas interagem com a inteligência artificial no dia a dia. Chamado VueBuds, o sistema integra minúsculas câmeras em fones de ouvido sem fio comuns, permitindo que os usuários façam perguntas a um modelo de IA sobre o mundo ao seu redor em tempo quase real.
O conceito é simples, mas poderoso. O usuário pode olhar para um objeto, como a embalagem de um alimento em um idioma estrangeiro, e pedir à IA que o traduza. Em cerca de um segundo, o sistema responde com a tradução através dos fones de ouvido, criando uma interação perfeita e sem o uso das mãos.
Uma abordagem diferente para dispositivos vestíveis com IA
Ao contrário dos óculos inteligentes , que têm enfrentado dificuldades de adoção devido a preocupações com a privacidade e limitações de design, o VueBuds adota uma abordagem mais sutil. O sistema utiliza câmeras de baixa resolução e em preto e branco embutidas nos fones de ouvido para capturar imagens estáticas em vez de vídeos contínuos.
Essas imagens são transmitidas via Bluetooth para um dispositivo conectado, onde um pequeno modelo de IA as processa localmente. Esse processamento no próprio dispositivo garante que os dados não precisem ser enviados para a nuvem, resolvendo uma das maiores preocupações em relação às câmeras vestíveis.
Para aumentar ainda mais a privacidade, os fones de ouvido incluem uma luz indicadora visível durante a gravação e permitem que os usuários excluam as imagens capturadas instantaneamente.
Engenharia que leva em consideração os limites de potência e desempenho
Um dos maiores desafios enfrentados pela equipe de pesquisa foi o consumo de energia. As câmeras exigem significativamente mais energia do que os microfones, o que torna impraticável o uso de sensores de alta resolução, como os encontrados em óculos inteligentes.
Para resolver esse problema, a equipe utilizou uma câmera aproximadamente do tamanho de um grão de arroz, capturando imagens em tons de cinza de baixa resolução. Essa abordagem reduz o consumo de bateria e permite uma transmissão Bluetooth eficiente sem comprometer a capacidade de resposta.
O posicionamento foi outra consideração fundamental. Ao inclinar as câmeras ligeiramente para fora, o sistema alcança um campo de visão entre 98 e 108 graus. Embora exista um pequeno ponto cego para objetos muito próximos, os pesquisadores descobriram que isso não afeta o uso típico.
O sistema também combina as imagens de ambos os fones de ouvido em um único quadro, melhorando a velocidade de processamento. Isso permite que os VueBuds respondam em cerca de um segundo, em comparação com os dois segundos necessários para processar as imagens separadamente.
Desempenho comparado aos óculos inteligentes
Nos testes, 74 participantes compararam os VueBuds com óculos inteligentes, como os modelos Ray-Ban da Meta . Apesar de utilizarem imagens de resolução inferior e processamento local, os VueBuds apresentaram desempenho semelhante no geral.
O relatório mostrou que os participantes preferiram os VueBuds para tarefas de tradução, enquanto os óculos inteligentes tiveram melhor desempenho na contagem de objetos. Em testes separados, os VueBuds alcançaram taxas de precisão em torno de 83–84% para tradução e identificação de objetos, e até 93% para identificação de títulos e autores de livros.
Por que isso é importante e o que vem a seguir?
A pesquisa destaca uma possível mudança na forma como os dispositivos vestíveis com inteligência artificial são projetados. Ao incorporar inteligência visual em um dispositivo que as pessoas já usam, o sistema evita muitas das barreiras enfrentadas pelos óculos inteligentes.
No entanto, ainda existem limitações. O sistema atual não consegue interpretar cores e suas capacidades ainda estão em estágios iniciais. A equipe planeja explorar a adição de sensores de cor e o desenvolvimento de modelos de IA especializados para tarefas como tradução e suporte à acessibilidade.
Os pesquisadores apresentarão suas descobertas na Conferência da Association for Computing Machinery sobre Fatores Humanos em Sistemas de Computação, em Barcelona, oferecendo um vislumbre de um futuro onde dispositivos do cotidiano se tornam assistentes inteligentes discretamente.

