Fones de ouvido com inteligência artificial e câmeras podem substituir iPhones? Eu tenho a resposta depois de usá-los por 72 horas.

Em 2007, Steve Jobs usou uma tela de 3,5 polegadas para integrar a interação humana com a informação em um plano bidimensional luminoso.

Quase vinte anos se passaram num piscar de olhos. Os desafiadores de outrora se tornaram os alvos da revolução atual. A onda de hardware com IA está atacando os smartphones, tentando quebrar essa barreira intransponível. Novas formas de hardware, representadas pelo AiPin, surgiram uma após a outra, subindo e descendo como marés. Em contraste, os PCs tradicionais se mostram mais estáveis, inaugurando uma segunda primavera por meio de agentes.

Já que reinventar a forma é difícil, não seria melhor incorporar a IA em dispositivos já consolidados e integrados ao cotidiano das pessoas?

Recentemente, o iFanr noticiou com exclusividade que o projeto AirPods da Apple com câmera havia sido adiado. Nesse período de calmaria entre gigantes, uma startup chinesa — a Guangfan Technology — fundada por uma equipe inicial da Xiaomi e composta por funcionários de gigantes como ByteDance, Alibaba, Huawei e Tencent, saiu na frente: lançou o primeiro dispositivo vestível totalmente sensível ao toque com câmera, equipado com AIOS nativo — apresentado no formato de fones de ouvido.

No ano passado, noticiamos o lançamento dos fones de ouvido LightSail. Na semana passada, o produto foi oficialmente colocado à venda e levantamos uma questão: por que um par de fones de ouvido precisa ter uma câmera acoplada?

Após 72 horas de testes aprofundados, a iFanr está convencida de que os "fones de ouvido com câmeras" representam uma direção para o futuro do hardware de IA, mas ainda há um longo caminho a percorrer até chegar à linha de chegada.

Um relógio, uma caixa, um fone de ouvido — todos a serviço da IA.

Quando falamos do dispositivo vestível LightSail AI All-Sense, na verdade estamos falando de um conjunto de hardware amplo e bem definido.

Coloque-os sobre a mesa: o sistema consiste em um estojo para fones de ouvido, um par de fones de ouvido com gancho para orelha e um smartwatch. Nesse sistema, cada componente desempenha um papel específico, e o fluxo de dados de IA ocorre de forma colaborativa entre eles.

No centro dos três casos está o fone de ouvido que fica pendurado na orelha.

A Guangfan conseguiu manter o peso de cada fone de ouvido abaixo de 11 gramas, e o esquema de cores preto e branco "panda" reduz efetivamente a sensação de volume, enquanto os ganchos auriculares em forma de C se estendem naturalmente para trás ao longo do canal auditivo.

Em comparação, um único AirPods 4 pesa 4,3 gramas, enquanto um único fone de ouvido Ola Friend com design de gancho auricular, também lançado pela Doubao, pesa 6,6 gramas.

O motivo pelo qual os fones de ouvido LightSail AI são um pouco mais pesados ​​é que eles possuem uma câmera grande angular de 88° e 2 megapixels embutida na parte frontal, permitindo que o usuário veja o mundo diretamente enquanto os utiliza. Para minimizar preocupações com a privacidade, eles não oferecem funções convencionais de gravação de fotos ou vídeos; todas as imagens capturadas pela câmera são enviadas para a nuvem para interação com inteligência artificial.

De modo geral, a Guangfan optou pelo design de fone de ouvido aberto OWS, com alto-falantes metálicos flutuando na parte externa do trago. Combinado com a bateria na extremidade do gancho auricular, o corpo do fone alcança de forma inteligente uma distribuição de peso de 5:5 entre a frente e a parte traseira, de modo que não há fadiga mesmo após longos períodos de uso.

Quando usados ​​com o estojo de carregamento, esses fones de ouvido com IA oferecem até 90 horas de duração da bateria. Sob a capa macia ao toque, a Guangfan incluiu um módulo eSIM dedicado e GPS de banda dupla. Os comandos captados pelos microfones dos fones e as imagens capturadas pela câmera são transmitidos de volta para o estojo, onde são processados ​​e enviados para a nuvem por meio de uma rede separada para análise por um modelo de dados robusto.

Por fim, temos o smartwatch com tela AMOLED de 1,97 polegadas. Quando há sobrecarga de informações auditivas, ele assume o controle e exibe os dados essenciais que precisam ser escaneados para confirmação, completando a última etapa da "conexão entre relógio e ouvido".

Os três componentes têm funções específicas: os fones de ouvido são o destaque, fornecendo entrada visual e auditiva e servindo como o principal dispositivo interativo; o estojo fica guardado no bolso, funcionando como o centro de poder computacional e de rede; e a tela no pulso serve como um elemento interativo complementar, armazenando informações acessadas com frequência.

Com certeza estou olhando menos para o meu celular agora, mas a interação poderia ser melhor.

De acordo com as especificações oficiais, este dispositivo caracteriza-se por "percepção completa, funcionamento em qualquer condição climática e inteligência artificial proativa".

Após vários dias de uso intenso, resumi minha experiência com suas funções principais em três categorias principais:

Categoria 1: Gestores de horários mais proativos e inteligentes

Na era da internet móvel, as informações mais importantes muitas vezes estão dispersas em conversas fragmentadas em aplicativos como WeChat e Lark. A abordagem de Guangfan é usar IA para funcionar como um funil de informações.

Quando o WeChat, Lark ou DingTalk recebem uma enxurrada de mensagens, a IA filtra automaticamente as conversas irrelevantes e se concentra em transmitir informações de alta prioridade. O software Hi Light, que acompanha o aplicativo, permite configurações personalizadas para a frequência de transmissão de resumos em cada plataforma, oferecendo três opções: transmissão em tempo real, resumo rápido e resumo conciso. Na minha experiência, o resumo rápido é a melhor opção, pois combina agilidade e eficiência.

Com base em notificações inteligentes de mensagens provenientes de três softwares, quando horários, locais e eventos específicos aparecem no conteúdo do chat, a IA exibirá proativamente uma mensagem perguntando:

Esta mensagem contém a programação de uma reunião. Gostaria que eu a adicionasse ao seu calendário?

No dia da reunião, a IA atuará como um despachante. Quando o sistema reconhecer que tenho uma reunião de seleção de tema às 8h30 da manhã, a IA nos meus fones de ouvido me lembrará às 8h que moro perto da empresa e que posso sair de casa, com base nas condições de trânsito em tempo real e na distância do trajeto.

Depois de adotar o sistema de transmissão de voz do Guangfan, realmente tenho usado menos o celular para checar mensagens e adicionar lembretes. No entanto, as limitações atuais dessa função também são óbvias. Para responder ao Lark por voz, é preciso autorizar o sistema na nuvem separadamente no aplicativo. Para chamar um carro, é necessário já ter vinculado sua conta Didi ou estar conectado à plataforma Shouqi, que só funciona em algumas cidades, usando sua conta Guangfan.

No entanto, essa é uma medida extrema. No ano passado, o Doubao Mobile Assistant provou que romper as barreiras dos superaplicativos é incrivelmente difícil. O acesso da Guangfan aos serviços por meio do sistema em nuvem é mais parecido com tentar cavar um túnel sob um muro alto.

Embora existam riscos ocasionais de alterações de interface ou expiração de licença, pelo menos a possibilidade de agendamento entre aplicações foi abordada.

Categoria 2: Percepção visual ligeiramente reduzida

O maior diferencial da Guangfan é, sem dúvida, sua câmera, capaz de cobrir toda a área do campo de visão do dia a dia. Em resumo, a expectativa da Guangfan em relação a ela é: tornar a aquisição de informações mais ágil e eficiente.

Enquanto fazia compras no fim de semana, vi um restaurante, olhei para a placa, fiz uma pergunta e ele me informou as avaliações e o tempo de espera na fila. Quando vi o relógio de gato preto na mesa do meu colega, os fones de ouvido com IA usaram reconhecimento visual para adicioná-lo diretamente ao meu carrinho de compras.

Claro, o pré-requisito é semelhante ao de pegar um táxi — primeiro preciso fazer login na minha conta JD.com no Hi Light.

Mas foi justamente nessa funcionalidade que senti a maior decepção durante minha experiência.

A visão humana sempre foi instantânea e contínua. No entanto, a percepção visual dos fones de ouvido LightSail AI é pontual e com atraso.

Quando uma loja me chama a atenção, dou um toque duplo para ativar meus fones de ouvido. O que se segue é um longo período de espera. É preciso ficar parado por 8 a 10 segundos antes de ouvir um som simulado de obturador; em seguida, há mais 10 segundos de transmissão e reconhecimento de dados antes que o centro de processamento na nuvem forneça um retorno sobre se o item deve ser adicionado ao carrinho.

Após cuidadosa análise, acredito que o problema reside principalmente em dois aspectos: do ponto de vista psicológico, o uso prolongado da câmera pode gerar pressão no usuário e nas pessoas ao seu redor, que passam a sentir que suas vidas estão sendo espionadas; e do ponto de vista do produto, a bateria fraca e o corpo compacto do fone de ouvido não permitem que o sensor funcione por muito tempo.

É improvável que as duas restrições sejam superadas a curto prazo, mas não existem soluções impossíveis.

Atualmente, o estojo dos fones de ouvido, que funciona como hub de dados, suporta eSIM 4G, mas as velocidades de transmissão de dados (uplink e downlink) são bastante limitadas. Além disso, com base no desempenho atual, o fone de ouvido LightSail AI deve seguir o conceito de "experiência de computação contínua", em que o dispositivo leve lida com a captura de dados básicos e diálogos em nível de milissegundos, enquanto a análise visual, que exige alto poder computacional, é transferida de forma transparente para a nuvem.

Se, com a otimização adicional do modelo local, mais e mais interações simples puderem ser processadas diretamente no local, sem precisar passar pela nuvem, a velocidade de resposta poderá atingir um novo patamar.

Claro, seria muito melhor se usássemos chips para dispositivos vestíveis mais eficientes em termos de energia e adotássemos o eSIM 5G.

Categoria 3: Memorandos de IA utilizáveis ​​e acionados condicionalmente

Em comparação com o reconhecimento visual complexo, o acionamento condicional baseado em localização e dados fisiológicos oferece uma experiência de usuário significativamente mais impressionante.

Se eu lembrar meus fones de ouvido com antecedência que preciso comprar xampu, detergente para louça e sabão em pó na próxima vez que for ao supermercado, quando os fones de ouvido Guangfan AI reconhecerem minha localização e eu passar pelo supermercado ou entrar nele, eles fornecerão proativamente as informações de lembrete para que eu não me esqueça de nada.

Esse tipo de lógica de ativação também se aplica ao monitoramento fisiológico: primeiro, defino uma frequência cardíaca razoável no relógio com base na minha condição física. Assim que o relógio detecta que meus sinais vitais atuais ultrapassam o limite, ele me avisa pelo fone de ouvido para diminuir o ritmo ou fazer uma pausa.

Na prática, essas duas funções são estáveis ​​e discretas, com avisos oportunos e precisos, o que as torna, na minha opinião, os recursos mais práticos.

No entanto, além da sua funcionalidade, ainda existem algumas pequenas falhas—

Os fones de ouvido LightSail AI dependem inteiramente do estojo de carregamento como central de processamento e transmissão de dados. Se você retirar os fones, mas deixar o estojo de carregamento em casa ou no trabalho, os fones só silenciarão após um sinal sonoro ou solicitarão que você os coloque de volta no estojo e tente novamente. Para usar os serviços de IA, os usuários precisam carregar o estojo de carregamento consigo o tempo todo. Durante os poucos dias em que tenho usado o produto, acabei me adaptando.

Isso cria uma diferença em relação à experiência do usuário convencional, em que as pessoas estão acostumadas a usar os AirPods o dia todo e até mesmo a deixar o estojo sem supervisão por breves períodos.

Fones de ouvido com inteligência artificial podem substituir os celulares?

Após 72 horas de testes, voltemos à pergunta inicial: por que adicionar uma câmera aos fones de ouvido? E como é a experiência na prática?

Ao analisarmos este produto, que custa cerca de 2.000 yuans, devemos compreender sua ambição fundamental: este produto tornou-se essencialmente independente do telefone celular, tendo a única conexão o Bluetooth.

Essa é precisamente a maior diferença entre o pensamento da Guangfan e o da Apple: na lógica da Apple, o iPhone é sempre o centro de poder computacional, e os AirPods são apenas uma extensão dos sentidos; enquanto o que a Guangfan vende é um conjunto completo de hubs de hardware de IA independentes que tentam se desvencilhar completamente do telefone celular ou até mesmo substituí-lo.

No entanto, para concretizar essa grande narrativa, devemos distinguir objetivamente quais das muitas falhas expostas sob uso intenso são contradições secundárias causadas pelas limitações da época e quais são lacunas naturalmente intransponíveis no curto prazo.

Alguns obstáculos estão destinados a serem superados com o desenvolvimento tecnológico e ecológico.

Em primeiro lugar, existem limitações físicas no mecanismo operacional. O tempo de ativação da câmera, o atraso de 20 segundos e a arquitetura operacional dessa "aquisição na borda – computação em nuvem" ainda têm amplo espaço para melhorias na experiência do usuário com a otimização contínua do modelo local.

As atuais e complexas barreiras de autorização por terceiros não são um problema insolúvel.

O próprio mercado precisa de tempo para se educar, mas assim que esse tipo de produto vestível com IA tiver influência suficiente, a integração se tornará muito fácil — o surgimento de ferramentas de agentes inteligentes como o Lobster já serviu de exemplo para todos. Contanto que a influência seja grande o suficiente, até mesmo aplicativos nacionais como o WeChat e os gigantes por trás deles irão aderir.

Quando todos os aplicativos começarem a fornecer proativamente APIs e interfaces de linha de comando para que outros acessem, a quebra dos silos do ecossistema será apenas uma questão de tempo.

No entanto, alguns obstáculos são difíceis de superar a curto prazo, ou são mesmo inerentes.

Essa resistência é o "princípio fundamental" dos fones de ouvido atuais.

No mundo atual, onde as redes sociais na internet se tornaram comuns, a função mais importante dos fones de ouvido é criar e manter um ambiente privado para ouvir música e assistir a vídeos.

Mas, uma vez que se torne um assistente de IA proativo, inevitavelmente irá interrompê-lo constantemente com a sua voz — afinal, esta é a única maneira de demonstrar a sua existência e provar o seu valor.

O equipamento originalmente concebido para imersão tornou-se uma fonte de interferência. Essa sensação de desconexão na experiência é uma falha inerente causada pela necessidade de o canal auditivo suportar informações de alta densidade.

Essa questão não é apenas fundamental para a experiência do usuário, mas também precisa ser compreendida claramente pela Apple, pela OpenAI e por qualquer equipe de produto que aspire desenvolver hardware de IA para fones de ouvido.

No entanto, isso não nos impede de manter a esperança no quadro que ele retrata.

Ao analisarmos o dispositivo vestível Guangfan AI All-Sense, embora ainda existam alguns problemas em termos de experiência e interação, não é difícil vislumbrar o panorama geral: o verdadeiro propósito de adicionar uma câmera aos fones de ouvido é explorar a forma definitiva da próxima geração de terminais pessoais.

Funcionalmente, ele "substituirá" os telefones celulares e até mesmo "eliminará" completamente a presença de telefones celulares em cenários de vida futuros.

Imagine esta era: quando ferramentas como "lagostas" permitirem que as pessoas controlem a produtividade mesmo em cenários móveis; no futuro, você poderá estar usando um par de fones de ouvido ou um headset com câmera da Apple ou da OpenAI, caminhando pela rua, e com um simples comando de voz, o headset poderá ativar remotamente um agente no seu computador para executar tarefas complexas automaticamente.

Nesse sentido, a Guangfan, como pioneira, revelou um futuro muito promissor para nós. Afinal, o filme "Ela" representou, em conjunto, as aspirações da nossa geração por um assistente virtual de áudio.

Mas quando voltei a mim, percebi uma coisa com mais clareza: a evolução do hardware é sempre uma dança acorrentada.

Este dispositivo vestível com inteligência artificial de 2.000 yuans certamente não será suficiente para aposentar completamente os celulares, mas sem dúvida abriu uma brecha nas portas para o futuro.

Só falta abrir mais a porta e pavimentar o caminho atrás dela com mais suavidade.

Me proporcione uma viagem maravilhosa

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.