Por que estão crescendo câmeras em fones de ouvido? Gadgets de IA

Nota do editor:
Quando a IA começa a buscar sua própria forma, algumas de suas escolhas são inesperadas.
A inteligência artificial deu origem a um botão dedicado em smartphones, aparentemente reacendendo seu impulso evolutivo há muito perdido. Os óculos, com seu acesso natural à visão e à audição, começam a se assemelhar à próxima geração de terminais pessoais. Alguns dispositivos pequenos e focados parecem mais confiáveis do que os dispositivos multifuncionais em certos momentos. Enquanto isso, tentativas radicais de substituir smartphones por dispositivos descartáveis foram recebidas com frieza.
A implementação de tecnologia nunca se resume apenas a acumular funções; também envolve os hábitos das pessoas, a adequação aos cenários e a redefinição do conceito de "fácil de usar".
A iFanr lança a coluna " Crônica dos Gadgets de IA ", com o objetivo de explorar com você como a IA está mudando o design de hardware, remodelando a interação humano-computador e, mais importante, como a IA entrará em nosso dia a dia.
Com o ano chegando ao fim, a LightSail Technology, uma startup até então pouco conhecida, lançou um produto que parece um tanto contraintuitivo: o traje inteligente Lightwear AI All-Sense (doravante denominado Lightwear).
De forma geral, trata-se de um conjunto de fones de ouvido inteligentes e um smartwatch. Mas os detalhes específicos são mais interessantes:
Primeiramente, cada fone de ouvido possui uma câmera de 2 megapixels e pesa apenas 11g, garantindo bateria suficiente para as funções visuais. O smartwatch funciona tanto como tela quanto como ferramenta de entrada interativa adicional. No entanto, o núcleo inteligente deste kit não é necessariamente um telefone, mas sim o estojo dos fones de ouvido, que possui eSIM integrado e um chip GPS, permitindo a conexão direta com smartwatches.
Isso significa que o Lightwear pode se separar completamente do telefone e funcionar de forma independente.

Este conceito de design único é inédito na indústria. A câmera exposta, pendurada no fone de ouvido e posicionada próxima à orelha, representa um desafio ainda maior para a estética geral do que os óculos inteligentes com câmeras, além de abordar questões sensíveis de privacidade.
No entanto, se observarmos a direção que toda a indústria de tecnologia e eletrônicos de consumo está tomando nos próximos 5 a 10 anos, veremos que a OpenAI, a Meta, a Alibaba Quark, a Li Auto e a Apple chegaram a um consenso sobre definições de produtos semelhantes — e a Guangfan Technology assumiu a liderança na transformação desse consenso em produto, antes mesmo dessas gigantes e grandes empresas.
Em outras palavras, a IA precisa realmente entender o mundo; microfones sozinhos já não são suficientes.
Por outro lado, existe um consenso de que as capacidades multimodais dos modelos estão forçando o design de produtos a atender às necessidades dos modelos .
Em outras palavras, sejam fones de ouvido com câmera como os da Guangfan ou óculos inteligentes, mais amplamente aceitos, mas ainda controversos, esses formatos de produto são resultado de capacidades de modelagem e não têm nada a ver com estética.

Uma empresa de hardware de IA derivada da Xiaomi
A Guangfan Technology foi fundada em outubro de 2024. Seu fundador, Dong Hongguang, foi membro fundador do Grupo Xiaomi e seu 89º funcionário. Durante seus 14 anos na Xiaomi, ele participou, em um papel fundamental, da pesquisa e desenvolvimento de projetos de alto nível, como MIUI, Quick Apps, desenvolvimento próprio de celulares e sistemas operacionais automotivos.
Segundo a apresentação oficial da empresa, a equipe fundadora é uma típica "equipe de alto nível", que, além da Xiaomi, reúne especialistas seniores de empresas como Huawei, ByteDance, Alibaba e Tencent, e possui profundas capacidades de desenvolvimento de software, hardware e IA.
O que é ainda mais notável é a rapidez com que o capital foi acumulado. Em apenas três meses, a Guangfan Technology concluiu duas rodadas de financiamento, totalizando 130 milhões de RMB, com uma avaliação pós-investimento superior a 500 milhões de RMB. Entre os investidores, estavam fundos e instituições renomadas como Bairui Capital (fundada por Li Ping, vice-presidente da CATL), Shokz, Tongge Venture Capital (sob a gestão de Goertek), Qinghui Investment, CDH Investments, Alpha Commune e InnoAngel.
O capital industrial envolvido é notável, composto principalmente por gigantes da fabricação de áudio e alta tecnologia: a Shokz detém mais de 50% do mercado de fones de ouvido de condução óssea e abertos, a Goertek é a principal fabricante de equipamentos originais (ODM) para dispositivos vestíveis, a Qinghui Investment conta com o apoio da GigaDevice, uma empresa líder em armazenamento, e a CATL dispensa apresentações.
O envolvimento desses grandes centros industriais não só proporciona à empresa e a esse modelo ainda em desenvolvimento espaço para erros e acertos, como também demonstra o planejamento antecipado dos gigantes do setor.
A câmera existe para que a IA possa ver o que você vê.
Nos últimos 20 anos, a principal linha de interação humano-computador tem sido cristalina: digitar, tocar na tela, tirar fotos, fazer upload e, em seguida, aguardar o retorno do dispositivo. Embora o software e os serviços integrados aos dispositivos atuais sejam capazes de realizar muitas tarefas e sejam muito poderosos, a lógica da interação não mudou: você controla o dispositivo e o dispositivo lhe fornece o retorno.
A recente onda de IA baseada em grandes modelos de linguagem nos últimos 3 a 5 anos mudou completamente essa lógica. Como esses modelos têm a capacidade de processar informações multimodais, compreender as relações entre imagens, sons e texto e possuir capacidades mais próximas da "intuição humana", os produtos de IA impulsionados por grandes modelos podem interagir de forma mais proativa com os usuários e o mundo digital que habitam — e até mesmo com o mundo real.
De gigantes do Vale do Silício como OpenAI, Apple e Meta, a grandes fabricantes nacionais, os dispositivos de IA equipados com câmeras tornaram-se um consenso. A razão para isso é simples: a voz captura "o mundo que você descreve", mas com uma câmera, a IA pode realmente entender "onde você está", "o que está à sua frente" e "o que está acontecendo no mundo".

Arte conceitual de fone de ouvido OpenAI projetada por terceiros
Eis a questão: preciso mesmo pegar meu celular toda vez que a IA precisar entender alguma coisa? Não existe um lugar melhor para colocar a câmera?
Restam apenas duas opções práticas: usá-lo na cabeça ou colá-lo no corpo.
Até o final de 2025, já teremos visto inúmeros empreendedores, fracassados, líderes e retardatários em ambos os campos.
No universo dos dispositivos pessoais, o Humane AI Pin e o Rabbit R1 foram outrora aclamados como "o próximo iPhone" no Vale do Silício. Contudo, foram lançados prematuramente e apresentaram um desempenho fraco, o que levou ao seu rápido declínio. Apesar disso, existe um fluxo constante de inovações neste campo, como o Looki, que foi recentemente relançado no mercado nacional.
As pessoas estão relembrando o Google Glass e os headsets de realidade virtual que fizeram sucesso há mais de uma década, e a combinação dos dois criou uma nova geração de óculos inteligentes. Atualmente, essa categoria é considerada o padrão ouro no Vale do Silício e, por poder ser integrada perfeitamente aos óculos do dia a dia, goza de uma aceitação relativamente maior. No entanto, alguns ainda acreditam que os óculos inteligentes não são ideais e não se tornarão um verdadeiro substituto para os smartphones.
Em seguida, vieram os fones de ouvido. Entre smartphones, dispositivos vestíveis e óculos inteligentes, os fones de ouvido ocupam uma posição delicada: a sociedade aceitou tacitamente seu uso prolongado, enquanto eles se alinham naturalmente com os dois sentidos principais, "visão" e "audição". Isso os torna um veículo plausível para as capacidades de computação perceptual da IA e um campo de testes para a próxima geração de hardware de IA.
Os fones de ouvido ficam mais próximos dos olhos e ouvidos, e a conscientização do consumidor já está estabelecida, levando à ampla aceitação de seu uso. Mais importante ainda, em comparação com a visibilidade e o peso dos óculos (que pesam pelo menos 40 gramas), os fones de ouvido Lightwear não são apenas leves (11g por fone), mas, embora a adição de uma câmera os faça parecer um pouco "estranhos", sua presença é pelo menos menos perceptível em situações sociais do que a dos óculos.

Da lógica de produto centrada no usuário para a lógica de produto centrada no modelo
Os fones de ouvido com IA que dependem exclusivamente do reconhecimento de voz atingiram um mercado relativamente saturado e claramente entraram em um estágio de gargalo. De acordo com a observação da iFanr, a maioria dos chamados fones de ouvido com IA no mercado custa cerca de 1.000 yuans ou menos, focando principalmente em cenários de tradução por IA, e suas funções estão se tornando cada vez mais homogêneas.
O que a Guangfan idealizou e o que fez com o Lightwear foi muito diferente dos fones de ouvido comuns. Os fones de ouvido comuns parecem estar limitados ao âmbito da "audição", mas a Guangfan foi além, considerando uma questão mais profunda: a IA precisa de mais contexto, será que posso obtê-lo através de fones de ouvido?
A resposta para essa pergunta reside, na verdade, na mudança fundamental nos métodos de interação na era da IA.
Dos computadores aos telefones celulares, vivemos na era da GUI (Interface Gráfica do Usuário), onde telas, botões e ícones são indispensáveis porque podemos controlar com precisão todos os objetos com os quais interagimos.
Mas a IA generativa muda essa lógica: a interação pode se basear inteiramente na linguagem natural. Você dá instruções vagas ao sistema, e ele responde com resultados imprecisos, porém utilizáveis. A comunicação e o feedback de alta frequência tornam-se mais importantes, enquanto a precisão se torna menos crítica — isso é a NUI (Interface Natural do Usuário). Falar e ouvir tornam-se mais naturais. Interfaces gráficas tornam-se desnecessárias.
Esse novo paradigma de interação faz todo o sentido para fones de ouvido: eles podem pesar apenas 10g ou até menos, tornando-os confortáveis de usar, com bateria de longa duração e sempre online. É como ter uma extensão inteligente do seu corpo, sempre online e pronta para usar.
Mas esse dispositivo inteligente não tem uma coisa essencial: assim como os humanos, ele precisa receber informações suficientes. E dentre todas as dimensões da percepção, a visão é a mais rica e importante em termos de informação.
Portanto, a conclusão é clara: é necessário adicionar uma câmera aos fones de ouvido.
No evento de lançamento, a LightSail apresentou aplicações práticas das capacidades de sensoriamento do Lightwear. Esses cenários abrangiam necessidades de alta frequência no dia a dia e no trabalho:
- Cenário O2O : Quando um usuário ativa o dispositivo e pergunta: "Você pode dar uma olhada neste lugar?", o fone de ouvido usa a câmera para identificar a placa do restaurante à sua frente, combina o posicionamento GPS para confirmar a localização e utiliza a memória acumulada pelo produto de IA para realizar uma comparação personalizada de sabores, recomendar melhores restaurantes próximos e, proativamente, anotar o número de telefone e fornecer lembretes inteligentes quando for a hora de ligar.
- Viagens a negócios: Ao receber uma mensagem de texto/e-mail sobre uma viagem a negócios, a Lightwear pode agendar proativamente seu itinerário, identificar e resolver conflitos de agenda, responder de forma inteligente a mensagens de texto/e-mails, pesquisar e reservar voos e hotéis e concluir a última etapa do processo de reserva.
- Compras: Quando os usuários veem um produto de seu interesse, basta fazer uma pergunta e o headset reconhece o produto visualmente, compara preços online, adiciona o produto ao carrinho ou até mesmo realiza o pedido diretamente.
- Lembretes diários: Alerte e lembre os usuários proativamente com base em suas agendas (como aniversários importantes).
Ao longo de todo o processo, os usuários não precisam abrir seus telefones, entrar no aplicativo ou mesmo declarar explicitamente o que desejam — a IA combina informações visuais e geográficas para completar o contexto necessário por conta própria.

Esses tipos de dispositivos são naturalmente adequados para os seguintes cenários: coisas que você não consegue descrever exatamente ("esta", "não, é aquela ao lado"); cenários em que não vale a pena pegar o celular para tirar uma foto, ou cenários em que pegar o celular interromperia seu estado de concentração (caminhando, visitando uma exposição, cozinhando, etc.), etc.
2 megapixels são suficientes? Sim, são, porque as fotos são para a modelo ver.
Se analisarmos o Lightwear sob a perspectiva de produtos tradicionais que consomem muita energia, certamente ele apresenta muitas desvantagens: câmera exposta, o que levanta preocupações com a privacidade; peso maior do que fones de ouvido comuns, tornando o uso prolongado impraticável; pressão social; e facilmente evoca comparações com produtos fracassados como o Google Glass e o AI Pin, entre outros…
No entanto, isso ignora completamente o ponto principal. Adicionar uma câmera aos fones de ouvido, na verdade, contribui para a eficiência de compreensão da IA . A câmera em si não se destina ao uso humano. O ponto de partida do projeto é servir ao modelo. O modelo precisa de um fluxo visual mais contínuo e oportuno, além de uma experiência FPV mais realista.
Eis um detalhe importante do design que vale a pena destacar: a câmera da Lightwear utiliza um mecanismo de processamento de imagem de "mensagem que desaparece".
No sistema Lightwear, não é possível comandar os fones de ouvido para tirar uma foto com o objetivo de "tirar uma foto". Isso ocorre porque a câmera serve exclusivamente para inteligência artificial, utilizada para a compreensão do contexto visual em tempo real. Os arquivos de fotos não são salvos localmente nem na nuvem; podem ser entendidos como "usados e descartados". Diversas considerações fundamentam esse design:
Claramente, a principal preocupação neste projeto é a proteção da privacidade. Ao não salvar arquivos de imagem, os vazamentos de privacidade podem ser fundamentalmente evitados, e os usuários não precisam se preocupar com o fato de seu cotidiano ser filmado ou mesmo fotografado e salvo "secretamente" em situações inesperadas.
Além disso, não salvar fotos otimiza significativamente os custos: como o dispositivo se destina à visualização de seios, a qualidade da imagem não precisa atender aos padrões humanos. 2 megapixels são suficientes para reconhecimento de objetos e compreensão de cenas, e uma menor quantidade de pixels resulta em velocidades de processamento mais rápidas, menor consumo de energia e menores custos de armazenamento e largura de banda. Atualmente, o dispositivo oferece de 9 a 15 horas de duração da bateria, o suficiente para o uso durante todo o dia.
É claro que minha afirmação de que este produto prioriza o modelo em detrimento do usuário é meramente minha opinião subjetiva. Outros, incluindo Guangfan, podem ter pontos de vista diferentes. No evento de lançamento, Dong Hongguang enfatizou que o hardware de IA deveria "dar um passo atrás em relação à tecnologia e colocar as pessoas no centro", mas o produto em si, pelo menos na minha lógica, demonstra que a tecnologia vem em primeiro lugar.
Mas, atualmente, qual hardware de IA consegue escapar dessa sensação de contradição?
Aqui podemos afirmar com convicção: todo o hardware de IA , agora e por algum tempo ainda, deve ser definido com uma abordagem centrada no modelo, tomando a satisfação dos requisitos do modelo como ponto de partida principal para a definição do produto.
Como ainda estamos longe de explorar os limites das capacidades de combinar modelos de IA com produtos de hardware eletrônico, não há dúvida de que veremos mais coisas como o Lightwear no futuro — coisas que poderíamos até chamar de "monstros de Frankenstein".
Somente fazendo mais tentativas, mesmo que a maioria delas sejam de tentativa e erro, essas empresas de produtos poderão realmente encontrar seus limites e oferecer uma experiência melhor.

Para concluir
Claro, o Lightwear ainda é um produto legítimo que está prestes a ser lançado. Este conjunto não é barato, e não pretendo dar uma classificação muito alta ao Lightwear aqui, para não dar a ninguém uma impressão errada.
Na conferência de imprensa, tivemos acesso ao "protótipo de engenharia", que incluía cenários essenciais de alta frequência, como gerenciamento de agendas, retransmissão de lembretes de mensagens, reserva de viagens, transporte por aplicativo, informações de avaliação de restaurantes e filas de espera, busca visual/adição de itens ao carrinho de compras, e todos funcionaram sem problemas.
No entanto, devido à conexão direta dos fones de ouvido ao estojo de carregamento (rede eSIM 4G) e às condições de rede geralmente precárias no evento, a latência durante as conversas ainda era bastante perceptível, ficando aquém do ritmo de diálogo idealizado visto no filme *Ela*. Os engenheiros presentes no evento revelaram que a experiência com o protótipo de engenharia corresponde a aproximadamente 70-80% do nível da versão comercial, com lançamento previsto para o primeiro trimestre do próximo ano.
Sinceramente, depois de experimentar o Lightwear, achei-o bastante satisfatório. Não creio que os "fones de ouvido com IA e câmeras" que a OpenAI e a Apple estão planejando, e que podem ser lançados oficialmente em 2026 ou 2027, ofereçam uma experiência significativamente melhor do que a solução do Lightwear.
Isso não tem nada a ver com a qualidade do produto ou com a capacidade de engenharia; é simplesmente porque o potencial atual desse formato de produto é limitado. Qualquer um pode implementar essas funções, e uma equipe chinesa como a Guangfan, originária da Xiaomi, deveria ser capaz de fazê-lo melhor.

Se me perguntarem o que acho desse tipo de hardware de IA, minha resposta é: bastante razoável, não suficientemente elegante e, muito provavelmente, não é a versão final.
- Altamente razoável: porque aborda com precisão os desafios contextuais de combinar agentes multimodais com hardware. A IA não consegue compreender o mundo real sem a percepção visual;
- Falta de elegância: O corpo do produto é maior que o dos AirPods, o que pode gerar certo desconforto social. Para usuários comuns, isso pode até ser motivo para que ele fique acumulando poeira após a compra;
- Não é a versão final: Complementando o ponto anterior, o Lightwear atual se assemelha mais a um produto preliminar e de transição. Podemos imaginar como será um produto maduro: a câmera será ainda mais reduzida a um tamanho quase imperceptível, tornando o produto mais parecido com os AirPods — um formato de produto amplamente aceito pela sociedade. Não precisamos nos preocupar com isso; considerando a experiência com óculos inteligentes e cartões de memória, eles eram bastante volumosos no início, mas à medida que o mercado se aqueceu e a cadeia de suprimentos melhorou, as soluções se tornaram mais maduras.
Além disso, o Lightwear atualmente utiliza um sistema operacional de IA desenvolvido internamente, chamado Lightware OS, que pode se conectar a diversos modelos de linguagem/modelos multimodais, MCP, APIs e possui recursos de uso em celulares/navegadores, etc. Portanto, mesmo que o formato de headset com câmera se mostre inviável no futuro, o Lightware OS pode ser rapidamente migrado para óculos ou outros dispositivos.
Dos AirPods com IA aos Camerabuds, que rumores apontam estarem em desenvolvimento há vários anos, até o misterioso novo hardware para o qual a OpenAI contratou o lendário designer da Apple, Jony Ive — todos os rumores sobre esses produtos mencionam, coincidentemente, fones de ouvido com câmera. Isso definitivamente não é uma simples coincidência, mas sim um caso de "grandes mentes pensam igual".

Em um mercado tão inicial, mas já extremamente competitivo, o lançamento de um produto altamente funcional pela Guangfan é, por si só, algo empolgante.
Do ponto de vista do caminho inevitável da evolução tecnológica, é inevitável que várias coisas novas e "estranhas" surjam uma após a outra antes que um produto revolucionário redefina o mundo. Quando a IA começar a compreender ativamente o mundo, a forma dos dispositivos certamente se tornará um tanto estranha — isso é verdade para tudo em seus estágios iniciais. Não se esqueça de que os carros foram inicialmente vistos como atrações de circo.
É claro que, da perspectiva da aceitação do usuário, mudanças em fatores subjetivos como normas sociais, limites de privacidade e preferências estéticas costumam ser muito mais lentas do que o progresso tecnológico. Onde reside o verdadeiro ponto de inflexão ainda não está claro.
Mas o que é certo é que ultrapassamos um novo ponto de partida incerto. No futuro, haverá cada vez mais produtos cujo design foi completamente transformado pela IA, remodelando a interação humano-computador. Através desta reportagem especial, "Gadgets de IA", a iFanr continuará a observar como estes produtos entram e transformam as nossas vidas.
#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

