Os primeiros óculos de IA da iFlytek utilizam 40 gramas para revolucionar os fluxos de trabalho de IA.

O ano de 2026 ainda nem chegou à metade, e mais de 30 óculos com inteligência artificial já foram apresentados.

Além de marcas já consolidadas como Huawei, Qianwen (do Alibaba), Rokid, Thunderbird e Xiaomi, até mesmo a Robam Appliances lançou óculos de cozinha com IA, e a BOE fabricou óculos para ciclismo… Com tantos produtos diferentes no mercado, todos estão basicamente focados em três coisas: quem consegue produzir o produto mais leve, quem tem a câmera mais nítida e quem tem lentes que se adaptam a uma tela maior e melhor.

Em meio à empolgação, uma estatística é frequentemente ignorada.

Atualmente, a taxa de devolução de óculos com IA nas principais plataformas de comércio eletrônico é alarmantemente alta, geralmente em torno de 30% . Em canais de transmissão ao vivo, onde as compras por impulso são a maioria, a taxa de devolução pode chegar a 40% ou 50% .

Os usuários fazem pedidos por curiosidade, usam os óculos por alguns dias e depois os devolvem discretamente. Altas vendas iniciais seguidas de um declínio, juntamente com taxas de devolução persistentemente altas, constituem o "ciclo de vida" típico de muitos óculos com IA.

Para ser franco, assim que a novidade passar, os consumidores começarão a se perguntar: o que exatamente isso pode fazer por mim depois que eu colocar?

Hoje, a iFlytek lançou seus primeiros óculos de IA em Macau. Esses óculos de 40 gramas não ostentam contagens de pixels impressionantes, uma tela colorida ou colaborações com marcas famosas; em vez disso, concentram suas principais capacidades em uma função aparentemente comum: a tradução .

Mas a tradução é apenas o ponto de partida, não o ponto final.

Na véspera da conferência de imprensa, a APPSO conversou com Wang Wei, vice-presidente da iFlytek, e Lin Huijie, gerente geral da unidade de negócios de dispositivos vestíveis. Na última parte da conversa, o tema mudou de tecnologias específicas de produtos para uma questão mais ampla: a chave para a próxima fase dos óculos de IA está no hardware ou no fluxo de trabalho da IA?

A "singularidade" dos óculos de IA é que as pessoas vão querer usá-los continuamente.

Após a acirrada competição entre os fabricantes de óculos inteligentes, não é difícil montar um produto desse tipo dentro da cadeia de suprimentos existente; Huaqiangbei (um importante mercado de eletrônicos em Shenzhen) consegue produzir um protótipo em apenas duas semanas. O desafio está em dar aos usuários um motivo para "usá-los constantemente".

Para a iFlytek, que estava fabricando óculos com inteligência artificial pela primeira vez, esse foi um obstáculo inevitável.

Quando Wang Wei conversou com a APPSO sobre o ponto de partida do projeto de óculos de IA da iFlytek, ele explicou que tudo surgiu de um cenário bem específico: pense bem, máquinas de tradução são muito úteis em situações como feiras e negociações comerciais de pequeno porte, e até mesmo uma empresa pode compartilhar uma. Mas sempre há momentos, como em viagens internacionais ou em certas ocasiões, em que é inconveniente pegar o celular e olhar para a tela, e você não quer interromper o ritmo natural da sua fala esperando o resultado da tradução.

Você deseja que a comunicação seja "imersiva", com contato visual constante, diálogos fluidos e tradução que pareça invisível. O ponto de partida para esses óculos é a expectativa do usuário por essa experiência "discreta".

Essa "interrupção física" é um ponto problemático que a iFlytek identificou após analisar inúmeros feedbacks reais de usuários de máquinas de tradução. Empresas que fabricam óculos com IA podem surgir da noite para o dia, mas a base da tradução não pode ser apressada.

A máquina de tradução da iFlytek já vendeu 1 milhão de unidades e realizou 1 bilhão de traduções. O serviço de interpretação simultânea da iFlytek já foi utilizado em 420.000 conferências internacionais, alcançando mais de 50 países e 400 milhões de espectadores, e atendeu o Congresso Nacional do Povo e a Conferência Consultiva Política do Povo Chinês por oito anos consecutivos.

Esses números representam não apenas algoritmos, mas também uma compreensão dos detalhes de cenários do mundo real: quando os usuários acham a tradução lenta, em que situações os dispositivos portáteis são inadequados e em que condições de ruído a precisão cai drasticamente…

Em outubro passado, a iFlytek lançou um fone de ouvido com função de tradução. O dispositivo comprovou duas coisas: que os usuários realmente precisam de tradução vestível com as mãos livres; e que a interpretação simultânea de ponta a ponta é viável em dispositivos vestíveis, com um tempo de resposta inferior a 2 segundos.

No entanto, os fones de ouvido servem apenas aos ouvidos. Na visão de Lin Huijie, a limitação dos fones de ouvido é que eles são um dispositivo "auditivo" (e agora também estão sendo adicionadas câmeras). Os óculos, por outro lado, podem adicionar uma modalidade visual. Com a sobreposição de múltiplas modalidades, a entrada de informações para a comunicação multilíngue torna-se muito mais rica.

Simplificando, os óculos possuem uma câmera que tira fotos e traduz, uma tela que projeta legendas para que você não precise olhar para o celular e também podem conter mais microfones para redução de ruído direcional.

Nas palavras de Wang Wei, "Os óculos estão mais próximos dos olhos, ouvidos e boca de uma pessoa. Eles são uma ponte natural entre o mundo físico e o mundo digital, permitindo que a tradução aconteça tão naturalmente quanto respirar."

Em 2026, os custos da cadeia de suprimentos começaram a diminuir e o programa nacional de subsídios incluiu óculos inteligentes pela primeira vez. Além disso, os recursos aprimorados de tradução na nuvem do modelo grande do Spark X2 aproveitaram perfeitamente o momento e as circunstâncias favoráveis.

Lin Huijie foi bastante franco: "Escolhemos este ponto porque vimos que a taxa de crescimento tinha acabado de começar." Wang Wei foi ainda mais direto: "Não queremos usar o termo 'momento iPhone', mas é isso que realmente significa. Estamos prestes a atingir a singularidade."

40 gramas, um problema de engenharia de sistemas

Minha primeira impressão dos óculos de IA da iFlytek foi que eles eram mais leves do que eu esperava. Eles integram uma tela em miniatura, câmera, matriz de microfone 5+1 e alto-falante, mas o peso total permanece em apenas 40 gramas.

Esse número pode não ser óbvio para muitas pessoas, então vamos fazer uma comparação horizontal:

  • Os óculos Meta Ray-Ban pesam 49 gramas, mas não possuem tela;
  • Os óculos Rokid também pesam 49 gramas e possuem um visor, mas são quase 25% mais pesados ​​que os iFlytek.
  • Os óculos de IA da Huawei são de fato leves, pesando apenas 35,5 gramas, mas não possuem tela.

No universo dos óculos inteligentes com tela, a iFlytek alcançou o que atualmente é o modelo mais leve do setor.

Por que exatamente 40 gramas? Lin Huijie explicou que esse número foi resultado de uma pesquisa e simulação meticulosas. Europeus e americanos geralmente têm um formato de cabeça e tipo físico mais tolerantes, considerando o peso de Meta, acima de 50 gramas, aceitável. No entanto, os asiáticos, com sua estrutura craniana e altura da ponte nasal diferentes, são extremamente sensíveis ao peso.

Para os usuários chineses, 45 gramas é um ponto de virada; ultrapassar esse peso causará pressão perceptível após uso prolongado. 45 gramas é o "limiar de conforto" para uso prolongado.

Para reduzir esses poucos gramas, a equipe passou muito tempo negociando com a cadeia de suprimentos na área de engenharia. O passo mais crucial foi substituir as lentes de vidro tradicionais por lentes de resina.

Os óculos tradicionais são feitos principalmente de resina, mas por que esse material não é usado em óculos inteligentes? Porque o processo de fabricação é extremamente complexo. As lentes dos óculos inteligentes exigem "laminação completa", prensando a camada de exibição e a lente juntas. Os materiais de resina são extremamente propensos a gerar minúsculas bolhas de ar durante a moldagem e o aquecimento. Se houver a menor falha na adesão, a curvatura da refração da luz ficará comprometida, tornando a lente inutilizável. O controle de qualidade é muito mais difícil do que com o vidro.

Lin Huijie revelou que a iFlytek é provavelmente a primeira empresa do setor a implementar com sucesso o processo de laminação completa em resina em óculos inteligentes com telas. O processo de pesquisa e desenvolvimento envolveu inúmeras tentativas e erros até que finalmente se conseguisse utilizar materiais de resina nas lentes da tela. No entanto, os resultados foram enormes; as lentes, por si só, são de 30% a 40% mais leves do que as soluções de vidro.

Além disso, são utilizados um motor óptico miniaturizado de 0,15 cc e um módulo de câmera miniaturizado, ambos projetados sob medida, e a armação e as hastes são moldadas como uma única peça. A seleção do chip e o algoritmo estão profundamente interligados: para a mesma função, enquanto outras empresas podem precisar de uma bateria de 100 mAh, a iFlytek pode precisar de apenas 50 mAh.

Portanto, os óculos de IA iFlytek que vemos no final são mais leves no geral, mas a duração da bateria não é comprometida.

Este é um problema de engenharia de sistemas sem atalhos. Cada elo exige ajustes repetidos na cadeia de suprimentos para melhorar as taxas de rendimento. Lentes de resina, motores micro-ópticos, chips de baixo consumo de energia e acoplamento entre algoritmo e hardware — se qualquer elo falhar, o peso terá que voltar a ultrapassar 50 gramas.

Redução de ruído por reconhecimento de movimento labial: usando seus olhos para ajudar seus ouvidos a ouvir.

A tradução é certamente a especialidade da iFlytek, mas nesses óculos, a iFlytek também estreou uma tecnologia um tanto futurista — a redução de ruído por reconhecimento de movimento labial, que é a parte central do sistema multimodal de redução de ruído .

Esta é a primeira vez que a redução de ruído por reconhecimento de movimento labial é integrada em óculos com IA . A lógica por trás disso é que a câmera frontal dos óculos se fixa nos lábios da pessoa que está falando. Simultaneamente, cinco microfones de condução aérea e um microfone de condução óssea nos óculos formam um fluxo de áudio de seis canais.

O sistema utiliza a observação em tempo real de "cuja boca está se movendo" para ajudar a determinar "cuja voz ouvir", extraindo assim com precisão a voz da pessoa desejada em meio a uma mistura ruidosa de múltiplas vozes.

Isso cria o efeito de "ver quem traduz quem"; seja qual for o foco dos seus óculos, as legendas traduzidas que aparecem nos seus ouvidos e nas suas lentes serão as dessa pessoa.

Essa tecnologia determina diretamente a qualidade da tradução em muitos cenários, pois a precisão da tradução depende da clareza com que o áudio é ouvido.

Em uma sala de reuniões silenciosa, os softwares e hardwares de tradução atuais conseguem lidar com a comunicação de forma bastante satisfatória. No entanto, um grupo de usuários chave para os óculos de IA da iFlytek são os profissionais de negócios. Quais são as reais necessidades de tradução deles? Eles precisam da ferramenta em feiras, recepções de negócios e aeroportos, onde os níveis de ruído ambiente podem facilmente atingir 80 a 90 decibéis. Nesses ambientes, a precisão das ferramentas de tradução tradicionais cai drasticamente.

Em cenários com muito ruído, a redução de ruído por reconhecimento de movimento labial melhora a precisão do reconhecimento em mais de 50%. Lin Huijie explicou que não se trata simplesmente de observar os movimentos dos lábios; o sistema integra uma solução completa de redução de ruído multimodal, incluindo aprimoramento da localização da fonte sonora e detecção da pessoa-alvo, com todos os sinais se coordenando automaticamente durante o uso.

Essa capacidade não surgiu por acaso. A iFlytek trabalha há muitos anos com separação de fala multicanal e redução de ruído multimodal em sistemas de conferência de grande escala e cockpits automotivos inteligentes, tendo conquistado seis campeonatos consecutivos na Competição Internacional de Separação de Fala CHiME.

Wang Wei também compartilhou uma demonstração interna de alguns anos atrás: vários pesquisadores falavam ao mesmo tempo, e o ouvido humano não conseguia distingui-los. O sistema separou a voz de cada pessoa de forma clara e nítida, e ficou claro quem disse o quê.

O interessante é que, no passado, ao realizar grandes conferências, havia espaço físico suficiente para acomodar microfones, servidores com poder de processamento e tomadas elétricas. Agora, é preciso comprimir esse complexo algoritmo de fusão de áudio e vídeo em um par de óculos de 40 gramas com capacidade de processamento e consumo de energia extremamente limitados.

Wang Wei acredita que esse é precisamente o "ponto forte" da iFlytek em hardware: como comprimir os algoritmos principais em dispositivos grandes a uma alta taxa e portá-los para dispositivos móveis pequenos e leves, sendo também capaz de processar vários dados de voz offline em tempo real .

A estratégia de desenvolvimento de hardware da iFlytek é "verificação de dispositivos em larga escala, migração de dispositivos em pequena escala". Algoritmos que se mostraram eficazes em sistemas de videoconferência e automóveis são adaptados para o dispositivo em forma de óculos. A redução de ruído por reconhecimento de movimento labial exige dados pareados de áudio e vídeo, capacidade de processamento em tempo real no dispositivo e otimização conjunta de hardware com múltiplos microfones, o que é difícil de alcançar apenas com a integração de algoritmos existentes.

A precisão da redução de ruído determina diretamente a precisão da tradução, que é o primeiro obstáculo em todo o fluxo de trabalho.

A infraestrutura por trás da "tradução tudo-em-um"

Quando você conseguir ouvi-la claramente, poderá traduzi-la com precisão.

Os óculos de IA iFlytek suportam tradução em tempo real de 122 idiomas e são divididos em quatro modos: interpretação simultânea (audição de discursos), tradução presencial (negociações comerciais), tradução por chamada (chamadas telefônicas internacionais) e interpretação simultânea online (conexão com o Tencent Meeting ou Zoom). A câmera também pode capturar imagens de apresentações em PowerPoint e traduzir documentos em língua estrangeira.

O que achei mais interessante durante a experiência presencial foi a tradução das chamadas .

Provavelmente, este é o único par de óculos no mercado capaz de realizar tradução simultânea e gravar sua chamada telefônica. Funciona assim: os óculos se conectam ao seu telefone via Bluetooth, captam o inglês falado do outro lado da linha, utilizam um modelo de interpretação simultânea de ponta a ponta para tradução totalmente automática e, em seguida, traduzem sua resposta em chinês de volta para o inglês, com uma latência inferior a um segundo.

Em outras palavras, quando você fala chinês ao telefone, o estrangeiro do outro lado da linha ouve inglês com uma versão clonada da sua voz. Depois de desligar, os óculos podem até enviar a você uma ata estruturada da reunião.

No passado, os sistemas de tradução tradicionais consistiam nos "três passos antigos": Reconhecimento Automático de Fala (ASR) → Tradução de Texto (MT) → Síntese de Voz (TTS). O maior problema dessa abordagem era a alta latência, e a perda semântica de informação aumentava a cada etapa.

Desta vez, a iFlytek equipou os óculos com um modelo de interpretação simultânea de voz de ponta a ponta, eliminando a etapa intermediária de tradução de texto e realizando diretamente "voz entra, voz sai", reduzindo o tempo de resposta da primeira palavra para 2 segundos. O suporte em nuvem é o modelo Spark X2 (uma arquitetura MoE com 293 bilhões de parâmetros, treinada no Huawei Ascend).

Lin Huijie afirmou que eles segmentaram os cenários de tradução em partes extremamente detalhadas porque a base de conhecimento do setor e os modos de redução de ruído necessários em diferentes cenários são completamente diferentes.

O esforço que a iFlytek dedicou à função de tradução destes óculos é, de certa forma, semelhante à abordagem da indústria de telefonia móvel em relação à imagem. Todos os dispositivos têm uma câmera, mas esta possui 200 milhões de pixels, zoom de 10x, imagens ao vivo em 4K e é capaz até mesmo de lidar com cenários de fotografia profissional.

O fluxo de trabalho da IA ​​só começa após a tradução.

Neste ponto, você perceberá que as ambições da iFlytek vão além da simples criação de uma "ferramenta de tradução". Provavelmente é por isso que não é chamada de "óculos de tradução", mas sim vista como uma "superassistente de IA bem na sua frente".

Lin Huijie acredita que " os óculos são mais como um supercomputador usado em frente aos olhos, com tela, câmera e recursos de voz; sua configuração é basicamente a mesma de um celular ou PC. "

A camada de capacidade é suportada pelo GlassClaw da iFlytek. Este agente pode invocar grandes capacidades de modelos, acessar serviços do ecossistema e realizar compreensão multimodal, conectando todo o processo, da compreensão à execução. Ele também suporta o acesso de agentes de terceiros, como o OpenClaw.

Você leu certo, estes ainda são copos "lagosta".

Lin Huijie compartilhou seu fluxo de trabalho diário usando o GlassClaw: ele não precisa mais pegar o celular com frequência quando sai de casa. Enquanto caminha, ele pode ativar o GlassClaw diretamente com a voz para acessar os contatos do celular, encontrar clientes e ligar para eles; a tradução começa automaticamente quando a chamada é conectada.

Ao conversar pessoalmente com um cliente, se de repente você precisar revisar um resumo de contrato anterior, basta dar as instruções aos seus óculos, e eles pesquisarão no seu computador os pontos principais e os sincronizarão com as lentes.

Mesmo após a reunião, os óculos realizaram automaticamente a diferenciação multimodal de papéis (quem disse o quê) e geraram um resumo estruturado. Ele então disse diretamente por voz: "Envie o resumo para a equipe do projeto por e-mail e sincronize a reunião de avaliação da próxima quarta-feira com o calendário."

Se você já criou camarões, provavelmente está familiarizado com essas características, só que desta vez a interação acontece no seu rosto.

A função de teleprompter, que inicialmente popularizou os óculos com inteligência artificial, também foi aprimorada neste modelo.

Os óculos de IA iFlytek possuem uma função de teleprompter inteligente que permite o acompanhamento semântico, respondendo com precisão ao que é falado, em vez de simplesmente rolar a tela em alta velocidade. Eles são capazes de realizar uma compreensão e acompanhamento semântico inteligentes e naturais. O estojo de carregamento que acompanha o produto também pode ser usado como controle remoto, com botões para alternar e pausar o texto.

Essa é a colaboração em três níveis "dispositivo-borda-nuvem" que a arquitetura AstronClaw implementa na camada subjacente: o dispositivo dos óculos é responsável pela percepção e pré-processamento do ambiente, a borda toma as decisões e a inferência complexa é tratada pelo SparkX2 na nuvem. O GlassClaw é baseado nos recursos de Agente desenvolvidos pela própria iFlytek e também oferece suporte ao acesso de Agentes de terceiros, como o OpenClaw.

Wang Wei acredita que , no futuro, os óculos não serão apenas um simples par de óculos, mas sim um assistente pessoal prático .

Existem muitos produtos no mercado que apenas traduzem ou que funcionam apenas como assistentes de IA, mas para integrar "tradução + gravação + resumo + execução multiplataforma" em um fluxo de trabalho eficiente, quatro funcionalidades essenciais — voz, tradução, modelo robusto e agente inteligente — devem estar online simultaneamente e interconectadas .

As capacidades tecnológicas abrangentes da iFlytek encontraram um ciclo fechado adequado no universo dos óculos.

Qual será a chave para o sucesso na segunda metade da era dos óculos com inteligência artificial?

Nos últimos dois anos, a onda da IA ​​varreu toda a indústria de hardware em busca do chamado ponto de entrada da "próxima geração".

O AI Pin falhou, e vários pingentes inteligentes não tiveram sucesso. Embora os produtos e tecnologias de hardware de IA variem, a indústria está gradualmente chegando a um consenso: a IA precisa de olhos ; ela deve ser capaz de perceber o mundo físico tridimensional em que os humanos vivem em tempo real.

Os óculos com inteligência artificial podem não ser a solução definitiva, mas atualmente são a única forma capaz de transmitir informações visuais e auditivas em primeira pessoa, 24 horas por dia.

Em uma entrevista, Wang Wei fez uma previsão interessante: "Os três elementos essenciais da vida digital do futuro provavelmente serão computadores, celulares e óculos. Os óculos não são apenas acessórios para celulares; são unidades de computador independentes que se encaixam na ponte do nariz."

Os óculos são naturalmente adequados para serem dispositivos que conectam os mundos físico e digital. Além disso, o próprio hardware tem um longo espaço para iterações: as telas evoluirão de monocromáticas para coloridas, de 2K para 4K; câmeras e microfones serão atualizados para métodos de codificação de tokens nativos de IA. Wang Wei afirmou que esses caminhos tecnológicos já estão mostrando direções de desenvolvimento relativamente claras.

Lin Huijie revelou que os óculos de IA de segunda geração da iFlytek já estão em fase de planejamento e poderão ser lançados já no outono de 2026, visando um público mais amplo e explorando alguns cenários verticais de nicho.

Ao longo do último ano, a APPSO testou e desenvolveu diversos óculos com IA. Analisando a acirrada competição entre os fabricantes de óculos com IA, percebe-se que o setor se dividiu em dois caminhos distintos:

Uma abordagem é " fabricar os melhores óculos e tornar a IA um bônus ". A Meta Ray-Ban segue essa lógica: usar design moderno e cultura de marca para compensar a necessidade pouco frequente, porém essencial, dos usuários por recursos de IA.

O outro caminho é "criar fluxos de trabalho de IA mais profundos e transformar óculos em novos computadores". Este é o caminho escolhido pela iFlytek. Os dois caminhos levam a diferentes dimensões de competição, mas o segundo é mais difícil porque exige tanto capacidades de engenharia de hardware quanto capacidades de IA de ponta — e nenhuma delas pode faltar.

O verdadeiro ponto de virada na segunda metade da era dos óculos com IA reside em quem conseguirá integrar a IA em cenários do mundo real altamente segmentados e lidar com as tarefas rotineiras para os usuários.

Que os óculos sejam apenas óculos, e que a IA desempenhe honestamente seu papel como uma "ferramenta de trabalho".

O equipamento que acabará por permanecer, creio eu, será algo assim: quando o retirarmos, de repente sentiremos que o mundo à nossa volta se tornou pesado e ineficiente.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.