Para que o hardware de IA realmente entre em nossa vida diária, precisamos de um novo “motor”
2025 é considerado o primeiro ano do Agente de IA. Empresas de tecnologia como OpenAI, Google e Microsoft propuseram que os Agentes comecem a se juntar à força de trabalho e até mesmo mudem a forma de trabalho.
Ao mesmo tempo, empresas como Google e OpenAI, cujos principais produtos são software, também começaram a lançar mais hardware inteligente.
Esses dois eventos não são coincidências isoladas; juntos eles apontam para um sinal claro.
Na "Force Power Conference" da Volcano Engine, há alguns dias, Wu Di, chefe do algoritmo inteligente de grande modelo da Volcano Engine, acreditava que tornar os recursos de IA acessíveis ajudaria na atualização abrangente do hardware de IoT e do hardware leve, e todo o sistema de valor do hardware também pode ser remodelado .
Na China, a Volcano Engine, como plataforma de serviços de nuvem e IA, não é uma fabricante tradicional de hardware, mas participa da integração de produtos de IA e hardware de outras maneiras. Nove dos dez maiores fabricantes de celulares do mundo mantêm uma cooperação profunda com a Volcano Engine, e a arquitetura colaborativa de nuvem final da Volcano Engine está se tornando o "cérebro" e o "nervo" do hardware inteligente.
Em nossa comunicação com profissionais, descobrimos que os desafios que os fabricantes de hardware geralmente enfrentam ao integrar com IA são a fragmentação do ecossistema de mercado e os altos custos de desenvolvimento. Esse também é um motivo importante pelo qual alguns hardwares de IA têm vida curta, mas nunca se tornam dispositivos de uso comum para os usuários.
Os conceitos de "capacidades atômicas" e "integração de nuvem final" que a Volcano Engine enfatiza repetidamente em suas soluções de hardware inteligentes atingem precisamente o ponto crucial do atual processo de IA de dispositivos de IoT: como quebrar as barreiras entre a extremidade e a nuvem e permitir que as capacidades de IA fluam mais suavemente para cada terminal de hardware.
Uma grande quantidade de hardware de AIoT tornou-se uma porta de entrada importante para os agentes. Quem assumir a liderança em garantir a resposta de ponta a ponta dos dispositivos poderá assumir a liderança neste mercado emergente de AIoT.
Desmontando a "Energia Atômica" do Volcano Engine: Caixa de Ferramentas da AIoT
Uma criança de 3 anos abraçou um brinquedo de pelúcia e perguntou: "Por que o céu é azul?". O brinquedo respondeu imediatamente com uma voz infantil e ajustou o tom de acordo com a expressão facial da criança. Este não é um filme de ficção científica, mas uma cena que brinquedos de IA como o Haivivi já realizaram.
Por trás disso está, na verdade, a caixa de ferramentas de IA da Volcano Engine, composta de "capacidades atômicas", um conceito proposto por Jiang Nan, chefe de soluções pan-Internet da Volcano Engine.
Jiangnan acredita que os provedores de tecnologia devem " fornecer serviços de forma atômica e componentizada ", ou seja, dividir os recursos de grandes modelos de IA (como voz, linguagem, multimodalidade, etc.) em APIs/SDKs padronizados e combináveis para que os parceiros possam acioná-los com flexibilidade.
As capacidades atômicas não são pontos funcionais isolados, mas "capacidades como serviço", que não apenas melhoram a flexibilidade da cooperação, mas também reduzem significativamente o limite de desenvolvimento para os fabricantes, promovendo assim a inovação e a prosperidade ecológica de toda a indústria.
Os recursos atômicos do Volcano Engine são como blocos de Lego, fornecendo aos fabricantes de hardware uma caixa de ferramentas inteligente que é quase "pronta para usar".
O iFan separou os "recursos atômicos" que o Volcano Engine preparou para hardware inteligente:
- Modelo grande de saco de feijão – o “cérebro inteligente” do dispositivo
- Plataforma Coze – Uma “Incubadora Rápida” para Aplicações de IA
- Tecnologia ASR/TTS – um mecanismo de voz que permite que os dispositivos “ouçam e falem”
- Comunicação em tempo real RTC – conectando a nuvem e os dispositivos a uma “rede neural de alta velocidade”
- Modelo de Linguagem Visual VLM – O cérebro visual que ajuda os dispositivos a “entender o mundo”
- Chamada de Função – Uma ferramenta universal para chamar serviços externos
▲Uma imagem para entender a "Caixa de Ferramentas" de Energia Atômica do Motor Vulcão
No campo da AIoT, o papel desempenhado pelo Doubao Big Model vai muito além de um simples chatbot. Além de ser capaz de reconhecer as intenções do usuário, ele também possui capacidades de raciocínio lógico cada vez mais robustas, permitindo que dispositivos de hardware realizem um certo grau de julgamento autônomo diante de cenários complexos.
Ao mesmo tempo, o suporte do modelo Doubao para interação multimodal significa que futuros dispositivos inteligentes não estarão mais limitados à entrada de voz ou texto, mas serão capazes de processar de forma abrangente múltiplas informações, como imagens e sons, o que estabelece a base para alcançar uma interação humano-computador mais natural e mais próxima da maneira como os humanos se comunicam.
Por exemplo, o mais recente modelo Flash Seed 1.6 da Doubao, como um modelo leve combinado de linguagem e visual, pode gerar 100 tokens em 1 segundo, melhorando muito a velocidade de resposta de ponta a ponta.
Já a plataforma de desenvolvimento de agentes de IA KouZi permite que gerentes de produto sem grande experiência em programação criem aplicativos de IA rapidamente do zero. É como fornecer um conjunto de modelos de desenvolvimento "único", encurtando significativamente o ciclo da criatividade ao produto.
A capacidade de conexão do botão é particularmente notável. Ela permite que o corpo inteligente interaja diretamente com o mundo físico – por exemplo, o assistente de IA pode não apenas responder "como está o tempo hoje", mas também ajudar ativamente você a ligar o ar-condicionado e ajustá-lo à temperatura adequada. Essa capacidade permite que o hardware passe de uma resposta passiva para um serviço ativo.
Na fase de comunicação, o reconhecimento de fala ASR e a tecnologia de síntese de fala TTS são responsáveis por tornar o dispositivo "capaz de ouvir e falar". O ASR do Volcano Engine consegue reconhecer comandos com precisão, mesmo em ambientes ruidosos, e a tecnologia TTS faz com que a voz do dispositivo deixe de ser fria e se torne mais "humana". Após a conexão do Tuya Smart, a precisão do reconhecimento de fala aumentou em mais de 20%.
Outra tecnologia importante é a tecnologia de comunicação em tempo real RTC, que é como uma "rodovia" conectando dispositivos e a nuvem, garantindo que dados de áudio e vídeo possam ser transmitidos com baixa latência e alta estabilidade.
Isso é crucial para brinquedos de IA: quando uma criança faz uma pergunta, se ela tiver que esperar de 3 a 5 segundos por uma resposta, a experiência será bastante reduzida. O Volcano Engine otimiza o tempo de resposta para menos de 1 segundo, tornando a conversa tão natural quanto a comunicação na vida real.
Xing Xiaoci, chefe de hardware inteligente de grande porte da Volcano Engine, destacou que o desempenho de ponta a ponta em tempo real é o maior desafio técnico para a implementação de hardware inteligente de IA , especialmente em cenários de raciocínio baseados em nuvem, onde a velocidade de resposta afeta diretamente a experiência do usuário.
Por meio da otimização integrada à nuvem, o Volcano Engine melhorou muito a velocidade de resposta da interação de voz da IA e alcançou conversas de voz em tempo real, com a mais rápida levando apenas 1 segundo e o tempo médio sendo inferior a 1,5 segundos.
Para permitir que o dispositivo "entenda o mundo", o modelo de visão e linguagem VLM permite que a câmera não apenas "veja" a imagem, mas também "entenda" o conteúdo. Por exemplo, ela pode reconhecer gestos e expressões de crianças ou analisar o conteúdo da imagem e responder a perguntas relacionadas. Todos os módulos inteligentes da Quectel foram conectados a esse recurso, permitindo que os dispositivos terminais integrem perfeitamente funções de IA multimodal.
A chamada de função é como um controle remoto universal, permitindo que a IA chame ativamente vários serviços externos – controlar eletrodomésticos, verificar a previsão do tempo, definir lembretes e outras operações coerentes, tudo pode ser feito com um clique.
A verdadeira competitividade da solução da Volcano Engine não está nas "capacidades atômicas" em si, mas em como integrá-las organicamente.
Jiangnan disse ao iFanr que a abertura de recursos atômicos permite que o Volcano Engine atenda a todo o ecossistema de hardware, incluindo fabricantes de chips, fabricantes de máquinas completas, marcas de terminais, etc., formando um sistema de capacitação integrado "nuvem + terminal" .
Um sistema de serviço completo de ponta a ponta abrange toda a cadeia, desde a coleta de dados do dispositivo até o processamento de computação de ponta e o raciocínio em larga escala na nuvem. Esse "serviço único" é completamente diferente da prática dos provedores de serviços de nuvem tradicionais, que fornecem interfaces de IA isoladas.
Ao mesmo tempo, por meio de uma cooperação aprofundada com fabricantes de módulos de chip como Espressif, Broadcom Integrated Circuit, Quectel e Fibocom, a Volcano Engine oferece um conjunto completo de suporte para "hardware + algoritmo + plataforma". Esse modelo de cooperação permite que empresas de hardware incorporem recursos de IA em seus produtos com mais facilidade.
Em vez de dizer que a Volcano Engine é uma fornecedora de tecnologia, ela se assemelha mais a um "grupo consultivo militar de IA" que apoia fabricantes de hardware. Ela não apenas fornece tecnologia, mas, mais importante, combina livremente tecnologia de IA e experiência operacional verificada pela ByteDance em produtos C-end como o TikTok, como blocos de construção, para dar suporte a empresas de hardware B-end.
A nova onda de produtos AIoT
É claro que o verdadeiro teste vem da linha de frente do mercado. O esqueleto da arquitetura técnica precisa ser colocado em prática antes de ganhar corpo e sangue. Será que o "modelo mais robusto, menor custo e implementação mais fácil" que a Volcano Engine sempre enfatizou realmente fará com que esses produtos de AIoT criem ondas no mercado?
Haivivi não é mais a "boneca inteligente" que só repete vozes predefinidas. Com base na interação de longo prazo com crianças, ela consegue compreender com mais precisão as expressões um pouco imaturas e, às vezes, até mesmo fora do padrão, aprender os interesses e preferências das crianças, oferecer conteúdo de companhia personalizado e até mesmo confortar e encorajar crianças em momentos de depressão. Por isso, é bem recebida por muitos pais e crianças.
A chave é a solução inteligente de dispositivos interativos de áudio e vídeo. A Haivivi criou um sistema interativo de AIoT completo, integrando profundamente o modelo de voz Doubao do Volcano Engine e "botões" para a construção de agentes.
De acordo com Gao Feng, cofundador da Haivivi, para obter um efeito interativo natural, a equipe da Haivivi e os engenheiros da Volcano Engine realizaram otimizações detalhadas em vários níveis.
Por exemplo, em termos de velocidade de resposta da interação por voz, ao otimizar o link colaborativo de ponta a ponta, o atraso de ponta a ponta do comando de voz do usuário até o feedback do brinquedo é controlado em um nível líder do setor e, em alguns cenários, pode ser alcançado em 300 milissegundos.
▲Gao Feng, cofundador da Haivivi
Este brinquedo de IA pode contar todos os tipos de histórias interessantes com paixão e emoção, e também pode servir como um parceiro de prática de inglês para crianças praticarem a fala e brincarem com jogos de encadeamento de expressões idiomáticas. Nesses cenários de uso populares, é crucial garantir que as crianças se sintam imersas no processo de conversação.
Ao contrário de marcas como a Haivivi, que têm como alvo direto os consumidores C-end, a Tuya Smart, como provedora global de serviços de plataforma de desenvolvimento de IoT, se concentra mais em como ajudar um grande número de desenvolvedores por meio de sua cooperação com a Volcano Engine.
No início deste ano, a Volcano Engine e a Tuya Smart firmaram uma parceria para integrar totalmente o modelo de grande porte Doubao à plataforma de desenvolvimento em nuvem Tuya AI e, em conjunto, promover a implementação em larga escala de modelos de grande porte de IA e tecnologias nativas da nuvem em diversos cenários. Isso é semelhante à App Store no mercado de AIoT.
Um foco importante da cooperação entre as duas partes é a área de brinquedos de IA. Os desenvolvedores podem obter integração e acesso a recursos multimodais de IA, como áudio, vídeo, imagem e texto, de forma mais conveniente na plataforma Tuya.
Isso significa que até mesmo desenvolvedores de brinquedos de pequeno e médio porte podem dar aos seus produtos funções avançadas de interação de IA com um limite menor e velocidade maior, além de ter a oportunidade de incubar produtos populares mais naturais e interessantes, como o Haivivi.
Não são apenas os brinquedos que estão vendo as antigas categorias remodelarem suas experiências devido à IA. As televisões, que tiveram uma taxa de estreia em declínio nos últimos anos, também estão começando a mudar.
Se os usuários quiserem encontrar um filme estrelado por uma determinada estrela na TV, eles precisam clicar no controle remoto camada por camada e navegar por menus complexos.
Agora, basta dizer "Quero assistir ao filme do xx" e a TV não só encontrará vídeos relacionados instantaneamente, como também gerará de forma inteligente um mural de pôsteres exclusivo. A velocidade de resposta de todo o processo é controlada em 1 segundo.
Em seu discurso na "Force Conference", Guo Shangfeng, presidente do Skyworth Research Institute e CTO da Coocaa, enfatizou um ponto simples, mas fundamental: o feedback em tempo real é o cerne da interação de alta frequência do usuário.
▲ Guo Shangfeng, Diretor do Skyworth Research Institute e CTO da Coocaa
A Coocaa chama a experiência interativa de TV mencionada de "corpo superinteligente". Por trás disso, estão a compreensão semântica e os recursos de geração personalizada do modelo grande da Doubao, que compreende melhor as preferências de visualização do usuário e, em seguida, integra profundamente a tecnologia de interação por voz do Volcano Engine para alcançar um diálogo natural e fluido, simplificando o complexo modo de interação da TV, que depende do controle remoto para clicar camada por camada.
Este serviço personalizado se estende a diversos cenários verticais, como educação, saúde e serviços de vida. Guo Shangfeng revelou que a biblioteca de livros ilustrados de IA da Coocaa pode gerar histórias personalizadas em 12 segundos, aumentando assim a taxa de atividade diária do usuário em mais de 60%.
Se brinquedos inteligentes e telas inteligentes são as atualizações inteligentes da AIoT no mercado existente, então os óculos de RA (realidade aumentada) representam a combinação de IA e hardware, e têm grande potencial na criação de mercados incrementais e na exploração da próxima geração de terminais pessoais.
Wang Junjie, vice-presidente da Rokid e chefe do XR Center, acredita que os óculos de RA devem se tornar a próxima geração de terminais de informações pessoais, o que pode melhorar muito a eficiência e a experiência de interação de informações no mundo tridimensional.
A concretização dessa visão requer, em particular, a integração profunda da computação espacial e da IA multimodal. Atualmente, a Rokid está totalmente integrada ao modelo de IA multimodal da Doubao.
▲Wang Junjie, vice-presidente da Rokid e chefe do XR Center
Como uma das empresas líderes no campo de RA nacional, a cooperação da Rokid com a Volcano Engine nos revela o papel fundamental que a IA pode desempenhar na era da computação espacial.
De acordo com Wang Junjie, por meio da pesquisa e desenvolvimento conjunto com o Volcano Engine Doubao Big Model, a Rokid não apenas otimizou o link de dados do assistente de IA integrado em seus óculos de RA, melhorou a precisão do reconhecimento de voz e a profundidade da compreensão da linguagem natural, mas, mais importante, pode combinar os recursos de compreensão multimodal do Doubao Big Model para melhor integrar e sobrepor os resultados da análise de IA com o ambiente físico real do usuário, melhorando assim a experiência geral dos aplicativos de RA.
Por exemplo, quando um usuário usa óculos de RA e vê uma pintura, o assistente de IA pode não apenas identificar as informações da pintura, mas também recomendar exposições de arte relacionadas com base nas preferências do usuário; ou, em um cenário industrial, os óculos de RA podem identificar falhas de equipamento em tempo real e sobrepor guias de manutenção na forma de um modelo tridimensional na frente dos trabalhadores.
De brinquedos inteligentes que podem "ler" as emoções das crianças a mordomos de sala de estar que podem prever as necessidades do usuário, até óculos de RA que integram perfeitamente os mundos virtual e físico, uma nova onda de produtos de AIoT começou a surgir no mercado de hardware maduro.
Construindo a “Nova Infraestrutura” na Era da IA
O que o Volcano Engine faz em hardware inteligente é um caminho um pouco diferente no mundo de hoje, onde os parâmetros do modelo e as iterações do algoritmo estão aumentando: ele quer ser muito mais do que apenas um "fornecedor de tecnologia" para hardware, nem simplesmente treinar um modelo que seja melhor em "fazer exames" ou um robô que seja melhor em "bater papo".
No roteiro do Volcano Engine, a IA deve realmente "entrar em ação", com um grande número de dispositivos AIoT naturalmente integrados às vidas dos usuários, tornando-se um parceiro perceptivo, pensante e afetuoso.
Para integrar a IA em dispositivos terminais de menor poder de computação, eles até compactaram o SDK do terminal em um dispositivo de baixo poder com apenas 100 KB de memória, para que um hardware que vale apenas algumas centenas de yuans também possa ter um "cérebro inteligente".
Por trás disso está o polimento quase severo da arquitetura colaborativa de nuvem final e a busca final pelo controle de custos. Quando o custo do raciocínio de grandes modelos for bastante reduzido, a IA não será mais o "brinquedo exclusivo" de alguns gigantes, mas sim a expectativa de que "entre nas casas das pessoas comuns".
A Volcano Engine lançou recentemente o serviço MCP. Empresas tradicionais ou equipes de startups que ainda estão na "vila dos novatos" em termos de acumulação de tecnologia de IA podem usar o serviço MCP para instalar mecanismos de IA em seus produtos de forma rápida, conveniente e com baixo custo, conseguindo assim uma atualização com apenas um clique de "celulares básicos" para "smartphones". Como Xing Xiaoci mencionou em seu compartilhamento:
Novos serviços como o MCP reduzem ainda mais o limite geral de desenvolvimento e aumentam o limite superior de inteligência, tornando experiências de IA mais complexas e inteligentes amplamente aplicáveis a vários setores.
Essa integração de hardware e IA não se trata apenas de fornecer uma interface de API, mas um serviço de link completo, do "chip" às "vendas":
Da tecnologia subjacente "hard dishes" como o grande modelo Doubao e a comunicação em tempo real RTC, à plataforma de desenvolvimento "quick dish" de aplicativos de IA como o Button, e então trazendo fabricantes de módulos de chip como Broadcom Integrated e Fibocom para otimizar juntos, podemos até mesmo ajudar você a se conectar a canais de comércio eletrônico para "trazer produtos".
Esse ciclo ecológico fechado completo, da tecnologia de nível inferior à aplicação de nível superior, não é uma simples extensão de negócios, mas sim uma redefinição do nível de infraestrutura. Xing Xiaoci nos disse que o hardware inteligente está mudando de "funcional" para "orientado a serviços" .
Então, seja software ou hardware, o Volcano Engine parece estar tentando construir uma "nova infraestrutura" na era da IA .
Na torrente da IA em constante transformação, não apenas nossos métodos de trabalho sofrerão mudanças, mas o mercado de hardware inteligente também deverá passar por uma "reorganização", abrindo um novo cenário competitivo. Nessa nova trajetória, o Volcano Engine já está a todo vapor, e mais fabricantes também estão entrando no jogo.
Também poderemos esperar uma nova vida após o surgimento desses produtos de AIoT: a arquitetura técnica de fusão multimodal, colaboração de nuvem final e recursos de serviço autônomo baseados em agentes, permitindo que o hardware inteligente seja atualizado para a próxima dimensão de "inteligência": entender verdadeiramente os usuários, ser mais personalizado e mudar de serviço passivo para ativo.
#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.