Entrevista com o presidente da vivo, Hu Baishan: A IA já é muito inteligente; a vivo quer que ela realmente entenda o mundo.

O OpenClaw tornou-se um tema muito comentado durante o Festival da Primavera deste ano. No entanto, em menos de dois meses, o interesse diminuiu novamente — mais uma polêmica em torno das aplicações de IA.

A empolgação diminuiu e ninguém sabe quem será o próximo OpenClaw, ou quais problemas esses dispositivos realmente resolvem.

Um celular com câmera de última geração captura um rosto em uma cena noturna, com detalhes tão nítidos que é possível ver as lágrimas se acumulando nos olhos. Mas o celular provavelmente não sabe se a pessoa estava apenas chorando e, portanto, não consegue compreender o contexto emocional dessa obra-prima. Em seguida, usando a teleobjetiva para aproximar um pedestre a centenas de metros de distância, os detalhes são requintados. Mas se você perguntar ao celular: "Essa pessoa está com pressa ou procurando algo?", o celular ainda não saberá.

Os agentes de hoje conseguem escrever código, manipular páginas da web e organizar um PDF em atas de reunião. Eles fazem tudo isso muito bem. Mas essas tarefas têm algo em comum: todas lidam com informações que já foram formatadas por humanos. Arquivos, bancos de dados e páginas da web fazem parte do mundo digital. Quando se deparam com o mundo físico — uma porta, um gesto, uma expressão — eles se tornam cegos.

Existe uma lacuna entre os modelos de grande escala atuais e a chamada "inteligência incorporada" que pode realmente compreender o mundo físico, e ninguém pode afirmar com certeza como superá-la.

Esse abismo foi o tema sobre o qual Hu Baishan dedicou a maior parte de suas palestras no Fórum Boao para a Ásia.

Hu Baishan é o presidente e diretor de operações da vivo. No Fórum Boao para a Ásia, ele disse ao iFanr que tem um julgamento muito direto: "Antes de termos um modelo físico claro disponível, para termos uma boa experiência do usuário, precisamos transformar informações do mundo físico para o mundo digital."

Ele acredita que isso não só pode ser feito com um celular, como deve ser feito com um celular. Mesmo na próxima década, será difícil para outros dispositivos substituí-lo.

Capacidade intelectual é fundamental; não há vantagem competitiva.

Nos últimos dois anos, quase todos os fabricantes de celulares têm falado sobre "celulares com IA". A integração em larga escala de modelos, as atualizações de assistentes inteligentes e o aumento da capacidade de processamento dos dispositivos estão se tornando cada vez mais comuns em um ritmo perceptível.

No ano passado, o DeepSeek surgiu com força total, e este ano o OpenClaw gerou discussões acaloradas, com todos se esforçando para incorporar os recursos de modelagem mais recentes em seus próprios produtos.

Essa corrida armamentista tem um resultado inevitável: o alto grau de mercantilização, homogeneização e substituibilidade dos modelos em larga escala.

Tudo se resume à habilidade de construção de modelos; não há vantagem competitiva.

Você lançou um modelo em larga escala e sua funcionalidade de agente de controle três meses antes de seus concorrentes; eles o alcançaram seis meses depois, usando um modelo e um agente mais poderosos. Qual é o valor dessa vantagem de tempo, do dinheiro e esforço investidos, da mão de obra extra e dos danos à saúde dos funcionários?

Portanto, a verdadeira diferenciação só pode ser encontrada em outro lugar.

A resposta de vivo é "percepção".

Percepção é uma nova vertente tecnológica que a vivo acaba de estabelecer.

Empresas de internet chinesas e estrangeiras, assim como marcas de celulares, estão acelerando sua entrada no mercado de "celulares com IA". A indústria acreditava que as funcionalidades dos modelos seriam uma vantagem competitiva para os fabricantes de celulares.

Segundo Hu Baishan, não é esse o caso. "Comparado ao modelo, os dados acumulados dos cenários são os que apresentam maior diferenciação." Ele acrescentou: "Claro, ainda precisamos fazer isso. Se vamos fazer, devemos encontrar o que nos convém. Podemos fazer aos poucos ou mais tarde, também não tem problema."

Quando questionado: "Se você não está otimista em relação a grandes modelos de linguagem, a Vivo se concentrará em modelos globais?", sua resposta foi mais conservadora, porém direta: "Os modelos globais também são muito grandes. Encontraremos um caminho tecnológico que nos convenha. Nos concentraremos primeiro em aperfeiçoar o modelo para celular e, depois, os modelos menores."

Hoje, as gigantes da tecnologia de IA/Internet estão envolvidas em uma acirrada guerra por talentos, com as melhores pesquisas sendo disputadas como estrelas da NBA, e as taxas de transferência batendo recordes constantemente. No entanto, Hu Baishan não acredita que a vivo deva alimentar ainda mais essa disputa. Ele disse ao iFanr que nunca é tarde para primeiro esclarecer a estratégia, identificar a direção e determinar a plataforma tecnológica antes de tomar qualquer decisão.

Numa altura em que todos competem em termos de capacidades de modelagem e reservas de talentos em IA, o CEO expôs diretamente à imprensa os pontos fortes e fracos da vivo, bem como o seu plano de ação. Esta franqueza é impressionante: qual é exatamente o propósito por detrás da abordagem cautelosa e constante da vivo?

Hu Baishan respondeu que a Vivo nunca se esquiva da competição. Comparado a modelos e poder computacional, o maior diferencial no futuro virá dos dados de cenários.

Os dados da cena são acumulados gradualmente por meio do comportamento de uso; não podem ser produzidos em massa nem obtidos por atalhos — isso é especialmente verdadeiro para dados de imagem. Os julgamentos perceptivos desenvolvidos ao longo de dez anos de acúmulo de hardware óptico e treinados em cenários do mundo real não têm atalhos.

Essas experiências e julgamentos acumulados formam a base da próxima aposta da vivo: a "percepção". São coisas que outros (sejam concorrentes ou empresas de internet/IA) só podem acumular por conta própria se quiserem.

Isso nos leva de volta ao abismo que acabamos de discutir. Os dados de treinamento para grandes modelos são informações da internet, que já foram digitalizadas. No entanto, a maior parte das informações valiosas do mundo real ainda não foi digitalizada. Dados que não podem ser convertidos, ou que são difíceis de converter, ou que têm um custo de conversão extremamente alto, tornaram-se um obstáculo à integração da IA ​​no mundo real.

Luz, espaço, rostos, movimentos e emoções — essas coisas existem no mundo físico e precisam ser percebidas e transformadas antes de se tornarem entradas que um modelo possa processar. Quem tiver melhor desempenho na percepção controla a porta por onde os grandes modelos entram no mundo real.

Agora, ninguém sabe o que há por trás daquela porta, e ninguém sabe quem estará lá no final.

Apostando na "Percepção"

A Vivo entende que a percepção vai além de simplesmente ter uma "câmera melhor".

Hu Baishan disse que uma câmera é uma ferramenta de gravação; ela espera que você aperte o botão do obturador. Mas a percepção é outra questão: observar e compreender continuamente o que está acontecendo e transformar essa informação em dados que o dispositivo possa usar diretamente. 24 horas por dia, 7 dias por semana, sem que você precise acioná-lo.

A transição da "gravação" para a "percepção" envolve a reconstrução da arquitetura do sistema.

Hu Baishan deu a este projeto o nome de "Percepção Integrada". Literalmente, significa que a informação percebida e o sistema de tomada de decisão do equipamento devem estar conectados em tempo real. Isso ainda não é possível.

O desafio reside no fato de que os dados brutos da cena percebida, como um vídeo, uma imagem ou um som recebido por um microfone, são de volume massivo, têm um formato caótico e contêm principalmente ruído. Converter esses sinais brutos em informações estruturadas que o telefone celular possa realmente "entender" requer um pipeline de processamento dedicado.

"A parte mais difícil é descobrir como converter os dados da cena em dados que os celulares possam entender. Existem poucos recursos de código aberto nessa área, então precisamos explorar por conta própria", disse ele.

É por isso que a Vivo considera internamente a percepção como uma de suas principais áreas de atuação tecnológica.

"Nível 1" significa que a percepção não é mais uma subdivisão do departamento de imagem; ela abrange vários tipos de sentidos, incluindo visão, audição, olfato e tato, bem como as direções da percepção.

No entanto, a pesquisa e o desenvolvimento em percepção da vivo ainda estão em seus estágios iniciais. Hu Baishan usou o Instituto de Pesquisa em Comunicação da vivo como analogia: uma equipe de cerca de 200 pessoas que investem continuamente desde o 4G, passando pelo 5G, e agora trabalhando no 6G, há mais de dez anos.

Sua expectativa para a área de percepção é de um ritmo semelhante: pequenas equipes trabalhando juntas para construir o entendimento primeiro. Uma vez que o entendimento esteja claro, elas começam a acelerar; e, à medida que o ecossistema de software e hardware amadurece, elas aceleram ainda mais. "Parece uma aceleração gradual, uma ascensão em espiral. Recusamo-nos a acelerar e frear de forma desordenada."

Hu Baishan não quer que a vivo tome decisões precipitadas ou gaste dinheiro de forma irresponsável em computação perceptual ou qualquer outra área. Ele acredita que a percepção tem um potencial muito alto, mas ninguém consegue definir claramente o caminho correto para a evolução tecnológica atualmente. "Estamos preparados para investir continuamente ao longo de um ciclo de cinco ou dez anos. Mas nossa compreensão sobre o assunto precisa ser gradual. Sem um entendimento suficiente, gastar dinheiro indiscriminadamente só resultará em projetos inacabados."

Perceber a trajetória é um julgamento, mas para que um julgamento seja implementado, é necessário que haja acúmulo de informações prontamente disponível.

O trunfo da vivo é sua década de experiência em imagens. Mais especificamente, o conhecimento acumulado ao longo da última década possui duas camadas.

A primeira camada é o hardware. A colaboração com a Zeiss atingiu agora um estágio avançado de pesquisa e desenvolvimento conjuntos. O tamanho do sensor da câmera principal da X300 Ultra foi aumentado para 1/1,12 polegadas. A colaboração com a Sony está caminhando para aprimorar a eficiência de conversão de semicondutores. Ele mencionou o "efeito avalanche" na tecnologia de sensores, um novo caminho tecnológico que pode elevar a taxa de conversão de luz do elemento fotossensível de 90% para 110% ou até mais.

Em termos de hardware, a avaliação de Hu Baishan é em grande parte a mesma que a de observadores da indústria e da mídia: o tamanho do sensor atingiu um estágio de retornos marginais decrescentes, e o maior potencial reside na eficiência de conversão e no formato externo. Para a X300 Ultra, a vivo já lançou teleconversores de foco fixo de 200 mm e 400 mm, e outros estão a caminho.

A segunda camada consiste em algoritmos e cognição.

A vivo lançou seu sensor teleobjetivo de grande porte há três anos, e toda a indústria seguiu o exemplo dois anos depois. Mas alcançar a concorrência em termos de hardware é fácil; o verdadeiro desafio é decidir "por que fazer isso naquele momento específico". A motivação da vivo para escolher aquele momento específico derivou de seus anos de experiência liderando o setor de imagem — não existem atalhos que possam ser copiados ou replicados.

"Os algoritmos estão fortemente correlacionados com a cognição — a cognição sabe que direção tomar e os algoritmos a acompanham. Esta é uma combinação orgânica de demanda e tecnologia, que é difícil para os concorrentes acompanharem rapidamente."

Essa lógica também se aplica à IA de borda. No X300 Ultra, a vivo propôs pela primeira vez um conceito de "multiagente", a saber:

Você levanta o celular para tirar uma foto e um agente determina o que você está fotografando, qual distância focal usar e as condições de iluminação — um processo que antes exigia que o usuário o realizasse manualmente. Enquanto isso, outro agente organiza seu álbum de fotos, recomendando ou adicionando filtros automaticamente com base em seus hábitos anteriores de edição de fotos, ou pode cortar automaticamente vários clipes em um vídeo curto que pode ser publicado diretamente.

Não se trata de um "superagente" unificado como o assistente móvel Gemini ou Doubao, mas sim de um agente especializado para cada cenário, capaz de compartilhar recursos e executar suas próprias tarefas.

O raciocínio de Hu Baishan é muito prático: a capacidade computacional do hardware existente não suporta um agente grande que possa gerenciar tudo, e o desenvolvimento da IA ​​móvel deve ser promovido em conjunto com o limite máximo das capacidades do hardware.

Esses esforços dependem do investimento contínuo da vivo em inferência de IA na borda. De acordo com a iFanr, a vivo é atualmente a fabricante de celulares que mais investe em poder computacional — não apenas em computação em nuvem, mas também, no futuro, na incorporação de chips de computação dedicados em celulares topo de linha.

A abordagem da vivo consiste em primeiro aperfeiçoar os agentes que não exigem respostas em tempo real, sendo as imagens e o álbum de fotos as prioridades atuais; a percepção global é o objetivo para os próximos cinco a dez anos, com conectividade permanente e todos os sentidos integrados – essa é a direção final.

Deixe tudo por conta do tempo.

Que rumo a Vivo tomará nos próximos dez anos?

Hu Baishan apresentou um esboço do roteiro: os telefones celulares são o produto principal para os usuários atualmente e continuarão sendo por pelo menos os próximos 10 anos; a Realidade Mista levará de três a quatro anos; e os robôs levarão mais de cinco anos.

Essas três direções não são apostas independentes; em sua essência, são extensões do mesmo conjunto de capacidades de percepção em formas diferentes.

No ano passado, a vivo estabeleceu um laboratório de robótica focado em "cérebros e olhos". Quando questionado sobre o progresso atual, Hu Baishan afirmou categoricamente: "Até 2025, teremos uma compreensão mais clara de nossas metas faseadas e, até 2026, teremos um plano claro para todo o processo."

Mas isso não é um problema para a Vivo.

Numa época em que as empresas lançam protótipos de robôs e competem para reivindicar o título de "Ano Zero da Inteligência Incorporada", admitir que ainda não criaram um robô físico do zero é um raro ato de honestidade. Hu Baishan afirmou: "Criar um robô do zero não é o nosso objetivo."

A lógica da Vivo para a robótica é a mesma que a sua lógica para investir na área da percepção: primeiro, descobrir quem são os usuários-alvo, depois definir os cenários, em seguida identificar os principais pontos de controle tecnológico e, por fim, esperar que a tecnologia amadureça.

Hu Baishan disse ao iFanr que a vivo ainda está trabalhando em sua primeira etapa. A empresa tende a mirar no público jovem, que é justamente o segmento demográfico que a vivo busca conquistar, desde seus modelos principais até suas linhas de produtos voltadas para a juventude. A primeira geração de robôs domésticos da vivo pode até começar com tarefas como cuidar de animais de estimação e lavar roupa.

Mas esse cenário não é muito limitado? Hu Baishan acredita que não se pode começar criando um robô de uso geral; é impossível aperfeiçoar todos os cenários desde o início. Se insistirmos nisso, o resultado final será apenas o fracasso de todos os cenários.

É verdade que os robôs inteligentes de hoje podem até executar danças pré-gravadas com perfeição, mas lhes falta a credibilidade necessária em outros cenários. Especialmente em tarefas domésticas, "como quebrar ovos, por exemplo; até mesmo os humanos têm dificuldade em atingir uma taxa de sucesso de 100%, e os robôs não conseguirão fazer isso por pelo menos dez anos."

Hu Baishan espera que os robôs da vivo consigam primeiro dominar uma tarefa específica com uma pontuação de 60 a 70%, e depois generalizar esse domínio geração após geração, otimizar os cenários existentes e, por fim, adquirir novas capacidades.

Assim que o animal de estimação é alimentado, os dados da cena chegam. Com dados suficientes, o robô sabe a que horas o cachorro fica com fome todos os dias e, consequentemente, a que horas a família acorda, e assim, o ritmo diário da família. Não precisa ser perfeito desde o início, porque cada passo prepara o próximo. Hu Baishan chama isso de "colocar ovos ao longo do caminho".

Essa lógica é consistente com a lógica de apostar na percepção em dispositivos móveis: primeiro, desenvolva bem o agente de imagem e, uma vez que haja dados de cena suficientes, a capacidade de percepção poderá ser expandida.

Mas qual o papel do celular ao lado do robô? "O celular é o seu assistente pessoal digital mais completo. Seus hábitos, preferências e até mesmo o tipo de animais de estimação que você gosta de ter estão todos no seu celular", disse Hu Baishan. Ele acrescentou que o celular pode intervir remotamente e compensar as deficiências que o robô não conseguiu suprir nos estágios iniciais.

Assim como nos primórdios da condução autônoma, os humanos intervinham constantemente. Essa intervenção gerava dados, e os dados, por sua vez, aprimoravam o sistema cada vez mais. "Os dados da cena entre celulares e robôs estão interconectados."

É claro que ele não fez nenhuma declaração definitiva. Outras empresas também estão trabalhando na área de percepção. Entre elas, a Apple e o Google, cada uma com suas próprias estruturas de computação de percepção. A vantagem competitiva da Vivo nessa área reside mais no nicho de modelos de percepção em pequena escala para dispositivos móveis. Essa é uma área na qual grandes empresas, com exceção da Apple, ainda não se concentraram.

Este ano, a tarefa de Hu Baishan para o Laboratório de Robótica é traçar o roteiro: usuários-alvo, cenários principais, nós tecnológicos-chave e o prazo esperado para que a tecnologia amadureça a ponto de ser comercializada.

A vivo interrompeu seu projeto de óculos com IA. Ele calculou os custos: centenas de milhares de unidades por ano não atendiam ao volume desejado; a diferenciação não poderia ser alcançada em dois anos; e a plataforma tecnológica atual não suportava uma pontuação de experiência acima de 80 (usar mais de 30g no nariz seria cansativo) – nenhuma das três condições foi atendida, então o encerramento foi a decisão correta.

"Não há pressa para fazer isso em três anos; não é uma categoria de produto chave."

No entanto, essa decisão ainda parece ir um pouco contra a tendência atual. É inegável que os óculos com inteligência artificial serão uma das categorias de produtos mais promissoras do setor até 2025. O Ray-Ban Meta esgotou rapidamente e imitadores nacionais estão surgindo um após o outro.

Na assembleia anual, o fundador e CEO Shen Wei afirmou que a estratégia da vivo para este ano é "apostar menos, mas apostar muito". A vivo optou por pausar o projeto de óculos com IA, mas está elevando o status da área de percepção. Trata-se, na verdade, de duas faces da mesma moeda, com a mesma lógica e critérios de seleção: se o potencial da área é suficientemente alto, se os atributos diferenciadores da vivo são suficientes e se a plataforma tecnológica suporta investimentos de longo prazo.

Essa abordagem está alinhada com a tendência recente entre os gigantes do Vale do Silício, incluindo a OpenAI, de abandonar "missões secundárias" e se concentrar em seus pontos fortes.

Onde a vivo se encontrará no caminho escolhido para 2026? Hu Baishan ainda não consegue responder. Os desafios técnicos da percepção integrada permanecem sem solução, a implementação de chips dedicados para o lado do dispositivo é difícil e o planejamento para o robô começou a ser feito apenas este ano.

Hu Baishan sabia de tudo isso e não se esquivou da questão. Ele disse: "Entendo a importância de acelerar, mas se não for possível, prefiro ir mais devagar."

A indústria de telefonia móvel está passando por um momento peculiar: o ciclo de substituição se estendeu para quarenta meses, e o volume anual de vendas no mercado chinês caiu de um pico de mais de 500 milhões de unidades para cerca de 250 milhões atualmente, com o teto do mercado existente claramente visível; porém, o salto em recursos proporcionado pela IA faz com que todos sintam que ainda há algum crescimento incremental escondido em algum lugar.

Hu Baishan acredita que a oportunidade de transformar o mercado atual em um mercado em crescimento reside na transição dos smartphones para os telefones de agentes. E a percepção, em sua opinião, é a vantagem competitiva mais difícil de replicar dentro dessa oportunidade.

Só o tempo dirá.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.