Uma conversa com o vice-presidente de produtos de sistema operacional da vivo: a IA não criará novas demandas; seja uma carruagem puxada por cavalos ou uma máquina a vapor que nos leva a lugares distantes, é uma questão de formato do produto.

Se a primeira metade dos sistemas operacionais para smartphones consistia em reunir funções em botões e aplicativos, o OriginOS 6, que estreou na Vivo Developer Conference deste ano, confirmou mais uma vez a tendência irreversível de integração entre IA e sistema operacional.

Além dos chavões do PPT, como multimodalidade, capacidade de raciocínio e processamento de textos longos, a IA não se contenta mais em ser apenas uma "lista de recursos" de sistemas de telefonia móvel.

A vivo propôs criar um Agente de UI, tentando fazer com que a IA realmente entenda as intenções do usuário e conclua toda a colaboração entre aplicativos com uma solicitação natural.

Coincidentemente, alguns dias atrás, no OpenAI DevDay, eles estavam discutindo a mesma coisa: anunciar o ChatGPT como um "sistema operacional". Resumindo, o Spotify e o Canva são iniciados automaticamente nas conversas; um único painel permite interações instantâneas. A conversa se torna o aplicativo, e o aplicativo se torna a interface.

Quando o sistema operacional aprende a entender os humanos e o modelo aprende a agendar aplicações, a fronteira entre IA e sistema operacional começa a se tornar redundante. Eles acabarão no mesmo lugar ou se ramificarão em um ecossistema completamente novo?

Após o discurso na conferência de desenvolvedores, o iFanr e a mídia entrevistaram Zhou Wei, vice-presidente de produtos do sistema operacional vivo e reitor do Instituto Global de Pesquisa de IA, bem como Guan Yanbing, gerente geral de produtos do sistema operacional vivo, e Huang Zixun, diretor de produtos do sistema operacional de IA.

IA e Sistemas Operacionais: Tendências e Divergências

P: Este ano, vários fabricantes estão falando sobre "telefones com IA", mas os conceitos são diversos — nativos de IA, agentes inteligentes e sistemas operacionais de IA. O que você acha do estágio atual da exploração de telefones com IA pela indústria?

Zhou Wei: Na verdade, IA e celulares sempre foram três problemas que precisam ser resolvidos.

Primeiro, precisamos ter recursos de modelagem em larga escala. Além disso, temos uma vantagem a mais em relação aos líderes do setor: precisamos ser capazes de aproveitar os recursos no dispositivo. Sem isso, não somos diferentes do uso de serviços em nuvem no setor. Além disso, os recursos na nuvem ou no dispositivo precisam ser personalizados. Sem isso, são apenas recursos de uso geral. Personalização e individualização são valiosas, pois todos queremos que nossos celulares sirvam como assistentes e gerenciem nossas agendas. Portanto, você descobrirá que desenvolver recursos relacionados ao modelo é essencial. Esta é a primeira camada, e a Vivo fez um trabalho sólido nessa área.

Em segundo lugar, em relação à integração de IA e celulares, da minha perspectiva como "cientista e engenheiro", estou me concentrando em duas coisas: 1. Recursos do sistema de telefonia móvel que aprimoram a IA . No ano passado, desenvolvemos recursos comuns (recursos do sistema), como "Escrever para Perguntar" e "Imagem". Esses recursos são essenciais para o desenvolvimento de aplicativos. 2. Além desses recursos, os fabricantes podem contribuir em muitas outras áreas. Os usuários de celulares experimentam mais de 100 módulos, e primeiro precisamos desenvolver esses recursos nós mesmos. Nós os organizamos em um "grupo de infraestrutura de comunicação e controle" (central de notificações, central de controle) e temos nosso próprio lema. No entanto, quando os usuários usam seus celulares, os fabricantes de celulares respondem por apenas 15% do tempo. Os 85% restantes vêm de serviços e recursos fornecidos pelos desenvolvedores. As principais empresas de internet, em particular, respondem por 80% ou 70% desses 85%, portanto, seu envolvimento ainda é muito significativo.

Então, a terceira pergunta é: o que devemos fazer com os 85% restantes de serviços de nível superior? Temos duas coisas a fazer aqui: primeiro, se eles estiverem dispostos a trabalhar conosco, podemos sentar e discutir a solução. Segundo, com o advento da era da IA, será necessário um novo nível de status e influência? Podemos deixar a resposta para essa pergunta por enquanto.

Pensamos na integração de IA e celulares como, aproximadamente, três camadas: a camada inferior é composta por modelos e recursos em larga escala, a camada intermediária é responsável pela construção de recursos fundamentais do sistema e as capacidades fundamentais . Quando se trata de aplicações de nível superior, nós, como fabricantes e terceiros, nos dividimos em dois grupos. Aqueles dispostos a participar, como o Alibaba, tomarão a iniciativa, enquanto aqueles que não quiserem participar serão deixados ao acaso. É assim que abordamos e lidamos com questões relacionadas à integração de IA, celulares e agentes.

P: Há alguns dias, a OpenAI anunciou seu plano para desenvolver um sistema operacional. Um grande avanço é sua abordagem de "conversa como aplicativo", que nos permite acessar diretamente a funcionalidade de aplicativos como Figma e Spotify dentro do ChatGPT. Sabemos que os celulares são uma porta de entrada crucial para a era da internet, e muitos se perguntam se eles se tornarão um ponto de entrada fundamental para as conversas massivas de IA do futuro. Como fabricante de celulares, o que você acha dessa tendência, Vivo?

Huang Zixun: Como fabricantes de celulares, temos uma perspectiva diferente de empresas como a ChatGPT. Por um lado, temos assistentes de IA como o Blue Heart Xiao V, que são de fato aplicativos e recursos de conversação, e precisamos continuar a desenvolver esse aspecto.

Por outro lado, quando os usuários usam seus celulares, por exemplo, eles abrem o aplicativo do telefone quando precisam fazer uma chamada e abrem o aplicativo de táxi quando precisam pegar um táxi. Nesse sentido, não há necessidade deliberada de usar o diálogo para resolver o problema. Por exemplo, a estrutura de intenção de todo o sistema pode atender mais rapidamente à chamada do usuário para o aplicativo, ou mesmo à chamada do agente terceirizado. Essa é a abordagem que consideramos mais adequada.

Por exemplo, os serviços atualmente recomendados pela Atomic Island podem ser interfaces de serviço ou portais, mas também podem gradualmente se tornar agentes de terceiros. Você precisa usar diálogo para facilitar esses agentes? Não necessariamente, já que os usuários atualmente dependem fortemente da interação por gestos baseada em GUI ao usar sistemas operacionais. Portanto, da perspectiva do sistema operacional, a principal consideração é como os usuários podem acessar os serviços de forma mais rápida e conveniente em diferentes cenários, seja esse serviço uma interface direta ou enviado por meio de um agente.

De fato, também fortaleceremos a abordagem conversacional no Blue Heart V e até combinaremos interação ativa com a interface para permitir que os usuários a obtenham mais rapidamente.

Guan Yanbing: Acredito que existam certas diferenças entre os ecossistemas nacionais e internacionais. O ChatGPT suporta COS, Spotify e softwares de desenho como o Figma. Ele tem uma base ecológica no exterior e, de fato, é um pouco diferente na China.

Em segundo lugar, não acho que seja uma questão binária, de 0 ou 1. Por exemplo, assistentes de IA como o Blue Heart Xiao V, como mencionado na coletiva de imprensa desta manhã, se destacam por atender às necessidades personalizadas do usuário. Em aplicativos tradicionais ou no ecossistema da internet, por exemplo, a interface de um aplicativo tradicional tem o tamanho de um telefone, com espaço para 10 ou 15 botões. No entanto, sempre há um grande número de usuários que precisam de mais do que apenas esses 10 ou 15 botões, e essas necessidades não podem ser atendidas. Na verdade, essas necessidades são muito longas e personalizadas, tornando-as adequadas para serem atendidas por assistentes de IA.

Esta manhã, houve um exemplo de demonstração de "você converte esta imagem para o estilo Pixar e a define como papel de parede". Esse tipo de demanda de cauda longa não seria atendida por aplicativos tradicionais, mas é muito adequado para assistentes de IA, pois é muito pessoal e personalizado.

Acreditamos que este ecossistema pode atingir um estágio no futuro em que não se tratará apenas do ecossistema de aplicativos ou da entrada de tráfego. Não é algo absoluto. Tudo se resume às necessidades do usuário. Nesta fase, algumas necessidades do usuário são melhor atendidas por assistentes de IA e chatbots, que atenderão melhor às suas necessidades.

Zhou Wei: Aplicações que utilizam modelos de grande porte estão prosperando. Estamos nos concentrando tanto em desenvolver capacidades quanto em exercer moderação nessa situação. Não podemos evitar desenvolver hábitos de usuário e distribuir serviços. Nossa estratégia daqui para frente provavelmente será primeiro desenvolver capacidades e, em seguida, trabalhar com parceiros para colaborar nessa empreitada. Para provedores de serviços com preocupações, incentivamos que esperem para ver e exerçam moderação.

Modelo ponta a ponta e desenvolvimento de capacidades

P: Atualmente, todos os fabricantes estão desenvolvendo modelos em larga escala para dispositivos móveis, e quase todos também estão falando sobre o desenvolvimento de assistentes pessoais. Como o conceito "UI Agent" da Vivo difere dos assistentes de IA de outros fabricantes?

Guan Yanbing: Esta manhã, mencionamos que escolhemos inteligência personalizada. Nem todos os fornecedores oferecem inteligência personalizada. Acreditamos que a inteligência personalizada possui várias características:

Primeiro, é como um amigo ou parceiro . Portanto, uma das nossas principais capacidades é o lado do dispositivo, pois somente ele consegue analisar constantemente seus dados, entender suas necessidades, perceber a tela do telefone e assim por diante. Na verdade, nem todos os fabricantes de celulares possuem recursos para o lado do dispositivo. Como todos mencionaram, somos relativamente fortes nessa área.

Em segundo lugar, oferecemos interação natural verdadeiramente multimodal, incluindo interação por voz, percepção de tela e imagem habilitada por Agentes de UI e interação por texto. A interação multimodal garante uma interação mais natural, como se uma pessoa real estivesse interagindo com você. Esses são nossos dois principais diferenciais e vantagens em relação a outros fornecedores. Essas duas vantagens garantem que nossos produtos estejam sempre disponíveis no seu celular, oferecendo serviços personalizados e adaptados às suas necessidades.

P: Quais condições são necessárias para um agente de IA ideal? Quais já existem?

Zhou Wei: Os celulares têm sido tradicionalmente o principal canal de distribuição de aplicativos. Todo o setor é muito sensível aos limites e à autoridade das lojas de software. A distribuição na era dos agentes inteligentes é uma questão igualmente sensível. A cultura corporativa da Vivo valoriza o sucesso e o desenvolvimento compartilhados, portanto, como um canal de telefonia móvel, esperamos exercer moderação e colaborar na distribuição futura de agentes inteligentes de IA.

O que pode e o que não pode ser feito? Primeiro, esperamos que os agentes inteligentes implementem tudo o que as funções e os sistemas nativos de telefonia permitem. Segundo, a Loja de Agentes para esses agentes inteligentes, incluindo a estrutura para inteligência personalizada, é de responsabilidade dos fabricantes da plataforma. Portanto, todo esse trabalho já está em andamento.

No entanto, a comunicação entre agentes e entre agentes é um esforço colaborativo em toda a indústria, com os desenvolvedores, principalmente os fornecedores de internet, sendo participantes-chave. Diante desse desafio, esperamos colaborar nesse desenvolvimento. Em relação à distribuição de agentes de aplicações de internet, esperamos colaborar e colaborar nisso. Não é que não possamos fazê-lo, mas sim que se trata de uma questão de benefício compartilhado para a indústria, e a Vivo deve cumprir com suas responsabilidades.

P: Os chamados recursos de agente de IA dos smartphones atuais estão, na verdade, um pouco distantes da definição ampla de recursos. Isso ocorre porque cada aplicativo pode operar isoladamente, sem compartilhar dados subjacentes com os fabricantes de telefones. Alguns fabricantes recorrem a métodos indiretos, como recursos de acessibilidade, para identificar telas. Isso é um grande obstáculo?

Zhou Wei: Seus sentimentos hoje são os mesmos que os nossos. Quando dispositivos inteligentes, especialmente dispositivos inteligentes automáticos em celulares, precisam executar tarefas, só podemos executar as funções e aplicativos do próprio fabricante. Por exemplo, não há problema em mostrar a fluidez, ajustar o brilho e conectar-se ao Wi-Fi. No entanto, se você quiser aplicativos cruzados, a outra parte está atualmente discutindo os padrões de autorização de segurança com os fabricantes de terminais.

Como fabricantes de dispositivos, acreditamos que, em primeiro lugar, devemos promover ativamente o estabelecimento de padrões industriais. Em segundo lugar, a tecnologia de IA ainda tem vários anos para amadurecer. Este ano, anunciamos generosamente o reconhecimento e a operação automáticos com base na interface do usuário móvel. Esses recursos amadurecerão cada vez mais a cada ano. Se a indústria da internet precisar que os fabricantes colaborem com os usuários, seremos naturalmente uma opção ideal.

Acredito que muitas empresas no setor da internet estão generosamente adotando essa abordagem e todas estão trabalhando conosco nisso. Há também muitas que estão preocupadas com os limites que surgirão no futuro. Para muitas dessas empresas, acreditamos que o tempo dirá.

P: Qual é o status atual da cooperação da vivo com os principais fabricantes nacionais no Agent?

Guan Yanbing: A Vivo está cooperando com muitos grandes fabricantes com uma mentalidade relativamente aberta, incluindo AutoNavi, Baidu e o Alipay da Ant. Já temos muita cooperação hoje. No futuro, o OS6 será lançado gradualmente em muitos agentes no próximo mês. Aceitamos isso de mente aberta. Acreditamos que não é preto no branco. Isso não significa que os negócios tradicionais não possam ser feitos depois que o agente estiver pronto.

P: No ano passado, a Vivo ainda estava discutindo o modelo supergrande 175B, mas agora o foco mudou para a IA de ponta 3B. Por quê?

Zhou Wei: No ano passado, implementamos os modelos 13B e 7B do lado do cliente. No final, descobrimos que apenas o modelo 7B estava pronto para produção. No entanto, o modelo 7B não funcionou bem em celulares, pois ocupava muita memória. Este ano, descobrimos que o modelo 3B teve um desempenho muito melhor.

Por que temos essa escolha? Porque ainda não abrimos a caixa. Para entender o que o modelo do lado do cliente está fazendo no telefone, primeiro precisamos identificar o que está acontecendo no telefone.

Primeiro, ele reconhece continuamente várias ações que as pessoas realizam em seus telefones. Por exemplo, apenas os telefones Vivo podem fazer isso. Se você pesquisar um ícone, deslizar para selecionar uma linha de texto ou selecionar tudo em uma página, você notará algo aparecer na Ilha Atômica do Vivo para responder. Isso é reconhecimento de intenção e é possível no lado do dispositivo. E somos os únicos capazes disso, porque temos um modelo no dispositivo que analisa suas ações em tempo real. Por exemplo, este endereço está em uma nota destinada à navegação ou adicionado a um calendário? Nosso modelo no dispositivo identifica sua intenção em tempo real. Isso significa que o telefone está totalmente integrado a uma ampla gama de tarefas, incluindo a identificação de intenção e a divisão de tarefas. Planejamos lançar esse recurso para o setor em 2024. Esperamos que algumas coisas exijam experiência para obter insights e fazer as escolhas certas.

Quando fizemos uma escolha clara este ano, não significa que estávamos focados apenas no 3B. Na verdade, temos trabalhado em muitos modelos 1B. Sua pergunta anterior questionava se iríamos parar de trabalhar nos modelos 17,5 bilhões, 100 bilhões ou 70 bilhões. Não, é porque os modelos grandes deste ano são mais poderosos do que os do ano passado, que por sua vez foram mais poderosos do que os do ano anterior. Descobrimos que recursos baseados em nuvem são relativamente fáceis de desenvolver; o verdadeiro desafio está em desenvolver recursos do lado do dispositivo.

O modelo grande deste ano, com 70 bilhões (70 bilhões) de parâmetros, é mais robusto do que o modelo do ano passado, com 175 bilhões (175 bilhões). Nosso modelo 3B é mais robusto do que o modelo anterior, de 10 bilhões, e já é mais robusto do que o modelo com mais de 100 bilhões de parâmetros em 2023. Ele já consegue lidar com a decomposição das tarefas finais e complexas atuais. Não é porque desistimos da nuvem, mas porque ela se divide em dois estágios: a nuvem é a nuvem e o fim é o fim. As capacidades da nuvem são relativamente fáceis de estabelecer.

Existem dois tópicos sobre grandes modelos atualmente. Um é a decomposição do raciocínio cotidiano e de tarefas complexas; o outro é a inteligência artificial geral . A mídia agora argumenta que a era da inteligência artificial geral ainda não chegou. Na verdade, a decomposição de tarefas complexas, a aquisição e o refinamento do conhecimento já podem atender às nossas necessidades.

Como fabricantes de celulares, nossa exploração e demanda por IA precisam ser mais proativas. Isso significa desmembrar a intenção do usuário e as tarefas diárias nos setores B2B e B3B. Devemos aproveitar modelos do lado do dispositivo para o middleware, a percepção e a execução. No entanto, parece que a mídia raramente aborda essa categorização ao discutir grandes modelos. Afinal, como fabricantes de dispositivos, é difícil para nós iniciar tais discussões na mídia.

P: Quais são os principais avanços do modelo 3B?

Zhou Wei: O maior problema com o 7B era que ele exigia 3,5 GB de memória. 8 GB é a configuração padrão para celulares de médio e alto padrão, incluindo os topo de linha. Um modelo grande ocupa 4 GB adicionais, deixando apenas 4 GB de memória. 4 GB agora é a configuração padrão para celulares de baixo custo, o que transforma instantaneamente celulares de alto padrão em celulares de baixo custo. Esse foi o primeiro problema que precisávamos resolver.

A segunda questão que precisamos abordar é que o modelo 7B só consegue realizar decomposições simples de tarefas e não consegue realizar raciocínios complexos. Por exemplo, se você perguntar: "Por favor, me ajude a encontrar o voo mais barato de Pequim para Shenzhen às 16h de hoje?", talvez seja necessário baixar três ou quatro serviços de venda de passagens aéreas e comparar preços.

Você verá que ele também analisa qual aplicativo, o preço de cada aplicativo e qual companhia aérea eu uso. Este é um problema complexo. O modelo 7B do ano passado não conseguiu fazer isso. O modelo 3B deste ano supera em muito o modelo 7B do ano passado. E todas as classificações também incluem modelos com modelos 8B, que são mais fortes do que os modelos 7B. Avaliamos quase todos os modelos de raciocínio 8B que encontramos globalmente, e nosso modelo 3B os supera em muito em termos de raciocínio, síntese indutiva e capacidade de decompor tarefas complexas.

Resolvemos dois problemas: primeiro, o modelo 3B ocupa apenas 2 GB de memória, o que não afeta o desempenho de dispositivos de última geração. Resolvemos esse primeiro problema. Segundo, aprimoramos significativamente a capacidade de raciocínio, permitindo que ele seja instalado no celular como uma plataforma intermediária para controle de intenção e decomposição de tarefas. Ambos os problemas foram resolvidos.

Na verdade, existem outras questões. Por exemplo, desta vez também nos preocupamos muito com funções. Este ano, alcançamos 200 tokens. No ano passado, alcançamos cerca de 80, e este ano alcançamos diretamente 200 tokens. 200 tokens já é bastante impressionante. Normalmente, quando olhamos para uma tela pronunciando palavras, basicamente achamos que está tudo bem se tiver cerca de 26. Alcançamos diretamente 200 tokens, o que mostra que a eficiência da saída de palavras no terminal decolou imediatamente, e não há obstáculos nesse sentido.

Há outro recurso que você talvez não tenha notado, mas que é realmente revolucionário. Antes do DeepSeek, havia um grande modelo chamado "Dark Side of the Moon", cujo principal recurso eram os tokens longos, que também implementamos desta vez. Este é um grande avanço, e fizemos um excelente trabalho. No entanto, como é tão novo, pode levar mais seis meses para que os usuários percebam os benefícios. Então, sua pergunta mencionou algumas das coisas em que estivemos trabalhando este ano. Implementamos tokens longos no lado do dispositivo. Aumentamos a memória de 4 GB para 2 GB e alcançamos velocidades de saída de palavras de 200 tokens. Também aprimoramos nossos recursos de inferência e implementamos tudo isso em celulares. Portanto, o System 6 original em 2025 nos dá de três a seis meses para experimentar surpresas inesperadas em termos de funcionalidade.

P: O código aberto do DeepSeek tem algum impacto sobre você?

Zhou Wei: Isso nos afetou. Percebemos esse problema em 2024, quando estávamos trabalhando em um modelo em escala de 175 bilhões. Estávamos expandindo-o, essencialmente usando um modelo matricial. No entanto, rapidamente percebemos que mesmo um cluster de 10.000 cartões não seria suficiente. Precisávamos construir clusters de 20.000 ou mais cartões, e isso por si só exigiria mais de 2 bilhões em equipamentos, e ainda assim não era suficiente. Nesse ritmo, eu achava irrealista expandir a inteligência artificial em geral.

Como todos sabemos, muitas startups no setor de modelagem em larga escala da China estão enfrentando dificuldades. Isso ocorre porque levantar dezenas de bilhões de yuans para construir um modelo de 400 bilhões de parâmetros pode exigir o investimento de 5 bilhões de yuans em capacidade computacional. Desses 5 bilhões de yuans, um terço, ou cerca de 1,5 bilhão de yuans, é eletricidade. Esse custo é agravado pela conta anual de eletricidade, tornando-o inacessível.

Quando o DeepSeek foi lançado, ele imediatamente atraiu a atenção de todos com seus recursos de modelagem multibilionários. O DeepSeek alcançou resultados notáveis, era totalmente de código aberto e nos permitiu implementá-lo completamente. O Blue Heart V da Vivo, que inclui um modelo de pensamento profundo, é essencialmente uma versão completa do DeepSeek. Isso nos deu a confiança de que poderíamos adquirir imediatamente excelentes modelos em larga escala.

Quais são os benefícios para empresas como a nossa, que criam seus próprios modelos? Ele nos ajuda com o aprendizado de destilação 7B e 3B. Acredito que o DeepSeek é uma grande ajuda e aprimoramento para empresas como a nossa, que precisam treinar e otimizar modelos.

P: Por que ainda precisamos do 1B? Qual é o seu papel no sistema do lado do cliente?

Zhou Wei: Agradecemos à DeepSeek por aprimorar significativamente as capacidades de raciocínio do setor nos últimos dois anos. No ano passado, até construímos um modelo 13B, pois o modelo 7B não conseguia lidar com muitas tarefas de raciocínio complexas, então esperávamos lançar um modelo 13B. No entanto, este ano, descobrimos que o modelo 3B ultrapassou nossa definição original de 13B, permitindo muitas previsões que antes eram limitadas a modelos um pouco maiores em dispositivos. Decidimos que simplesmente trabalhar duro com o modelo 3B seria suficiente. Hoje, também falei sobre sumarização e geração de texto. O modelo 3B já representa cerca de 97% a 98% das capacidades baseadas em nuvem, tornando a diferença quase imperceptível. É mais do que suficiente.

Por que usar o 1B? Descobrimos que muitas coisas em celulares precisam ser configuradas permanentemente. A aplicação de modelos grandes na extremidade de celulares é muito mais ampla do que imaginávamos. Sempre há um modelo grande em execução no celular.

Há algum tempo, visitei vários laboratórios de robótica humanoide renomados na China. Também trabalhamos com robôs e, na área de inteligência incorporada, temos um modelo grande que está sempre em funcionamento. Como mencionei esta manhã, o modelo 3B consome 750 mA em funcionamento, o que é insuportável. Mesmo com esse consumo de energia, ele ainda consome muita energia. Então, o que podemos fazer a respeito? Usamos um sistema pulsado. Você o usa às vezes, às vezes não. Quando você precisa, ele desperta, mas na maioria das vezes não está em uso. No geral, ele consome apenas algumas horas por dia, o que é totalmente acessível. É muito mais eficiente em termos de energia do que jogar ou tirar fotos.

No entanto , também existem requisitos que exigem dados online 24 horas por dia, 7 dias por semana, como cercas de endereço, seu comportamento e parâmetros do sistema, que estão sempre online. Isso requer o 1B. Este modelo 1B não se trata de capacidades de raciocínio complexas, mas sim de monitoramento e memória em tempo real da máquina local. Portanto, somos bastante agressivos no 1B, mas ele é estritamente para celulares e raramente é "distribuído" ou comunicado externamente.

Experiência e filosofia

P: Já existe uma tendência de cobrança pelas funções de IA baseadas em nuvem do X300. Como serão determinados os limites da cobrança pela IA baseada em nuvem?

Zhou Wei: Temos um princípio: a Vivo está fortemente focada na integração no dispositivo. Reconhecimento de imagem, reconhecimento de voz e, no futuro, interpretação simultânea e reconhecimento de dialetos são todos on-device, e essa integração é definitivamente gratuita. No entanto, há um desafio com a integração no dispositivo: a plataforma deve ter capacidade computacional e memória suficientes, pelo menos 8 GB ou mais. Isso imediatamente apresenta outro problema: se os usuários tiverem apenas máquinas de baixo custo com 4 GB e precisarem usá-la, eles podem recorrer a funções baseadas em nuvem. Funções baseadas em nuvem, de certa forma, incorrem em custos significativos, então podemos considerar compartilhar o custo. Acho que isso é uma tendência.

P: Os fabricantes de celulares frequentemente caem na armadilha de criar uma lista de verificação de recursos de IA ao desenvolver a IA. Os usuários geralmente reclamam que os recursos de IA são muito numerosos e complexos. Como a Vivo determina se um recurso é realmente valioso?

Huang Zixun: Internamente, temos um termo para a experiência com IA chamado "inconsciência". Embora a IA possa parecer poderosa, sua penetração ainda não é generalizada, o que, até certo ponto, cria desafios significativos para os usuários entenderem como usá-la. Portanto, nos esforçamos para minimizar a necessidade de pressionar um botão para ativar ou usar a IA. Em vez disso, empregamos um design integrado. Por exemplo, ao salvar um arquivo, se eu começar a gravar, pausar ou interromper a gravação ativa automaticamente os recursos da IA, gerando um nome para ela. Definimos isso como "IA inconsciente".

De fato, ele utiliza o modelo 3B de ponta que todos vêm discutindo. Também fizemos inúmeras otimizações, incluindo ajustes finos no agendamento de desempenho subjacente e no consumo de energia durante a operação. Nosso design elimina a necessidade de os usuários interagirem com esses recursos, permitindo que eles os acessem naturalmente dentro da interface de usuário e do fluxo de tarefas existentes, substituindo os processos tradicionais de invocação e edição manual por recursos de IA.

No ano passado, propusemos reconstruir a experiência do sistema. Não alteramos deliberadamente a lógica de negócios nem ensinamos novamente os usuários a usar o sistema operacional ou os telefones com IA. Em vez disso, no fluxo de tarefas original do usuário, quando atingimos um determinado ponto, acreditamos que a IA prevê que o usuário encontrará esse cenário e precisará usar tal função, e podemos alcançar esse resultado naturalmente. É isso que sempre buscamos ao projetar o sistema operacional, que é uma IA "inconsciente".

Também realizamos alguns testes e descobrimos que, quando um botão exibe uma função de IA, a maioria dos usuários se pergunta: o que exatamente é essa função? Ela capturará seus dados ou levará a consequências inesperadas? Portanto, evitamos criar novos recursos ou cenários durante esse processo. Ao integrar a IA e o sistema operacional, buscamos retornar aos hábitos existentes do usuário, mantendo o fluxo de tarefas existente e concluindo-o da maneira mais natural e fluida possível. Este é o princípio fundamental da "inconsciência" que seguimos durante toda a experiência com o sistema operacional.

P: Como equilibrar a estabilidade do sistema operacional e a rápida iteração da IA?

Zhou Wei: Como todos sabem, nossa equipe de IA naturalmente enfrentou desafios da gestão interna ao longo dos anos, incluindo pressão significativa durante a entrega. Acredito que as instruções de Shen Wei à equipe de IA são bastante precisas: a IA não criará novas demandas. Para nós, da indústria de telefonia móvel, devemos aproveitar a IA para tornar os celulares mais fáceis de usar. Se retornarmos a essa aspiração original, nosso trabalho provavelmente será mais fácil de realizar.

Voltando à equipe, como temos de duas a três mil pessoas em software e mais de mil em IA, incluindo os responsáveis ​​por cognição e planejamento, muitas vezes pensamos que entramos na era da IA ​​e que, nessa era marcante, precisamos criar algo completamente novo e revolucionário. Muitos dos meus amigos ao nosso redor acreditam que a chegada da IA ​​certamente marcará época, assim como a máquina a vapor e a carruagem puxada por cavalos.

Acredito que o maior problema com a estabilidade do sistema e a natureza disruptiva da IA ​​é que realmente precisamos voltar a andar de carruagem para viajar para longe, o que é um meio de transporte. Se você usa uma máquina a vapor ou uma carruagem, isso depende do formato do produto.

Hoje em dia, estamos bastante confortáveis ​​usando a combinação de IA e celulares. O que está mudando? O que permanece o mesmo? O que permanece o mesmo é a integração da IA ​​e do sistema operacional. Há um ditado que diz: "A IAização das funções do sistema". Estamos vendo um aumento no número de chamadas telefônicas, assistentes de telefone, álbuns de fotos, notas e outras funções com tecnologia de IA. Essas são melhorias em relação às funções tradicionais. O que está mudando? Acho que também é uma mudança nas necessidades originais.

Por exemplo, ao pesquisar uma palavra ou um aplicativo, por que precisamos adivinhar a intenção? Essa intenção só aparece no Atom Island, no AutoNavi Maps ou no Notes. Devemos enviá-la para mim para armazenamento ou salvá-la no Pinduoduo ou no Taobao para pesquisa? Você verá que as necessidades do usuário não mudaram. Simplesmente usamos IA para determinar a intenção e prever seu comportamento. Se você realmente deseja abandonar um aplicativo, podemos ajudá-lo a se livrar dele. Simplesmente usamos IA para torná-lo mais conveniente, fácil de usar e mais amigável. O telefone permanece o mesmo, sem novos recursos adicionados. O que mudou é que os recursos existentes foram repensados ​​e tornados mais utilizáveis.

Pensando dessa forma, sinto que nosso comportamento, pensamento, cognição e planejamento de produtos nos últimos dois anos têm sido consistentes. Em 2023, sinto-me consistente e sinto que uma nova era chegou. Faremos algo marcante e subversivo. Naquela época, era extremamente inconsistente, tanto na comunicação externa quanto na interna. Ficamos confusos por mais de um ano, mas desde este ano temos sido muito consistentes e sabemos muito claramente o que estamos fazendo.

P: Qual é a sua estratégia geral para a era da IA? Você acabou de dizer que o foco estratégico está mudando para o lado final. Então, como a capacidade de treinamento em nuvem existente será dividida?

Zhou Wei: Como somos uma empresa focada em dispositivos inteligentes, e não em inteligência artificial em geral, nossa estratégia continua sendo focar no que devemos fazer como empresa. Nossa estratégia de IA está alinhada às necessidades da nossa empresa e continuamos focados na inteligência pessoal. No ano passado, uma marca criou uma descrição abrangente chamada "Blue Heart Intelligence". Blue Heart Intelligence representa inteligência pessoal, que ainda é vaga e genérica. Você pode imaginá-la como uma "assistente pessoal VIP" para os usuários.

Se você está procurando um assistente, pode ter um para ajudá-lo a gerenciar sua agenda, mas provavelmente não poderá atuar como assistente jurídico, assistente de declaração de imposto de renda ou assistente de negociação de ações. O que essas pessoas fazem? Escritórios financeiros e jurídicos estão fazendo isso. Por exemplo, existem assistentes especializados em redação de patentes — esses são os "assistentes dedicados". Nosso objetivo é transformar seu telefone em seu próprio assistente pessoal. Embora a operadora de telefonia possa gerenciar coisas que são pessoalmente relevantes para você, outros serviços "dedicados" exigem uma plataforma dedicada. Esta manhã, também mencionei nosso desejo de preencher a lacuna entre serviços dedicados e usuários, aproximando assistentes dedicados dos usuários. Estamos trabalhando no componente de assistente geral. Esta é a nossa estratégia abrangente.

P: A Vivo também está desenvolvendo óculos de RA e RV. A RM/RA estará conectada ao agente de telefonia móvel?

Zhou Wei: Falando em agentes, existem muitos serviços no setor que já existem há muito tempo. Eles não são novos. Por que, de repente, passaram a ser chamados de agentes inteligentes após o advento dos grandes modelos? É porque eles conseguem perceber mudanças ao nosso redor, entender nossas intenções e nos ajudar a tomar decisões, o que lhes permite conectar serviços automaticamente. É por causa dessa mudança que eles são chamados de agentes inteligentes.

O serviço original ainda existe naturalmente, mas foi a adição dessas quatro etapas que o transformou em uma entidade inteligente. No entanto, essa entidade inteligente agora é comum e amplamente utilizada em todo o setor. Por que as operadoras de telefonia móvel ainda precisam responder a essa pergunta? Porque as operadoras de telefonia móvel realmente entendem os hábitos pessoais de seus usuários. Ao compartilhar essas características personalizadas com provedores de serviços terceirizados, com a autorização dos usuários, suas entidades inteligentes se tornam instantaneamente mais poderosas.

Portanto, os fabricantes de celulares criaram valor nesse sentido. Estamos construindo plataformas e estruturas de suporte para o setor. Os fabricantes de celulares têm uma identidade adicional. Eles fornecem serviços para o setor, e os telefones também podem ter funções como chamadas, agendamentos e mensagens de texto. Então, fazemos essas duas coisas ao mesmo tempo.

P: Então, também consideraremos a integração entre dispositivos com dispositivos de ressonância magnética?

Zhou Wei: A maior diferença entre dispositivos de ressonância magnética e celulares é que você usa uma câmera para ver o mundo físico real, reconhecê-lo e, em seguida, conectá-lo ao mundo digital. Esta aplicação é, na verdade, muito semelhante aos óculos de realidade aumentada atualmente promovidos. Há uma relação correspondente entre o que você vê e como você o reconhece, seja solicitando serviços ou recebendo uma apresentação. Como a equipe de sistemas operacionais também cuida dessas tarefas, nós as unificamos.

P: O hardware de IA está muito popular este ano. Os fabricantes de celulares têm uma vantagem muito grande em hardware de IA. A Vivo tem planos de desenvolvimento nessa área no futuro?

Zhou Wei: Nossa empresa estabeleceu uma unidade de negócios de terminais de IA e tem planos para o lançamento de novos produtos, mas não sou eu quem deve anunciar o cronograma. Temos produtos como o Vision, óculos e anunciamos oficialmente um robô doméstico. Definitivamente, estamos nos preparando mais do que anunciamos oficialmente.

Hoje, todos já viram nosso sistema operacional Blue River. Ele é compatível com uma ampla gama de chipsets, incluindo chips ARM, com compatibilidade para cinco a seis. Também contatamos empresas chinesas do setor de energia, incluindo uma que fabrica óculos de IA, em particular.

De espectador e registrador da tecnologia a praticante de como a tecnologia impacta os estilos de vida.

#Bem-vindo a seguir a conta pública oficial do WeChat do iFaner: iFaner (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo