Conversa com Vivo Hu Baishan: A indústria de telefonia móvel é a nova produtividade mais típica, o protótipo MR será visto este ano
Na última semana de 2024, Ai Faner e outros meios de comunicação foram à sede da vivo em Dongguan e tiveram uma conversa franca com Hu Baishan, vice-presidente executivo e diretor de operações da vivo, e falaram sobre a estrutura do mercado, processos e aplicações de IA, e sobre A direção futura e o planejamento dos produtos da vivo incluem reflexões sobre o mercado de telas dobráveis, planos e opiniões sobre óculos de ressonância magnética, robôs humanóides e óculos de IA, bem como o ponto forte da vivo: a imagem.
A seguir está um resumo do diálogo no nível do produto (o diálogo foi reeditado por Ai Faner para facilitar a leitura):
Ainda há espaço para melhorias em telefoto e vídeo, mas a IA dos telefones móveis ainda tem um longo caminho a percorrer.
P: O que você acha da situação atual da IA A IA substituirá a imagem como o principal ponto de venda de telefones celulares no futuro? A qualidade de imagem dos principais telefones chegou ao fim agora?
Hu Baishan: Vamos falar primeiro sobre imagens. Nosso objetivo final é substituir a maioria das cenas usadas pelas câmeras SLR. Então o seu teto ainda é muito alto.
Eu também disse antes que a câmera principal do X200 Pro foi reduzida de 1 polegada para 1/1,28 polegada no carro-chefe da geração anterior, mas a experiência do usuário não diminuiu. o algoritmo de potência e imagem melhorou muito. Isso ilustra um problema. A experiência do usuário da câmera principal atingiu um bom nível. Se dermos uma pontuação, assumindo que uma SLR com distância focal regular é de 100 pontos, nossa câmera principal está agora perto de 80 a 85 pontos.
Mas em termos de telefoto e vídeo, a diferença com a SLR ainda é relativamente grande. Se continuarmos a pontuar, a câmera principal está em 80 a 85, e a telefoto está em torno de 60, mal passando.
Na cena do show, com distância focal de 10x, nosso X200 Pro ainda está OK em 20x, ou seja, quando você está sentado do lado de fora, o efeito de filmagem à noite pode ver claramente quem é a pessoa, mas o usuário ainda não. Não me atrevo a compartilhar a foto com o Moments porque é um pouco difícil de usar, mas posso usar 10 vezes.
Em termos de telefoto, as imagens do nosso celular estão relativamente distantes da SLR. Em 3 a 5 anos, a vivo pode melhorar a telefoto para o nível de 80 pontos. Essa oportunidade ainda existe. Embora a utilização do espaço interno dos telemóveis tenha atingido o seu limite, onde está o outro espaço para melhorias? As capacidades fotossensíveis dos sensores de imagem podem continuar a ser melhoradas através da tecnologia, e grandes modelos e algoritmos de imagem também podem ser bastante melhorados. É por isso que estou confiante de que a vivo alcançará 80 pontos em telefoto no futuro.
Tirar fotos é relativamente estático, então o escopo de ação do algoritmo será muito maior, mas o vídeo é dinâmico e, se vários algoritmos forem adicionados ao vídeo, haverá uma enorme pressão no consumo de energia. Claro, há espaço para melhorias aqui. O chip agora é de 3 nm, e a próxima geração será de chips SoC de 2 nm, e até mesmo chips de processamento de imagem especializados irão melhorar no futuro. Na próxima etapa, também usaremos os recursos de algoritmo de modelos grandes em vídeos, mas a lógica geral dos vídeos é dinâmica, portanto, os recursos de bênção do algoritmo ainda serão mais fracos.
Seja telefoto ou vídeo, ainda há um longo caminho a percorrer antes que os usuários possam satisfazer seus altos requisitos. A tecnologia em si ainda tem muito espaço para desenvolvimento, portanto a imagem ainda será o foco dos futuros telefones principais.
Falando em IA, é verdade que grandes modelos foram produzidos nos últimos dois anos e a IA ainda está a desenvolver-se rapidamente. Voltando ao telefone móvel em si, a IA ainda tem suas limitações. O maior problema dos telefones celulares é o poder computacional insuficiente. Dividi a IA do telefone móvel em três estágios:
A primeira etapa é aprimorar os recursos de IA em algumas funções anteriores. Por exemplo, no período passado, a coisa mais popular em toda a indústria de telefonia móvel é a eliminação de IA. Essa função existe há mais de dez anos. existe na era da tecnologia funcional, mas naquela época o algoritmo era de nível relativamente baixo e sempre não foi bom.
No passado, os recursos de reconhecimento de fala, usando métodos de aprendizagem profunda, podiam ter uma taxa de sucesso de apenas 90%. Com essa taxa de sucesso, você descobrirá que a conversa não pode ser concluída por várias rodadas e a distorção em cada link é muito grave. . O grande modelo generativo ainda é o mesmo depois de ser lançado, e a capacidade de reconhecimento de fala e a capacidade de compreensão semântica melhoraram muito ao mesmo tempo. No passado, tínhamos um recurso chamado Secretária Telefônica, que foi lançado pela primeira vez no NEX 3. Assim que as pessoas ouviram falar dele, souberam que era feito por IA tradicional e desligaram o telefone depois de dizer algumas palavras. Agora, devido à bênção da IA, ninguém pode dizer que a IA está falando num curto período de tempo.
Todos eles são baseados na melhoria de uma determinada função ou de um determinado módulo. Eles não são apenas um pouco diferentes da Inteligência Artificial Geral (AGI), mas são muito diferentes.
O segundo estágio, creio eu, é integrar grandes capacidades de modelos ao sistema. Por exemplo, quando procuramos uma configuração de função no passado, não conseguimos encontrá-la porque as opções do menu eram muitas e confusas. No futuro, a IA e os sistemas estarão profundamente acoplados, permitindo que o telefone entenda claramente suas intenções e o que fazer a seguir, tornando a interação telefônica mais inteligente. Por exemplo, a “Ilha Atômica” que acabamos de experimentar é conhecer suas intenções e encontrar soluções. Este estágio durará um tempo relativamente longo, porque a experiência do usuário neste estágio e o poder computacional atual mal conseguem satisfazê-lo.
A terceira etapa é o que chamamos de PhoneGPT na conferência VDC 2024. A função que demonstramos naquela época era pedir comida para viagem e dissemos que foi um sucesso. Na verdade, a taxa de sucesso de cada etapa é de apenas 85%. Depois de três etapas, não consigo mais executar e leva muito tempo. Essa experiência é apenas um modelo e a experiência do usuário não é nada boa.
Para realmente atender aos requisitos do PhoneGPT, os requisitos de potência de computação não aumentam um pouco, mas aumentam muitas vezes. A atual arquitetura integrada, arquitetura de empacotamento e largura de banda não são suficientes. Para o PhoneGPT real, todo o requisito de capacidade é que o armazenamento de alta velocidade atual, os recursos do lado do servidor, os recursos de largura de banda e a arquitetura SoC estejam próximos do lado do servidor para terem a chance de serem realizados.
Podemos ver que as necessidades do usuário foram geradas. Muitos modelos estão sendo executados em servidores em nuvem. Nosso centro de computação interno possui quase 10.000 placas de computação. Muitos modelos podem ser executados na nuvem. mas esta escala não pode ser executada em telefones celulares. Os telefones celulares só podem executar os parâmetros 2B e 3B. Portanto, estimo que levará menos de cinco anos para que os telefones celulares realmente implementem o PhoneGPT e não atenda aos requisitos de experiência do usuário.
A trilha de IA está atualmente em seu segundo estágio. É uma melhoria gradual, não uma melhoria de 0 a 1. Portanto, a IA tem pouca força motriz para toda a onda de substituição do telefone no momento, porque os usuários não sentem a mutação de 0 para 1. Somente a mutação de 0 para 1 ocorre Quando os usuários descobrem que o PhoneGPT pode fazer tantas coisas, eles o farão. Haverá um forte desejo de trocar de telefone.
Como sou responsável tanto pelos produtos quanto pela tecnologia, o que divulgo deve ser o nível atual da nossa tecnologia ou a tecnologia de toda a indústria.
P: Na indústria de smartphones, em que aspectos a nova produtividade se reflete e em quais partes são mais importantes?
Hu Baishan: A indústria de telefonia móvel é o representante mais típico da produtividade de nova qualidade. No meu entendimento, a produtividade de nova qualidade incorpora as características dos três altos, alta tecnologia, alta qualidade e alta energia cinética, bem como a. quatro novas características. Se medidos por este padrão, os telemóveis enquadram-se na categoria típica de nova produtividade. Vimos que as novas tecnologias têm sido continuamente iteradas nos telemóveis ao longo dos últimos anos.
As duas trilhas às quais atribuímos grande importância são a trilha de imagem e a trilha de IA. No campo da imagem, nos últimos cinco anos, todos foram capazes de sentir os efeitos fotográficos dos telefones celulares em diversas condições. Este é um processo de rápido progresso.
Os telefones celulares substituíram muitas das câmeras digitais que usávamos no passado, incluindo câmeras sem espelho e câmeras SLR em algumas cenas. Mais consumidores estão dispostos a pagar por melhores fotografias e estão dispostos a pagar mais. .
O X100 Ultra e o X200 Pro que lançaremos em 2024, que chamamos de “Artefatos de Concerto”, são iguais. Houve muitas cenas de concertos nos últimos anos. As pessoas realizam vários concertos e os consumidores esperam relembrar este belo momento. Por que precisamos de telefones celulares em cenas de shows? As câmeras SLR não podem ser trazidas para o cenário do show, então os consumidores só podem usar seus celulares para registrar belos momentos.
O mesmo se aplica à área de IA que acabou de começar, mas na verdade capacitou os telefones celulares em muitas áreas. Penso que não há dúvida de que a indústria dos telemóveis representa uma nova produtividade. Acredito também que, durante muito tempo, os telemóveis continuarão a ser os principais produtos eletrónicos de consumo e poderão contribuir para uma nova produtividade.
O protótipo do Vivo MR será visto no próximo ano e levará dez anos para que os robôs humanóides amadureçam
P: Como está o progresso da vivo em MR (realidade mista) e robôs humanóides?
Hu Baishan: Nossa RM está funcionando relativamente rápido. A equipe de RM da vivo alcançou quase 500 pessoas. Nossa meta de progresso é por volta de setembro ou outubro de 2025. Protótipos de experiência de RM de alta fidelidade estarão disponíveis em lojas in vivo em cerca de uma dúzia de cidades. experiência na prateleira. Desde a reserva inicial até a experiência no local, um processo padronizado é formado para que todos possam vivenciar.
Em termos de comercialização, precisamos olhar para todo o ecossistema de MR. O ecossistema de MR ainda precisa de conteúdo de entretenimento e de jogos. Como a vivo é uma empresa relativamente pura que não produz conteúdo, o conteúdo depende se todo o ecossistema pode combiná-lo a tempo. Claro, muitas informações mostram que a indústria está caminhando em uma direção favorável e aumentará o investimento em conteúdo. No passado, a ideia deles era fazer hardware. Recentemente, a ideia deles não é fazer hardware, mas sim fazer software. . Isso é uma grande coisa para nós.
Minha exigência para a equipe de MR é que encontremos cenas que consideramos mais necessárias. O ponto de segmentação da multidão não importa, mas para a multidão segmentada o MR é indispensável.
Por exemplo, a experiência de jogos em telefones celulares ou em consoles está neste nível. Após a introdução do MR, os usuários descobriram que esses jogos eram apenas uma escória e a experiência melhorou muito. Exceto por não carregarem o equipamento de RM, na maioria das vezes, eles procuram aquele RM sempre que têm tempo para jogar. Esse é um cenário em que eles só precisam.
Em relação aos robôs humanóides, também mencionamos este conceito no ano passado. Todos sabem porque existe tal procura: o envelhecimento da sociedade é cada vez mais grave.
Do ponto de vista da tendência, os robôs estão de fato caminhando em uma direção. Analisamos alguns dos principais caminhos dos robôs, um dos quais é a percepção espacial. A capacidade de percepção espacial do MR é muito forte. Após a conclusão do MR, não haverá problemas com a capacidade de percepção espacial do robô.
Outro requisito para um robô é que suas mãos e pés sejam flexíveis o suficiente e seu cérebro tenha fortes capacidades de tomada de decisão. Portanto, para concretizar o robô ideal de todos, nosso próprio julgamento levará mais de dez anos.
A capacidade de percepção espacial e de tomada de decisão não será tão perfeita em um curto período de tempo, mas a capacidade das mãos e dos pés melhorará de forma relativamente rápida, como robôs industriais que realizam tarefas especiais em cenas especiais.
O robô verdadeiramente ideal pode levar dez ou até quinze anos para ser realizado, mas podemos implementá-lo em etapas. Por exemplo, primeiro limitamos um escopo. Os robôs da linha de produção podem fazer “dois trabalhos”, mas esperamos fazer “dez trabalhos”. no futuro. "Live", também estamos construindo essa capacidade, mas não é tão rápido para produzir produtos.
Nossa lógica atual é a seguinte. Esse tipo de robô é o que chamamos internamente de requisitos de cena e necessidades do usuário. Os requisitos e requisitos do usuário são relativamente claros, mas o caminho da solução técnica não é completamente claro. Assim como quando falamos sobre imagens antes, o que os usuários querem é fotografar com uma câmera SLR de referência. Os robôs são uma situação em que as necessidades de cena do usuário são claras o suficiente, mas a tecnologia não corresponde. Nos próximos três a cinco anos, descobriremos o estado maduro da tecnologia. Com base no estado maduro da tecnologia, podemos criar um produto com capacidade de resolver determinados cenários locais neste momento.
Para ser franco, precisamos de descobrir qual será o alcance da tecnologia estatal nos próximos três a cinco anos, incluindo as capacidades de IA. Com base nesta capacidade técnica, fazemos alguns cortes no cenário ideal para atender às necessidades de cenários específicos. Estes são alguns ciclos de produtos que formulamos internamente.
P: A cadeia da indústria de AR amadurecerá mais rapidamente.
Hu Baishan: Entendemos o produto AR desta forma, em primeiro lugar, do ponto de vista das necessidades do usuário, os óculos AR com telas não devem ser muito pesados, quarenta ou cinquenta gramas. Os óculos AR têm uma parte de exibição que exibe coisas. Por enquanto, não criamos essa categoria.
Não importa em qual categoria trabalhemos, devemos encontrar os cenários urgentemente necessários que mencionei antes. Para esta categoria, eles são absolutamente necessários. Há algum tempo, um colega de produto conversou comigo e perguntei se era. essencial para encontrá-los. Existem usuários e cenários? Ele disse que havia encontrado parte dela, o que parecia razoável.
Porque as mãos de muitos usuários já estão ocupadas quando estão trabalhando. Que tal outra pessoa ficar atrás dele e servi-lo? Se ele estiver sozinho e com as mãos ocupadas, ele precisará de um dispositivo auxiliar para compensar aquela cena. Nem um telefone celular nem outros dispositivos podem resolver bem o problema. Portanto, a lógica de posicionamento do nosso equipamento de RM é que isso é urgentemente necessário e indispensável para essas pessoas. Encontramos alguns grupos de pessoas. Se o produto for rápido, deve aparecer até o final de 2025, se for lento. ele aparecerá em 2026.
A demanda por biombos surgiu e o ritmo do produto vai mudar.
P: O mercado de celulares com tela dobrável, que vem crescendo há quatro anos, estagnou ou até diminuiu. Qual é o plano da vivo para celulares com tela dobrável?
Hu Baishan: As telas dobráveis podem ter maiores esperanças de vários fabricantes no início, porque, afinal, é uma grande mudança na forma do produto. Voltando à perspectiva das necessidades do usuário, quem usa biombos?
Para pessoas como eu, que têm mais de 45 anos e cujos olhos começaram a sofrer de presbiopia, os telefones dobráveis agora resolvem o problema de muitas pessoas cujos olhos começaram a sofrer de presbiopia. Para assistir a muitas notícias ou vídeos, eles precisam de um. tela muito maior em seu celular Isso resolve o problema das necessidades dos idosos.
O segundo tipo de pessoas são como todas as pessoas da mídia aqui, que usam máquinas de dobrar e têm que processar muitas informações, inclusive eu, que tenho que processar muitos e-mails da empresa.
A máquina de barras de chocolate processa as informações primeiro verticalmente e, quando você clica nela, é necessário girá-las horizontalmente. Essa experiência não é boa e as fontes são relativamente pequenas.
Não importa a categoria, atende às necessidades de grupos segmentados. Por que digo que na hora de fabricar produtos também precisamos descobrir quais usuários têm necessidades urgentes. Quando o Folding foi lançado, um grande número de usuários teve a atitude de tentar algo novo. Eles nunca haviam usado antes, então tentaram usá-lo, mas depois de usá-lo, descobriram que não era adequado para eles.
Tenho um amigo que disse que além de ler WeChat, fazer ligações e enviar mensagens de texto, o resto do tempo em seu celular é o TikTok. O TikTok ainda está na tela vertical. tudo. Ele definitivamente não comprará uma tela dobrável para seu próximo telefone.
Depois do desenvolvimento anterior, o que resta da tela dobrável são os usuários que apenas precisam dela. Os dois tipos de usuários que acabamos de mencionar são aqueles que querem experimentar coisas novas. A capacidade de mercado do primeiro e do segundo tipos de utilizadores não é, na verdade, tão grande. Além disso, em muitos cenários, como cenários de jogos, telas dobráveis definitivamente não são boas para usar. Seu ambiente de dissipação de calor é pior do que o de uma máquina de barra de chocolate, e a experiência de controle não é tão boa quanto a de uma máquina de barra de chocolate. Portanto, os biombos se tornaram um produto para pessoas segmentadas. O tamanho total deste mercado depende do tamanho da população segmentada. No futuro, poderá estabilizar em cerca de 5 milhões de unidades.
Para nós, devemos fazer isso? Pendência. Porque existem diferentes grupos de pessoas com base nas necessidades do usuário, mas temos que controlar isso. Fizemos dois modelos ao mesmo tempo com um grande desconto na geração anterior, um com foco em imagem e desempenho e outro com foco em custo-benefício. Planejamos vender milhões de unidades, mas no final descobrimos que ainda conseguimos. Com centenas de milhares de unidades, essa escala ainda é limitada. Normalmente, iremos iterar uma vez por ano. Avançaremos nesse ritmo e melhoraremos a experiência do usuário. Afinal, sempre há alguns usuários que só precisam do Folding. Por exemplo, alguns usuários usam um telefone celular para lidar com o WeChat diário e as interações sociais. , e outro celular para ler cotações de ações.
Além disso, no que diz respeito aos pequenos produtos dobráveis, os pequenos produtos dobráveis crescerão globalmente em 2023. Em 2024, os pequenos produtos dobráveis das marcas líderes do setor cairão de 30% a 40%. .
O preço dos telefones principais continuará a subir, mas a experiência dos telefones secundários já é bastante boa.
P: O preço dos telefones principais aumentou ligeiramente este ano. O aumento de preços continuará no próximo ano? Como a vivo equilibra custo e preço?
Hu Baishan: Julgamos que o aumento de preços pode continuar. Há dois fatores no aumento de preços. O primeiro é muito claro. A principal plataforma SoC e o processo de fabricação de semicondutores serão melhorados, então o aumento contínuo de preços será certo. todos aumentam. Também estamos tentando o nosso melhor para negociar com os fabricantes de SoC e não podemos aumentar muito o preço. Por exemplo, se eles tiverem que sacrificar sua margem de lucro bruto, também sacrificaremos um pouco da margem de lucro bruto para manter o. aumento de preço. Ou se o aumento de preço for mais lento, será de 500, e aumentaremos em 300. e outros duzentos aumentarão no próximo ano.
O segundo inclui as imagens que acabamos de mencionar, como a telefoto, que está longe dos 80 pontos. Temos que continuar a investir todos os anos, embora o espaço permaneça inalterado, os métodos de implementação, como a disposição das lentes e a implementação de. módulos, mudarão grandes mudanças. Após grandes mudanças, a taxa de rendimento diminuirá e o custo de cada produto aumentará.
É uma tendência inevitável o aumento do preço dos telefones principais. Para a maioria dos usuários comuns (os telefones secundários agora estão) com melhor desempenho. Por exemplo, na plataforma N-1 (um telefone sub-carro-chefe que usa o chip carro-chefe da geração anterior), a experiência do usuário foi muito melhorada em comparação com o original. Nossas futuras imagens emblemáticas também poderão ser implantadas em produtos da plataforma N-1 para atender à questão do poder de compra do usuário.
Para ser franco, se os usuários desejam buscar a melhor experiência de usuário, a melhor experiência em imagens, IA e jogos, sinto muito, mas eles ainda terão que pagar quinhentos yuans extras. Não buscando a experiência definitiva, apenas a experiência média, OK, a plataforma N-1 também tem uma aparência muito boa, claro que não tem uma experiência tão definitiva, mas para os usuários, eles não querem jogar os jogos mais poderosos , basta jogar Genshin Impact, N-1 Não há absolutamente nenhum problema com a plataforma. Ao tirar fotos, se você não busca telefoto 20x para shows, mas sim 10x, o modelo regular de nossa série X também pode satisfazê-lo melhor.
Portanto, usuários com forte poder aquisitivo e busca final por experiência irão mais longe, mas entre nós, com certeza iremos implantar alguns produtos em faixas de preços adequadas e produtos com melhor experiência para atender às necessidades dos usuários.
# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Mais conteúdo interessante será fornecido a você o mais rápido possível.