Diga adeus ao visual falso, agora as pessoas digitais podem finalmente “pensar” e “cooperar”

O filósofo Andy Clark propôs em "The Natural Cyborg" que a relação entre humanos e tecnologia está mudando do "uso de ferramentas" para a "evolução simbiótica".

A tecnologia humana digital está a acelerar este processo: na sua ausência, os humanos digitais criados pela sua imagem e voz podem comunicar e expressar-se 24 horas por dia. Neste momento, a existência do “humano” foi redefinida.

As vozes desses âncoras são entusiasmadas e falam sobre os produtos de maneira suave e clara. Se você considerar cuidadosamente esses rostos perfeitos e expressões e tons mutáveis, pode ser difícil perceber, depois de assistir a toda a transmissão ao vivo, que não se trata de pessoas reais, mas de âncoras humanas digitais impulsionadas pela IA.

Os dados mostram que os seres humanos digitais virtuais ocuparam 22,7% do mercado de aplicações humanas digitais, ocupando o primeiro lugar na área de transmissão ao vivo de comércio eletrônico, e sua interatividade e fidelidade estão em constante melhoria.

Hoje, o Baidu também lançou uma nova geração de pessoas digitais Huiboxing na Create2025 Baidu AI Developer Conference. O fundador do Baidu, Robin Li, também propôs pela primeira vez o conceito de pessoas digitais altamente persuasivas.

As âncoras humanas digitais finalmente não são mais os “fantoches rígidos” de antes, mas abriram uma nova versão, avançando em direção ao que Robin Li disse: “Todo mundo é uma equipe de marketing”.

Âncora de IA finalmente aprendeu a “agir”

"Comparável a pessoas reais" parece algo que todas as pessoas digitais fazem – mas somente vendo realmente os casos você pode sentir o "poder de persuasão" disso.

A alta fidelidade não é surpreendente. O que é realmente surpreendente é que com tantos movimentos, expressões e respostas a diversas perguntas que precisam ser respondidas a qualquer momento, as pessoas digitais podem completá-las sem problemas e sem qualquer obstáculo – os produtos para cuidados com a pele podem ser limpos com um simples gesto e as demonstrações podem ser feitas com o toque de uma mão.

Há um design por trás dessa série de ações. Desta vez, o Huiboxing atualizou do modo script para o modo script. O roteiro detalhado não apenas orienta o que os personagens dizem, mas também projeta as cenas, emoções, tom, ações, etc. Isso faz com que o tom, a expressão e os movimentos do ser humano digital sejam altamente integrados e unificados, para que o ser humano digital possa combinar conteúdo de maneira suave e fluente e realizar ações em conjunto.

A realização do modo script é apoiada pela “capacidade de tomada de decisão” das pessoas digitais. Em outras palavras, as pessoas digitais de hoje não apenas replicam a imagem e a voz de âncoras reais, mas também possuem uma série de habilidades. Por exemplo, com base no ambiente da sala de transmissão ao vivo, você pode sentir sinais e tomar decisões e pensar, bem como implementar a próxima etapa.

Essa capacidade é a chave para pessoas digitais “altamente persuasivas”. A aplicação de humanos digitais em transmissões ao vivo não é incomum por si só. É também uma direção de aplicação comum na implementação real da IA. As âncoras digitais já apareceram nas principais plataformas de comércio eletrônico. Mas naquela época, só para fazer o pessoal digital parecer “não plástico” e “não dramático”, eu já havia tentado o meu melhor.

Hoje em dia, à medida que os aplicativos se tornam cada vez mais comuns, as pessoas digitais estão se tornando cada vez mais “volume”. A criação de humanos digitais para utilizadores com base em tecnologia multimodal normalmente requer a integração de múltiplas modalidades, tais como texto, tom, visão, movimento e até percepção de emoção, resultando em ligações técnicas complexas. Envolve fusão e colaboração intermodal, compreensão e geração de linguagem natural, captura e geração de movimento, bem como interação em tempo real e otimização de atraso.

Baseado no Wenxin 4.5 turbo, o pessoal digital da Huiboxing se livrou do constrangimento de "falso à primeira vista" no passado. As mudanças e melhorias no realismo são apenas parte disso – o que é verdadeiramente decisivo é a sua capacidade de pensar de forma independente e tomar decisões, bem como as suas capacidades de escalonamento multi-agente.

Esses recursos realmente determinam a experiência do comerciante e testam a força técnica por trás deles.

Ao abrir uma sala de transmissão ao vivo suportada pelo Huiboxing, você verá o apresentador virar a cabeça naturalmente, pegar o produto, exibir detalhes em 360 graus e até mesmo gestos e expressões são precisos. Este efeito hiper-realista é suficiente para fazer você se perguntar: “Isso é realmente IA?”

Esta é a definição de “alta persuasão” do Baidu: em termos de experiência do usuário e cenários de transmissão ao vivo, as pessoas digitais já podem alcançar expressividade comparável às pessoas reais, e até mesmo a taxa de conversão em alguns cenários pode superar as pessoas reais.

Um celular transforma você em uma “fábrica de âncoras”

A ascensão das âncoras humanas digitais decorre da demanda por modelos operacionais eficientes e de baixo custo na indústria de transmissão ao vivo do comércio eletrônico. As âncoras humanas tradicionais enfrentam altos custos de mão de obra e horas de trabalho limitadas, enquanto as âncoras humanas digitais podem alcançar transmissão ao vivo ininterrupta 24 horas por dia, o que melhora muito a eficiência operacional e alcança redução de custos e melhoria da eficiência.

A “redução de custos” mencionada aqui não significa apenas que os custos de mão de obra dos âncoras e emissoras assistentes podem ser economizados, mas também inclui uma série de custos de aprendizagem, como configuração e testes.

Por outras palavras, as plataformas e as empresas tecnológicas têm trabalhado arduamente para aperfeiçoar a tecnologia multimodal, mas os utilizadores também precisam de se esforçar para aprender e pesquisar várias operações e utilizações. Quando o processo é demasiado complicado, é bastante dissuasivo.

Desta vez, a versão móvel mais recente do Baidu está equipada com o que pode ser uma das inovações mais práticas na indústria de transmissão ao vivo: a função “iniciar transmissão com um clique” .

Contanto que você se registre com seu número de celular e carregue um vídeo de 2 minutos, qualquer pessoa pode iniciar sua própria transmissão digital ao vivo com um clique em seu celular.

No entanto, este é apenas o ponto de partida. Depois de ter a voz da imagem âncora, vem também o ambiente da sala de transmissão ao vivo, principalmente diferentes roteiros e materiais para diversos tipos de produtos… Esses são os “limiares”.

"Transmissão com um clique" é realmente um clique. Depois de encontrar o Huiboxing por meio do aplicativo Baidu, você pode ver diretamente os quatro tipos de script predefinidos. Claro, você também pode escrever o seu próprio. Esses scripts predefinidos são a melhor referência.

Imagine que um vendedor de joias use estilos diferentes para apresentar o mesmo produto em 10 salas de transmissão ao vivo ao mesmo tempo – usando um estilo científico para explicar o conhecimento sobre gemas, usando um estilo literário para contar a história por trás da marca de joias, usando um estilo de vendas para atingir diretamente os pontos fracos dos usuários e oferecer descontos de preços diretamente.

Personalizar scripts com base na personalidade da âncora e fortalecer o estilo da âncora são os pontos fortes do Huiboxing, incluindo os modelos Wenxin 4.0, Wenxin 4.5 e DS-R1. Através de explicações simples e aprofundadas, a popularização do conteúdo é melhorada, os usuários ficam mais tempo e as conversões na sala de transmissão ao vivo são prolongadas, e até mesmo os pontos quentes na Internet podem ser rastreados em tempo real, e os tópicos atuais podem ser integrados nas explicações do produto.

Para ser justo, embora as âncoras possam ser vistas em todos os lugares, a expressividade de cada âncora é diferente, o que é limitado pelo seu nível de conhecimento e nível de expressão linguística. Os humanos digitais não estão mais limitados por essas condições. Suas reservas de conhecimento podem ser ilimitadas e suas capacidades expressivas podem mudar com flexibilidade de acordo com situações específicas.

Uma situação “contra-intuitiva” é que alguns comerciantes de produtos de saúde e bem-estar preferem usar humanos digitais. Ping Xiaoli, vice-presidente do Baidu e gerente geral de comércio eletrônico do Baidu, mencionou que palavras proibidas podem aparecer porque âncoras ao vivo podem cometer lapsos de língua. Os humanos digitais podem alcançar um controle preciso sob a premissa da otimização. Algum conteúdo vertical pode ser resolvido com a introdução de uma base de conhecimento.

Configurar o ambiente correspondente, gerar scripts e ajustar com flexibilidade o método de transmissão de acordo com os produtos e cenas pode reduzir de forma verdadeira e eficaz o limite para transmissão ao vivo. Quer se trate de popularização de conhecimento, partilha de vida ou consulta emocional, pode ser perfeitamente adaptado. Cada usuário pode conseguir uma transformação deslumbrante de “vídeo” para “clone âncora”. Este é o valor e o significado mais direto e claro trazido pela inovação tecnológica.

Transmissão ao vivo, o melhor cenário para implementação de IA multimodal

O último relatório da IDC mostra que o Baidu Huiboxing ocupa o primeiro lugar em termos de força abrangente no campo do comércio eletrônico com transmissão ao vivo de pessoas digitais. Isso não é por acaso – o comércio eletrônico de streaming ao vivo é exatamente o cenário de implementação ideal para a tecnologia de IA multimodal. Aqui, as experiências visuais, auditivas e interativas estão perfeitamente integradas e as múltiplas vantagens da tecnologia de IA são totalmente utilizadas.

Para a indústria de transmissão ao vivo, que já é bastante competitiva, a tecnologia humana digital trouxe três grandes mudanças:

1. Avanço em escala

No ano passado, as âncoras digitais da Huiboxing ultrapassaram 100.000, ajudando os comerciantes a aumentar a sua taxa média de conversão em 31% e a reduzir os custos de lançamento em 80%. Se estiver no site do Baidu, com o suporte da plataforma, pode ser lançado quase sem custo.

2. Um novo modelo de colaboração homem-máquina.

As pessoas digitais não substituem simplesmente as âncoras reais, mas podem desmantelar o trabalho âncora original e integrar os processos originais. Nas transmissões ao vivo tradicionais, os operadores e âncoras precisam cooperar, assim como os assistentes de transmissão, controladores de campo, etc. Pessoas digitais equivalem a encaixar essas funções, o que não pode ser mais amigável para pequenas e microempresas.

3. Vá para amadores

Nem todo mundo é bom em falar para a câmera por três ou quatro horas. No entanto, a tecnologia das pessoas digitais ajudou mais amadores a obter os benefícios trazidos pela IA. Já não se limita nem aos “criadores de vídeo”, mas tem o seu próprio “avatar âncora”. Pessoas comuns também podem realizar sua própria vida ininterrupta 24 horas por dia e realizar suas próprias transmissões ao vivo.

Entre os muitos cenários de aplicação da tecnologia de IA multimodal, a transmissão ao vivo pode ser o campo que melhor reflete o valor comercial da tecnologia. Afinal, nenhum outro cenário pode colocar simultaneamente exigências tão elevadas em fidelidade visual, voz natural, interação em tempo real e criação de conteúdo.

Isso também reflete que o maior destaque do Baidu Huiboxing é que ele não apenas resolve o problema de “parecer um humano”, mas também permite que os humanos digitais tenham a capacidade de “pensar” e “colaborar”. Isto significa que a IA não apenas imita os humanos, mas se torna um agente inteligente que pode responder de forma independente a diversas situações em cenários de transmissão ao vivo.

Em seguida, os usuários de transmissões ao vivo estão prestes a enfrentar uma revolução interativa disruptiva. Humanos digitais com alta persuasão podem responder automaticamente, ajustar materiais de vídeo de acordo com a atmosfera da sala de transmissão ao vivo e até simular interações de aquecimento com pessoas reais. Esta experiência inteligente está remodelando as expectativas dos consumidores em relação às transmissões ao vivo.

Para os profissionais, a assistência da IA ​​permite que os profissionais se concentrem na criação de valor fundamental. Para os amadores que ainda estão esperando para ver, quando a tecnologia não estiver mais limitada a alguns âncoras de topo, mas se tornar uma ferramenta que todos possam dominar, o que o Baidu está promovendo é uma revolução democratizada na criação de conteúdo e na expressão comercial.

# Bem-vindo a seguir a conta pública oficial do WeChat do aifaner: aifaner (WeChat ID: ifanr). Conteúdo mais interessante será fornecido a você o mais rápido possível.

Ai Faner | Link original · Ver comentários · Sina Weibo