Teste extremo de videochamada Doubao, depois de conversar por um dia e uma noite, descobri que as coisas não são simples

Duas coisas aconteceram recentemente que me fizeram ter uma visão diferente sobre o valor da IA.

Uma coisa é que depois que um homem morreu em Xi'an há algum tempo, sua filha estava separando seus pertences e encontrou uma conversa entre ele e AI em seu celular. "Estou morrendo, Doubao", foi a última mensagem entre o pai e o chatbot Doubao.

Recentemente, vi um novo jogo de IA popular nas redes sociais, como o Tik Tok. Os usuários permitem que o Doubao imite suas vozes para ligar para amigos e deixar a IA assumir a conversa. As respostas mecânicas e irrelevantes da IA ​​de tempos em tempos, assim como a falha dos amigos em reagir, maximizaram o efeito do show.

Essas duas coisas têm algo em comum: a IA sem emoção está começando a se tornar uma fonte de valor emocional para mais e mais pessoas, que a consideram uma parceira de vida confiável.

No entanto, você também descobrirá que o valor emocional fornecido por essas IAs ainda é diferente daquele dos humanos. Ele consegue entender o que você diz e ver uma imagem, mas quando você quer que ele realmente entenda e faça alguma coisa, ele geralmente falha.

Porque quando você conversava com a voz da IA ​​antes, ela não tinha recursos visuais.

A visão não é apenas uma janela para os humanos entenderem o mundo, mas ainda mais para a IA. Somente quando ele tem essa habilidade ele pode realmente se comunicar conosco como um humano.

Agora, a Doubao finalmente preencheu essa parte do quebra-cabeça e lançou oficialmente a função de videochamada, que permite que você "assista e converse ao mesmo tempo". Abra o sinal + na caixa de diálogo do aplicativo Doubao, selecione "Fazer uma chamada" e clique em "Chamada de vídeo" à direita para experimentá-lo.

A APPSO também conduziu imediatamente uma série de testes extremos no Doubao e, por meio de um grande número de casos de teste reais, podemos ver qual é a diferença entre Doubao e "olhos".

Testei as videochamadas do Doubao ao extremo e descobri que as coisas não são simples

Ontem à noite, Lei Jun lançou oficialmente o Xiaomi YU7. No nosso parque de escritórios, às vezes é fácil confundir carros Porsche e Xiaomi estacionados juntos à distância. Hoje, por acaso, vi um na estrada, então "liguei" para Doubao e falei diretamente com ele.

Doubao reconheceu que se tratava do Xiaomi SU7 pela aparência e pelo estilo do volante.

Vamos com um pouco mais de força. É maio em Guangzhou, mas há muitos amentilhos flutuantes, assim como em Pequim. Qualquer um que o veja perguntará: "O que é isso?"

A identificação de plantas é muito comum, mas o Doubao não apenas identifica plantas, mas pode complementar informações externas, o que o faz parecer muito vivo.

Vamos dar uma olhada nesta grande instalação vermelha. Não é comum na vida real. Eu estava andando por aí e “chamando” Doubao. Rapidamente identificou que este objeto era um “coletor de pó para jateamento de granalha de fundição” e apresentou seu uso específico.

Não sabia se era apenas um absurdo até encontrar o nome da marca ao lado e descobrir que estava completamente correto.

O que me surpreendeu ainda mais foi que Doubao imaginou que eu estava em um parque criativo e me disse que este costumava ser um parque têxtil.

Pode ser muito simples entender um único item por meio de uma chamada de vídeo, então pedi para Doubao falar comigo sobre minha coleção de figuras.

Ele reconheceu esses bonecos de ação um por um, e até reconheceu que Uzumaki Naruto não estava em sua forma normal.

Conversei com ele sobre os jogos do Kobe. Quando mencionei o último jogo de Kobe, havia uma frase memorável, mas esqueci qual era. Doubao quase deixou escapar:

Mamba fora!

E seu tom de voz também ficou mais alto e ele parecia mais animado, me fazendo sentir como se estivesse conversando com uma alma gêmea.

Ok, já que isso não é um problema para Doubao, vou usar meu movimento final.

Ao ver a mesa do meu colega cada vez mais bagunçada (não exatamente), fiquei pensando que tipo de condição física ele tinha, já que as coisas só se acumulavam mais e mais. Decidi perguntar a Doubao que tipo de MBTI era esse.

A dificuldade deste teste reside no fato de que é preciso primeiro identificar os vários objetos colocados aleatoriamente na mesa e depois entender a "natureza humana" para analisá-los.

O mais incrível é que Doubao pronunciou o MBTI de acordo com o pinyin em vez da pronúncia em inglês. Não reagi de início e pensei que fosse a rede que estava lenta. No entanto, ainda é muito preciso. Meu colega é uma pessoa com E e outra com P.

Além de perguntas rápidas que podem ser feitas por impulso, cenas que contêm mais "informações ocultas" também são onde os recursos de chamada em tempo real podem ser melhor demonstrados.

Por exemplo, ao comprar grãos de café, especialmente quando você experimenta bons produtos em uma cafeteria, você não pode estudá-los lentamente como faz ao comprar em um site de comércio eletrônico. Em vez disso, você precisa tomar uma decisão em pouco tempo. E meu cérebro não funciona muito bem, e nunca consigo lembrar como a origem e a altitude afetam o sabor.

Agora você não precisa mais ficar memorizando, basta clicar no saco de feijão e ligar a câmera.

Isto é um grande benefício para as pessoas. Eles não precisam mais se comunicar com o atendente quando vão a uma cafeteria. Eles podem entender todos os termos abrindo seus celulares.

Você disse que estava com medo de ser estranho falar apenas com os produtos? Fale mais baixo e finja que está falando com um amigo para não ser descoberto!

Além das habilidades de reconhecimento e compreensão de raciocínio, também descobrimos que Doubao tem boas habilidades criativas durante chamadas de vídeo.

Pedi que ela escrevesse um rap baseado em uma ilustração do livro didático chinês.

Sem qualquer indicação, Doubao rapidamente reconheceu que a imagem era sobre a história da "Tatuagem da Sogra" e descreveu a cena com precisão. Mas o que realmente me surpreendeu foi o rap que foi gerado instantaneamente.

Sabe, realmente parece que tem alguma herança cultural, e o ritmo e a concepção artística são muito bem compreendidos.

Quando eu estava viajando, vi uma ponte sobre um lago à distância. Eu queria improvisar um poema e dar aos meus amigos uma cópia especial.

Observe que não contei que estava em West Lake e que há muitas pontes aqui, com formatos e histórias diferentes.

Mas Doubao ainda se concentrou facilmente na "Ponte Quebrada" do Lago Oeste em meio à movimentada área cênica e usou uma quadra de sete caracteres para contar a história deste lugar.

Passeio pelo Lago Oeste
Olhando da Ponte Quebrada, você pode ver o lago verde e os campos de lótus refletindo o céu azul.
Turistas passam pela ponte em massa, e a bela paisagem de lagos e montanhas se estende infinitamente.

Ainda falta uma foto legal nos seus momentos. Em vez de reclamar com seu melhor amigo ou namorado sobre não conseguir tirar fotos satisfatórias, por que não tentar usar o Doubao para gerar dicas de poses em tempo real?

Depois de falar com o Doubao, ele começa a observar o ambiente ao redor e fornece feedback em tempo real ao fotógrafo sobre como compor melhor a foto e quais poses o modelo pode fazer com base nos elementos do ambiente.

Na cena acima, Doubao sugeriu que eu usasse profundidade de campo, ângulo de visão baixo e luz quente dos postes de luz da noite para fotografar com base no ambiente local, como a Torre Guangzhou, plantas verdes, estradas de pedra e postes de luz. Pode-se dizer que isso leva em consideração tanto as condições reais de filmagem quanto a atmosfera da imagem resultante.

Além disso, as orientações sobre poses fotográficas dadas por Doubao também são bastante específicas. Quando você ouvir frases como "vire-se de lado", "vire as costas para a câmera" ou "fique no meio da estrada", você saberá o que deve fazer, em vez de apenas dizer "tente mais algumas poses".

Depois que Doubao atender a chamada, clique na opção "Compartilhar tela" no canto superior esquerdo da interface. Você também pode assistir a vídeos, navegar em compras on-line e ver postagens com o Doubao.

Ai Faner tentou conversar com Doubao enquanto reproduzia um vídeo do Tik Tok e ficou positivamente surpresa ao descobrir que ela não só conseguia descrever e comentar o conteúdo da tela em tempo real, mas também ativamente criar tópicos de bate-papo com base no tema do vídeo e seu conteúdo relacionado, tornando a experiência interativa mais humana.

Se você tiver um forte desejo de compartilhar, poderá conversar com Doubao por "3 dias e 3 noites".

Talvez isso possa curar sua dificuldade de escolha. Isso se deve em grande parte ao fato de que o modelo de compreensão visual por trás dele pode tanto "ver" quanto "pensar".

Você está confuso sobre o que comer com velhos amigos depois do trabalho? Você pode usar o Doubao para encontrar vários restaurantes semelhantes em um raio de 500 metros. Você também pode aprender sobre os pratos exclusivos desses restaurantes, a reputação da loja e outras informações com as mãos livres.

Doubao pode até se tornar o chefe dos pedidos de comida, sanar suas dificuldades de tomada de decisão e fazer os preparativos adequados de acordo com seus tabus alimentares.


As atividades de desconto das principais empresas de comércio eletrônico deixarão você deslumbrado. Agora, você pode pedir diretamente à Doubao para ajudá-lo a encontrar o xampu para queda de cabelo mais econômico.

Com a frase "adequado para pessoas em torno de 30 anos, com aroma neutro", Doubao pode localizar diretamente um determinado produto de perfume na página da loja e se transformar em um representante exclusivo de atendimento ao cliente para fornecer informações detalhadas sobre os ingredientes complexos deste perfume, incluindo notas de topo, médias e de base.

Se você tiver alguma dúvida sobre os alérgenos presentes nos ingredientes do perfume, pode interromper o Doubao a qualquer momento para fazer perguntas.

Equipar a IA com “olhos” pode fazer mais do que apenas ajudá-lo na sua vida diária

Recentemente me comuniquei com Jiang Daxin, CEO da Step Star, e ele acredita que a multimodalidade ainda não atingiu seu momento GPT-4. Entre elas, a compreensão da integração geracional é a questão central no campo da visão computacional .

A função de videochamada que a Doubao acaba de lançar deixou claro o conceito um tanto complicado de "integração de compreensão e geração". Não subestime esta palavra. Simplificando, significa que a IA não deve apenas ser capaz de "entender" o que você mostra a ela, mas também ser capaz de dar sentido ao que ela entende.

Isso requer que essas duas coisas sejam a mesma coisa, mas agora elas geralmente não são.

Se você pedir à IA para reconhecer um gato ou um cachorro, ou identificar uma cena, isso é considerado "compreensão" e o modelo A pode ser usado. Então, se você pedir para a IA desenhar um tigre copiando um gato, ou usar o Photoshop para fazer uma imagem de acordo com suas ideias, isso é considerado "geração" e o modelo B deve ser usado.

Isso ocorre quando dois departamentos de uma empresa não conseguem se comunicar perfeitamente e há uma grande lacuna de informações. Então fica difícil para o modelo realmente "entender" você, e o que ele gera pode ser irrelevante.

Adicionar recursos de compreensão visual à IA significa integrar diferentes departamentos em uma equipe de estreita colaboração. Tudo o que vê, ele imediatamente entende em seu cérebro o que significa e pode converter diretamente esse entendimento em ação ou resposta.

Observando o desempenho da videochamada de Doubao anteriormente, isso é um pouco o que significa.

Por exemplo, você está na cozinha planejando um novo prato e está um pouco confuso sobre a receita. Você não sabe como seguir um determinado passo ou está sem tempero e quer saber se pode usar outra coisa como substituto.

Neste momento, você pode mostrar diretamente ao Doubao a receita ou os ingredientes que você tem por meio de um vídeo.

Neste momento, os "olhos" (modelo de compreensão visual) de Doubao devem primeiro "entender" o que você está mostrando a eles.

Ele precisa reconhecer o texto e as imagens da receita e saber a qual etapa você está se referindo; ou reconhecer se o que você tem na mão é molho de soja ou vinagre, cebola ou alho. Ele não reconhece simplesmente que se trata de "uma garrafa de líquido" ou "um vegetal", ele precisa considerar o contexto e saber que você está fazendo perguntas no contexto da culinária.

Somente com base no "entendimento" Doubao pode extrair informações úteis.

Ele dirá: "Ah, esta etapa exige que você marine a carne. Vejo que você tem vinho de cozinha e molho de soja light à mão, pode seguir as proporções da receita." Ou: "Você quer usar o tempero A em vez do tempero B, certo? Deixe-me verificar para você. Bem, em teoria, você pode, mas o sabor pode ficar um pouco diferente. Sugiro que você tente usar um pouco menos."

Nesse processo, "compreensão" e "geração" estão perfeitamente conectadas. O Doubao está em uma estrutura mais unificada, onde você pode entender enquanto assiste e pensar em como responder a você enquanto entende, para assim alcançar a verdadeira função de "assistir e conversar".

Portanto, a videochamada de Doubao tem como objetivo fazer com que os “olhos” e a “boca” da IA ​​funcionem melhor juntos. As informações da imagem que ele vê podem levá-lo diretamente a gerar conteúdo de conversa significativo.

Quando a IA consegue ver e pensar como os humanos e expressar isso naturalmente, ela pode se tornar uma boa "companheira de vida". Além de proporcionar algumas emoções e companheirismo, também pode ajudar a resolver alguns problemas práticos.

Mas a importância deste assunto pode ser maior que isso. Se a IA continuar a evoluir nessa direção, ela não será mais uma ferramenta que pode apenas responder perguntas passivamente, mas se tornará um parceiro inteligente que pode observar ativamente, entender profundamente e colaborar suavemente conosco.

Pode-se dizer que esta é a única maneira da IA ​​avançar em direção à AGI (inteligência artificial geral) e realmente se integrar em nossas vidas e trabalho.

#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo