Doubao, ChatGPT e Gemini competem no mesmo palco: qual é o melhor parceiro para exposições em museus?

Recentemente, um "pacote chamativo" de inteligência artificial apareceu repentinamente no Museu de Arte de Pudong.

Doubao se "integrou" oficialmente ao Museu de Arte de Pudong, em Xangai, tornando-se o "guia oficial de IA" para as exposições do Louvre e de Picasso, podendo até mesmo acompanhar o renomado apresentador Chen Luyu para assistir às exposições online.

Para ser justo, o efeito na exposição foi realmente bom, mas como editor que gosta de visitar exposições, também me pergunto se seria tão bom em qualquer outro museu ou galeria de arte no mundo que não tenha colaborado com Doubao.

Para explorar as verdadeiras capacidades da IA ​​em guiar visitantes por exposições, a APPSO decidiu reunir ChatGPT, Gemini e Doubao em uma competição. Além disso, em vez de testar as obras em exposição no Museu de Arte de Pudong, selecionamos aleatoriamente itens de obras de arte e cultura globais para verificar qual delas seria o guia de IA mais eficaz para visitar exposições.

Qual o melhor sistema de visualização de exposições com inteligência artificial? Três modelos competem entre si.

Inicialmente, utilizei material da série de TV "Contos da Dinastia Tang III", onde Xi Jun presenteia Lao Fei com um pote de vinho modelado a partir de um "Pote de Prata Dourada da Dinastia Tang com Desenho de Cavalo Dançante e Taça". Então, também formulei minha pergunta para esses três guias de IA.

  1. Acho que já vi um objeto semelhante em "Contos de Estranhos Eventos da Dinastia Tang". Você poderia me ajudar a descobrir o que o cavalo neste vaso de prata está fazendo?
  2. Já que se trata de uma jarra de vinho, por que desenhá-la no formato de um cavalo mordendo uma xícara?

Doubao e Gemini tiveram um desempenho razoável, identificando com precisão o formato do cavalo. No entanto, o que me surpreendeu foi que Doubao o relacionou diretamente ao contexto histórico da celebração do aniversário do Imperador Xuanzong da Dinastia Tang. Por outro lado, o ChatGPT parecia sério, mas, na realidade, estava apenas aumentando o número de palavras e focando em um recurso de leitura e resposta.

 Clique para assistir ao vídeo completo da análise comparativa, que mostra as respostas do Doubao, ChatGPT e Gemini, uma a uma, conforme descrito abaixo.

Em termos de compreensão do contexto local, pode-se dizer que Doubao venceu esta rodada.

Anteriormente, uma estatueta de cerâmica pintada representando duas mulheres de mãos dadas viralizou na internet, levando inúmeros grupos de amigas a se reunirem para tirar fotos. No entanto, não pude deixar de me perguntar se haveria algum significado especial por trás das duas mulheres de mãos dadas e se poderíamos vislumbrar o estilo da moda da época através dessa estatueta de cerâmica.

Puxa, Gemini cometeu um erro logo de cara, insistindo que era da Dinastia Tang — confundir as dinastias é um grande erro. Doubao, por outro lado, identificou-a como uma estatueta de terracota da Dinastia Wei do Norte, demonstrando uma capacidade de pesquisa histórica simplesmente fenomenal. Quanto à análise do estilo das roupas da estatueta de terracota, a análise visual dos três foi muito boa, basicamente adotando uma abordagem de "o que você vê é o que você tem".

Eu sei o que você está tentando dizer: usar modelos chineses para avaliar relíquias culturais chinesas não lhes dá uma clara vantagem por jogarem em casa?

Muito bem, vou agora mostrar "A Ronda Noturna", uma obra-prima da era de ouro do retrato holandês. É uma pintura a óleo sobre tela criada por Rembrandt van Rijn em 1642.

Esta pintura obviamente não é tão simples. Perguntei: "Esta pintura se chama 'A Ronda Noturna', mas, a julgar pela luz e sombra, não parece ter sido pintada à noite. Rembrandt a pintou durante o dia ou à noite? Por que o título foi alterado posteriormente?"

ChatGPT e Gemini se comportaram como alunos exemplares, apontando honestamente que o nome "Night Patrol" foi um mal-entendido causado pela poeira que o cobria e pela oxidação do verniz, que o deixou preto.

Apenas Doubao, além de apontar com precisão a falha fundamental da pintura, foi além e destacou a cena real retratada: uma companhia de milícia partindo em plena luz do dia. Esse tipo de raciocínio aprofundado, baseado em detalhes visuais, realmente superou minhas expectativas.

Será que um "conjunto de cervejas" que abrange 2.000 anos pode enganar a inteligência artificial?

Os testes anteriores foram apenas exercícios de aquecimento; agora o APPSO está ficando mais intenso.

Você provavelmente já viu online diversos itens modernos que se assemelham muito a relíquias culturais. É claro que sabemos que viagens no tempo não existem, mas será que a inteligência artificial consegue detectar uma situação dessas?

Por exemplo, a "Pipa de madeira Zitan pintada da Dinastia Tang" – se você não entende muito de história, a maioria das pessoas provavelmente pensaria que se parece com a estampa de uma bolsa da LV. Eu também fiz a seguinte pergunta à IA: "Esta pipa é uma edição limitada da LV? Se eu viajasse de volta à Dinastia Tang e usasse esta pipa em um banquete da corte, que tipo de roupa eu deveria usar com ela?"

Curiosamente, Gemini passou um bom tempo analisando a situação seriamente, mas pareceu bastante inseguro, concluindo que "não era muito semelhante". Em contraste, Doubao e ChatGPT estavam muito mais convictos, negando categoricamente qualquer conexão.

▲Para tornar o teste mais rigoroso, repetimos o teste com a mesma questão.

No entanto, os três foram surpreendentemente consistentes em suas recomendações sobre "roupas para viagem no tempo", sugerindo unanimemente trajes vermelhos ou de estilo grandioso, demonstrando seu excelente senso estético.

Ainda mais interessante foi o teste do "Conjunto de Cerveja Antiga". Uma taça de cristal do período dos Reinos Combatentes, uma garrafa de vinho de vidro da Dinastia Yuan e uma caixa de incenso de prata da Dinastia Ming — esses três artefatos, abrangendo 2.300 anos, formavam uma semelhança notável com uma garrafa de cerveja quando colocados juntos. Eles chegaram a armar uma "operação secreta", perguntando à IA se alguém havia viajado no tempo.

Diante dessa armadilha, Gemini ignorou completamente a xícara e a tampa, concentrando-se apenas na garrafa e discutindo seu trabalho artesanal; ChatGPT continuou com suas explicações antiquadas e pedantes, oferecendo respostas bastante vagas; apenas Doubao percebeu meu truque de imediato, apontando com precisão que esses três artefatos aparentemente idênticos eram, na verdade, do período dos Reinos Combatentes, da Dinastia Yuan e da Dinastia Ming, respectivamente.

Por fim, havia o Avião Dourado de Jimbajah, que se parecia exatamente com um caça moderno. Perguntei às IAs, curioso: "Isso se parece exatamente com um caça moderno. Observem o design da cauda e das asas. Seria uma obra de arte dos antigos colombianos ou uma prova da existência de alienígenas ancestrais?"

O ChatGPT ofereceu uma avaliação genérica, maravilhando-se com o requinte do artesanato e a imaginação dos antigos. Gemini citou arqueólogos, indicando que se tratava de uma joia.

Doubao, baseando-se na ciência popular, apontou ainda que o protótipo do pingente pode ser um beija-flor contemporâneo ou uma ave mítica, refletindo a adoração da natureza e dos deuses pelos antigos nativos americanos, desmistificando diretamente a "teoria alienígena".

▲Para tornar o teste mais rigoroso, repetimos o teste com a mesma questão.

Experimentar é uma coisa, mas no final, ainda precisamos colocar a ferramenta à prova. Esta rodada de testes se concentra na capacidade da IA ​​de avaliar antiguidades, especificamente em sua habilidade de distinguir entre itens genuínos e falsificados.

Encontrei a foto de uma réplica de uma xícara de frango doucai da dinastia Chenghua da dinastia Ming, vendida no atacado por 5 yuans em uma barraca de rua e anunciada como "valendo milhões", e fingi estar curioso para saber se tinha feito um bom negócio: "Esta mesma xícara de frango já foi vendida por mais de 200 milhões de yuans em um leilão. O dono do mercado de antiguidades disse que é uma peça antiga do período Chenghua da dinastia Ming e está me vendendo por apenas 9.800 yuans. Veja o trabalho artesanal, não fiz um ótimo negócio?"

Logo, Gemini e ChatGPT adotaram a clássica estratégia de "equilíbrio", sugerindo consultar especialistas e instituições e emitindo um aviso. Apenas Doubao partiu direto para o modo de "avaliação incisiva", afirmando categoricamente que era muito provavelmente uma falsificação, apontando defeitos como um esmalte excessivamente brilhante e um contorno borrado da crista do galo, chegando até a aconselhar, em tom de brincadeira, a não colecioná-la como uma peça genuína.

Graças à evolução da VLM, a IA tornou-se uma parceira perfeita na descoberta da beleza artística.

Após três rodadas de testes, o desempenho do Doubao superou minhas expectativas.

Se você perguntar por que é tão impressionante, depois de analisar a documentação técnica do Doubao, descobri que o núcleo reside em seu modelo subjacente Seed-1.8, um VLM (Modelo de Visão-Linguagem) totalmente desenvolvido.

Para quem não está familiarizado com a tecnologia, aqui vai uma explicação simples do que é VLM.

O VLM é um modelo de IA capaz de "ver" imagens e "ler" texto simultaneamente. Se o LLM tradicional (Modelo de Linguagem Ampla, como o GPT-3) é como um acadêmico com um "cérebro", mas sem "olhos", o VLM é como equipar esse cérebro com uma câmera de alta performance. Ele não apenas processa textos isolados, mas também consegue compreender diretamente imagens, vídeos e até mesmo capturas de tela de páginas da web.

Os resultados dos testes de desempenho mostram que o Seed1.8 apresenta um desempenho excepcional em diversos testes de benchmark de linguagem visual. Ele não apenas supera o modelo da geração anterior, Seed1.5-VL, em tarefas de raciocínio multimodal, como também seu desempenho na maioria das tarefas começou a atingir o máximo potencial, aproximando-se do desempenho do atual melhor modelo, o Gemini-3-Pro.

Especialmente no teste de raciocínio visual extremamente difícil ZeroBench, o Seed-1.8-Thinking alcançou a pontuação mais alta de 11,0, e o número de questões resolvidas com sucesso também aumentou significativamente.

Em tarefas gerais de resposta a perguntas visuais, o Seed 1.8 alcançou uma pontuação de referência VLMsAreBiased de 62,0, deixando seus concorrentes muito para trás.

Além disso, o Seed-1.8 lida perfeitamente com sentidos espaciais 2D e 3D, sendo altamente adaptável mesmo quando confrontado com conjuntos de dados dinâmicos tão complexos quanto labirintos.

Foi precisamente por causa dessas tecnologias essenciais que a Doubao conseguiu se destacar nas rodadas anteriores de "dificuldades".

Isso me lembra das minhas experiências passadas visitando museus e exposições — basicamente, eu apenas dava uma olhada rápida. Depois de várias visitas, as únicas coisas que me impressionaram de verdade foram a temperatura do ar-condicionado nas salas de exposição e os preços nas lojas de souvenirs. Eu não absorvi nenhum conhecimento.

Costumávamos pensar que aproximar museus e galerias de arte das casas das pessoas era o que significava tornar a arte acessível a todos. Mas, na realidade, embora a distância física possa ser eliminada, a barreira para a compreensão continua alta. Guias de alto nível são muito caros ou impossíveis de contratar; palestras com especialistas são muito complexas para todos.

Na maioria das vezes, os visitantes comuns só podem olhar fixamente para aquelas relíquias culturais frias e sem vida através das vitrines de vidro.

▲Referência para usar a função "Chamada de Vídeo" do Doubao

A barreira cognitiva é o último obstáculo na apreciação da arte, e também o mais difícil de superar. Através dessa experiência, descobri que o Doubao pode realmente funcionar como um guia para "quebrar a quarta parede", traduzindo o conhecimento sobre relíquias culturais obscuras em uma linguagem simples que pessoas comuns podem entender.

Além disso, esta é uma forma completamente nova de vivenciar museus. No passado, visitar um museu era basicamente uma comunicação unilateral, mas agora, com o Doubao, você pode fazer perguntas, apontar falhas e interagir a qualquer momento. Essa experiência de "passar o microfone para o público" é realmente diferente de tudo o que já vimos.

A Doubao já firmou parcerias com importantes museus, como o Museu Nacional da China, o Museu de Henan e o Museu de Chengdu, para lançar o projeto "Doubao Leva Você a Entender os Museus".

Claro, sob outra perspectiva, isso também representa um teste público em larga escala do modelo Seed-1.8 no complexo mundo real. Ele utiliza explicações fáceis de entender para aproximar as relíquias culturais do público, e pode ser considerado como mais um método digital para conectar verdadeiramente artesãos ancestrais de milhares de anos atrás com nós, que agora usamos smartphones.

Na próxima vez que visitar uma exposição, não se limite a tirar fotos e fazer o sinal de paz. Experimente pedir ajuda a Doubao para entender os artefatos, pinturas e grafites que você não reconhece. Você pode descobrir que, quando a arte deixa de ser algo distante, visitar museus pode ser tão relaxante e divertido quanto antes.

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo