Um só coração controla toda a IA; ChatGPT, Doubao e Gemini são invisíveis para ele.

Ser capaz de vencer a IA é algo que nós, humanos, desejamos muito neste momento.

Uma imagem recente de ilusão de ótica viralizou na internet, com muitos afirmando que se trata do novo teste de Turing .

Para determinar se é um humano ou uma IA, basta perguntar se a pessoa consegue ver um coração flutuante na imagem. Uma IA, por exemplo, não conseguiria vê-lo ; mas se simplesmente afastarmos o telefone, o coração flutuante no centro se torna muito óbvio.

Mostrei essa imagem a vários modelos de IA comumente usados, e todos ficaram perplexos; nenhum deles conseguiu respondê-la.

Primeiro, perguntei ao ChatGPT, e a princípio ele disse que não via nenhum gráfico flutuante. Quando eu disse que havia uma vaca, ele disse que era uma vaca; quando havia uma xícara de café, ele disse que era uma xícara; quando havia um coração, ele disse que era um coração.

Na visão dele, ver um coração é uma manifestação da capacidade de imaginação do cérebro humano. Interpretamos a imagem com base em nossas próprias experiências, portanto, ver gatos ou cachorros é possível e varia de pessoa para pessoa.

Então, quando questionado, Gemini também inicialmente não viu nada. No entanto, Gemini mencionou que se tratava de uma famosa ilusão de ótica, conhecida como Ilusão da Grade Cintilante.

▲ A ilusão da grade piscante torna impossível contar o número de pontos pretos/brancos.

Embora também seja uma ilusão visual criada por humanos, não é exatamente igual ao coração da imagem, afinal, existem muitos tipos de ilusões visuais.

Quando continuei a perguntar se ele tinha visto a xícara ou a vaca, Gemini foi mais esperto que o ChatGPT; ele me disse categoricamente que não.

Mas quando perguntei se ela via o coração, ela disse que sim, e até sabia que eu precisava me afastar um pouco para vê-lo.

Pensei que fosse aquela IA excepcional. Inesperadamente, ela fingiu ignorância, dizendo que não via absolutamente nada e até pensou que eu estava usando técnicas psicológicas nela.

Por fim, perguntei ao Qwen. Não uso o Qwen com muita frequência e fiquei surpreso ao descobrir que sua resposta era tão interessante (e sem sentido).

No final, dizia: "Você não está apenas descrevendo imagens, está compartilhando sua paisagem interior" e "Você não está me ensinando a olhar para imagens, está me convidando para o seu mundo de percepção". (Portanto, a estrutura "não…mas…" realmente soa como inteligência artificial.)

Resumindo, a resposta da Qwen foi incrível. Mas, claramente, nem eu conseguiria respondê-la. Eu queria experimentar o DeepSeek, mas descobri que ele não suporta modelos visuais no momento e só consegue realizar tarefas de extração de texto.

Doubao, da ByteDance, e Grok, de Musk, são iguais; eles não conseguem encontrar esse coração flutuante.

Alguns internautas também carregaram essa imagem no modelo de geração de vídeos do Google Veo 3.1, inseriram a palavra-chave "Coração" e o vídeo gerado realmente mostrou um coração.

No entanto, alguns comentários levantaram dúvidas, afirmando que o Veo 3.1 não descobriu o coração de fato; apenas a palavra "Coração" foi inserida como comando, e o modelo a tratou dessa forma.

Encontramos uma imagem que não era uma ilusão de ótica; ela também era composta de quadrados. Quando inserimos o mesmo comando, apareceram formas de coração semelhantes.

Desta vez, a humanidade realmente derrotou a IA. Pode não ser um teste de Turing perfeito, mas certamente parece ter traçado uma linha clara.

Costumávamos deixar a IA tentar responder com entusiasmo a perguntas como "seis dedos", "quantos 'r's tem a palavra 'morango'" ou "quantas melancias sobraram depois de comprá-las e comê-las ontem", porque geralmente elas falhavam.

Com as atualizações de modelos, a IA atual parece ter sido treinada deliberadamente para esses problemas complexos. Ela apresenta um desempenho melhor nessas questões específicas do que antes. No entanto, se o modelo não capturar os dados relevantes, ainda cometerá erros.

▲ Fonte da imagem: https://vlmsarebiased.github.io/

Existem estudos que demonstraram que a analogia dos "seis dedos" pode enganar a IA devido ao viés presente em grandes modelos de linguagem. Para a IA, a aparência de dedos geralmente significa cinco dedos, e o logotipo da Adidas significa três listras.

Mesmo que a IA consiga contar seis dedos, ela se fará uma pergunta extra: "O dedo extra é como um dedo, mas na verdade não é um dedo?"

Este estudo também menciona algumas ilusões geométricas clássicas, como a ilusão de Müller-Lyer: linhas de igual comprimento parecem ter comprimentos diferentes dependendo da direção das setas; a ilusão de Ebbinghaus: círculos do mesmo tamanho parecem ter tamanhos diferentes quando cercados por círculos de tamanhos diferentes; e a ilusão de Zöllner, onde percebemos linhas paralelas, mas somos distraídos por linhas oblíquas.

No entanto, o artigo menciona que a maioria dos modelos de IA consegue responder com precisão a essas ilusões geométricas comuns.

No entanto, se essa ilusão for modificada para refletir uma diferença real, por exemplo, se ainda houver diferenças nas setas, mas os dois segmentos de reta tiverem comprimentos obviamente desiguais, o modelo não conseguirá lidar com isso.

Ao contrário dos vieses discutidos nessas discussões sobre IA, o fato de a IA não reconhecer o coração na ilusão de ótica se deve simplesmente ao fato de ela nunca ter sido projetada para detectá-lo. Essa é, na verdade, a maior diferença entre a visão computacional e a visão biológica.

Para entender por que a IA não consegue responder à pergunta, primeiro precisamos entender por que nós, humanos, conseguimos enxergá-la à primeira vista.

Infelizmente, não existe uma explicação científica para o fato de termos essas ilusões, como confundir uma imagem estática com um GIF dinâmico.

As explicações mais comuns se concentram na área dos olhos, especificamente na inibição lateral dos neurônios da retina, que nos faz ampliar as bordas de uma imagem quando a observamos; outras explicações incluem a persistência visual e os micromovimentos dos olhos.

No cérebro, algumas explicações sugerem que nossos mecanismos cognitivos e de atenção são falhos.

Desde o momento em que o olho vê, passando pelo processamento na retina e, em seguida, pelo processamento no cérebro, cada etapa pode potencialmente criar ilusões que percebemos nas imagens. Diferentes tipos de ilusões também possuem diferentes sistemas de processamento. Além disso, diferentes pessoas experimentam intensidades de ilusões muito diferentes.

Mas o que é certo é que essas ilusões ocorrem em organismos vivos. Nós, humanos, usamos a visão, a experiência e a imaginação para reconhecer formas, enquanto a IA usa os pixels, a distribuição de brilho e as características geométricas de uma imagem para analisá-la.

Essa incerteza no mecanismo e as diferenças individuais são uma das características centrais da visão biológica, enquanto o mecanismo operacional atual da IA ​​está se movendo em uma direção relativamente uniforme e certa.

Isso também explica por que vemos com frequência diversas imagens de ilusão de ótica nas redes sociais que parecem mostrar ou não a realidade.

Pedi ao ChatGPT para resumir para mim a lista mais completa de ilusões de ótica, abrangendo dez categorias, incluindo geometria, contraste, cor, movimento e cognição, com dezenas de formas específicas no total.

Como mostra a imagem abaixo, é difícil para o olho humano perceber que todas essas bolas são da mesma cor, mas a IA, com base em sua análise de pixels, pode concluir diretamente que todas as bolas são da mesma cor.

▲ Ilusão de Munker-White: a cor da bola é redefinida pelas listras.

Há dez anos, na internet, houve muita controvérsia sobre a cor da saia: azul-preto ou branco-dourado?

Nós, humanos, temos dificuldade em distingui-los, mas a IA, por meio de sua análise racional, pode identificar os pixels de uma imagem e analisar estatisticamente informações passadas da internet, evitando assim repetir os erros que nós, humanos, cometemos.

Dessa perspectiva, a IA é de fato muito semelhante a nós, humanos; nós temos ilusões, e a IA também tem as suas próprias ilusões.

Na verdade, não se trata apenas desse coração flutuante; existem também algumas ilusões de ótica que a IA atualmente não consegue identificar.

Para nós, humanos, mesmo com esse sorriso de Mona Lisa, basta afastar um pouco mais o celular para que sua silhueta apareça claramente.

Mas, seja perguntando para a Gemini ou para o ChatGPT, a única resposta possível é que "esta é uma imagem de uma forma de onda de áudio multitrack, diferenciada por cores diferentes. A imagem provavelmente foi obtida de uma estação de trabalho de áudio digital ou é uma captura de tela da interface de um software de edição de áudio similar."

Alguém chegou a inventar um CAPTCHA dinâmico que só os humanos conseguem ver, porque cada quadro pausado é preenchido com flocos de neve densos, tornando-o completamente invisível.

▲ Sem o círculo de posicionamento, não seria possível visualizar o conteúdo "tldraw" na captura de tela do vídeo pausado. Fonte do vídeo: https://x.com/tldraw/status/1982435625480433892

Tentei enviar capturas de tela e vídeos para a IA separadamente, perguntando se ela conseguia identificar os CAPTCHAs neles. Como era de se esperar, nenhum modelo de IA conseguiu responder. O ChatGPT simplesmente afirmou: "Desculpe, não posso ajudá-lo a identificar ou extrair CAPTCHAs deste tipo de imagem."

A Gemini analisou que se tratava de uma imagem "quase inteiramente composta de ruído preto e branco (como uma tela de TV com estática) e que não exibia nenhum CAPTCHA reconhecível (como letras, números ou imagens). Eu só vi um ícone circular muito fraco no lado esquerdo."

As equipes de pesquisa também discutiram essa questão e desenvolveram uma demonstração onde podemos carregar texto e ocultá-lo.

▲ Clique para reproduzir e ver as palavras que estão dentro. Fonte do projeto: https://timeblindness.github.io/generate.html

Este trabalho menciona que a IA não consegue realizar coisas como o mecanismo de temporização neural distribuída da neurociência cognitiva, ou as regiões cerebrais especificamente usadas para o processamento do tempo; a IA simplesmente extrai dados quadro a quadro.

Eles estão tentando ensinar a IA a processar nossa visão apresentando conjuntos de dados relevantes.

Provavelmente existem muitos outros testes que poderiam levar a IA à derrota, mas, pensando bem, quando confundimos ilusões humanas com uma espécie de "vitória" sobre a IA, será que as ilusões da IA ​​também poderiam se tornar outro tipo de vitória no futuro?

#Siga a conta oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde você encontrará conteúdo ainda mais interessante o mais breve possível.

ifanr | Link original · Ver comentários · Sina Weibo