Ilusões de ótica podem nos ajudar a construir a próxima geração de IA
Você olha para uma imagem de um círculo preto em uma grade de pontos circulares. Assemelha-se a um buraco queimado em um pedaço de material de malha branca, embora na verdade seja uma imagem plana e estacionária em uma tela ou pedaço de papel. Mas seu cérebro não compreende assim. Como uma experiência alucinatória de baixo nível, sua mente tropeça; percebendo a imagem estática como a boca de um túnel preto que está se movendo em sua direção.
Respondendo à verossimilhança do efeito, o corpo começa a reagir inconscientemente: as pupilas do olho se dilatam para deixar mais luz entrar, assim como se ajustariam se você estivesse prestes a ser mergulhado na escuridão para garantir a melhor visão possível.
O efeito em questão foi criado por Akiyoshi Kitaoka , psicólogo da Universidade Ritsumeikan em Kobe, Japão. É uma das dezenas de ilusões de ótica que ele criou ao longo de uma longa carreira. (“Gosto de todos”, disse ele, respondendo à pergunta da Digital Trend sobre se ele tem um favorito.)
Essa nova ilusão foi objeto de uma pesquisa publicada recentemente na revista Frontiers in Human Neuroscience . Embora o foco do artigo esteja firmemente nas respostas fisiológicas humanas ao novo efeito (que cerca de 86% de nós experimentará), o tópico geral também pode ter muita relevância quando se trata do futuro da inteligência de máquina — como um dos pesquisadores estava ansioso para explicar ao Digital Trends.
Uma margem evolutiva
Algo está errado com seu cérebro. Pelo menos, essa é uma conclusão fácil de ser tirada da maneira como o cérebro humano percebe as ilusões de ótica. Que outra explicação existe para uma imagem estática bidimensional que o cérebro percebe como algo totalmente diferente? Por muito tempo, a psicologia convencional imaginou exatamente isso.
“Inicialmente, as pessoas pensavam: 'Ok, nosso cérebro não é perfeito… Nem sempre acerta.' Isso é um fracasso, certo?” disse Bruno Laeng , professor do Departamento de Psicologia da Universidade de Oslo e primeiro autor do estudo acima mencionado. “As ilusões nesse caso eram interessantes porque revelavam algum tipo de imperfeição no maquinário.”
Os psicólogos não os veem mais dessa maneira. De qualquer forma, pesquisas como essa destacam como o sistema visual não é apenas uma câmera simples. A ilusão de ótica “Illusory Expanding Hole” deixa claro que o olho se ajusta à luz e escuridão percebidas, mesmo imaginadas, e não à energia física.
Mais significativamente, mostra que não apenas gravamos o mundo com nossos sistemas visuais, mas, em vez disso, realizamos um conjunto contínuo de experimentos científicos para obter uma pequena vantagem evolutiva. O objetivo é analisar os dados que nos são apresentados e tentar lidar preventivamente com os problemas antes que eles se tornem, bem, problemas.
“O cérebro não tem como saber o que está [realmente] lá fora”, disse Laeng. “O que está fazendo é construir uma espécie de realidade virtual do que poderia estar lá fora. Há um pouco de adivinhação. A esse respeito, você pode pensar no cérebro como uma espécie de máquina probabilística. Você pode chamá-lo de máquina bayesiana , se quiser. Está usando algumas hipóteses anteriores e tentando testá-las o tempo todo para ver se isso funciona.”
Laeng dá o exemplo de nossos olhos fazendo ajustes com base em nada mais do que a impressão da luz do sol: mesmo quando esta é avistada através de nuvens ou um dossel de folhas. Apenas no caso de.
“O que importa na evolução não é que seja verdade [naquele momento], mas é provável”, continuou ele. “Ao contrair a pupila, seu corpo já está se ajustando a uma situação muito provável de acontecer em um curto período de tempo. O que acontece [se o sol sair de repente] é que você fica deslumbrado. Deslumbrado significa incapacitado temporariamente. Isso tem enormes consequências, seja você uma presa ou um predador. Você perde uma fração de segundo em uma situação específica e pode não sobreviver.”
Não é apenas a luz e a escuridão que nossos sistemas visuais precisam fazer suposições. Pense em um jogo de tênis, onde a bola está viajando em alta velocidade. Se baseássemos nosso comportamento inteiramente no que o sistema visual está recebendo em um determinado momento, ficaríamos atrasados em relação à realidade e não conseguiríamos devolver a bola. “Somos capazes de perceber o presente, embora estejamos realmente presos ao passado”, disse Laeng. “A única maneira de fazer isso é prevendo o futuro. Parece um pouco como um jogo de palavras, mas é isso em poucas palavras.”
A visão de máquina está melhorando
Então, o que isso tem a ver com visão computacional? Potencialmente tudo. Para que um robô, por exemplo, seja capaz de funcionar efetivamente no mundo real, ele precisa ser capaz de fazer esses tipos de ajustes em tempo real. Os computadores têm uma vantagem quando se trata de sua capacidade de realizar cálculos extremamente rápidos. O que eles não têm são milhões de anos de evolução ao seu lado.
Nos últimos anos, a visão de máquina fez grandes avanços. Eles podem identificar rostos ou marchas em fluxos de vídeo em tempo real – potencialmente até mesmo em grandes multidões de pessoas. Ferramentas de tecnologia e classificação de imagens semelhantes também podem reconhecer a presença de outros objetos, enquanto os avanços na segmentação de objetos possibilitam entender melhor o conteúdo de diferentes cenas. Também houve um progresso significativo quando se trata de extrapolar imagens 3D de cenas 2D, permitindo que as máquinas “leiam” informações tridimensionais, como profundidade, das cenas. Isso aproxima a visão computacional moderna da percepção da imagem humana.
No entanto, ainda existe um abismo entre os melhores algoritmos de visão de máquina e os tipos de recursos baseados em visão que a esmagadora maioria dos humanos é capaz de realizar desde tenra idade. Embora não possamos articular exatamente como realizamos essas tarefas baseadas em visão (para citar o polímata húngaro-britânico Michael Polanyi, “podemos saber mais do que podemos dizer”), somos capazes de realizar uma impressionante variedade de tarefas que nos permitem aproveitar nossa visão de várias maneiras inteligentes.
Um teste de Turing para visão de máquina
Se pesquisadores e engenheiros esperam criar sistemas de visão computacional que operem pelo menos no mesmo nível das habilidades de processamento visual do cérebro de wetware, construir algoritmos que possam entender ilusões de ótica não é um mau ponto de partida. No mínimo, poderia ser uma boa maneira de medir quão bem os sistemas de visão de máquina operam em nossos próprios cérebros. Pode não ser a resposta para a mítica Inteligência Geral Artificial , mas pode ser a chave para desbloquear a Visão Geral.
“Se alguém desenvolvesse, um dia, um sistema visual artificial que cometesse os mesmos erros de percepção ilusória que cometemos, você saberia neste momento que eles estão [conseguindo] uma boa simulação de como nosso cérebro funciona”, disse Laeng. “Seria uma espécie de Teste de Turing. Se você tem uma rede artificial que é enganada pela ilusão como nós, então estaríamos muito perto de entender a computação subjacente do próprio cérebro.”
Yi-Zhe Song , leitor de Computer Vision and Machine Learning no Center for Vision Speech and Signal Processing da Universidade de Surrey, no Reino Unido, concorda com a hipótese. “Pedir aos algoritmos de visão que entendam as ilusões de ótica como um tópico geral é de grande valor para a comunidade”, disse ele ao Digital Trends. “Isso vai além do foco atual da comunidade de pedir às máquinas que [reconheçam], empurrando ainda mais o envelope [e] pedindo às máquinas que raciocinem. Esse impulso [representaria] um passo significativo em direção à 'Visão Geral', onde as interpretações subjetivas de conceitos visuais precisam ser acomodadas. ”
Usa a tua ilusão
Até o momento, houve algumas pesquisas limitadas para esse objetivo – embora permaneça em um estágio relativamente inicial. Nasim Nematzadeh, pesquisador com Ph.D. em Inteligência Artificial e Robótica-Modelos de visão de baixo nível, é uma pessoa que publicou trabalhos sobre este tópico .
“Acreditamos que uma maior exploração do papel de modelos simples do tipo gaussiano no processamento retiniano de baixo nível e no kernel gaussiano no estágio inicial [redes neurais profundas] e sua previsão de perda de ilusão perceptual levará a técnicas de visão computacional mais precisas e modelos”, disse Nematzadeh ao Digital Trends. “[Isso poderia] contribuir para modelos de nível superior de processamento de profundidade e movimento e generalizar para a compreensão computacional de imagens naturais.”
Max Williams, um pesquisador de IA que ajudou a compilar um conjunto de dados de milhares de imagens de ilusão de ótica para sistemas de visão computacional, coloca a relação entre visão geral e ilusões de ótica de forma mais sucinta: processo para extrair uma cena visual de um campo de luz incompreensível, criado por um mundo físico do qual estamos quase completamente isolados”, disseram ao Digital Trends. “Não acho que seja possível tornar um sistema visual expressivo o suficiente para ser considerado 'percepção' que também esteja livre de ilusões.”
Alcançando a Visão Geral
Para ser claro, alcançar a Visão Geral para IA em nível humano (ou melhor) não será simplesmente treiná-los para reconhecer ilusões de ótica padrão. Nenhuma capacidade hiperespecífica de, digamos, decodificar ilusões de olhos mágicos com 99,9% de precisão em 0,001 segundo substituirá milhões de anos de evolução humana.
(Curiosamente, a visão de máquina já tem sua própria versão de ilusões de ótica na forma de modelos adversários, o que pode fazê-los confundir – como em uma ilustração alarmante – uma tartaruga de brinquedo impressa em 3D por um rifle . mesmos benefícios evolutivos que as ilusões de ótica que funcionam em humanos.)
Ainda assim, fazer com que as máquinas entendam as ilusões de ótica humanas e respondam a elas da maneira que fazemos pode ser uma pesquisa muito útil.
E uma coisa é certa: quando a General Vision AI for alcançada, ela cairá nos mesmos tipos de ilusões de ótica que nós. Pelo menos, no caso do Buraco de Expansão Ilusória, 86% de nós.