ChatGPT agora interpreta fotos melhor do que um crítico de arte e um investigador juntos

abril 17, 2025 gurinho

Os recentes recursos de geração de imagens do ChatGPT desafiaram nossa compreensão anterior da mídia gerada por IA. O recentemente anunciado modelo GPT-4o demonstra habilidades notáveis de interpretar imagens com alta precisão e recriá-las com efeitos virais, como o inspirado no Studio Ghibli . Ele domina até mesmo o texto em imagens geradas por IA , o que antes era difícil para a IA. E agora, está lançando dois novos modelos capazes de dissecar imagens em busca de pistas para coletar muito mais informações que podem até falhar ao olhar humano.

A OpenAI anunciou dois novos modelos no início desta semana que elevam as habilidades de raciocínio do ChatGPT. Seu novo modelo o3, que a OpenAI chama de “modelo de raciocínio mais poderoso”, melhora as habilidades existentes de interpretação e percepção, melhorando em “codificação, matemática, ciências, percepção visual e muito mais”, afirma a organização. Enquanto isso, o o4-mini é um modelo menor e mais rápido para “raciocínio econômico” nos mesmos caminhos. A notícia segue o recente lançamento da classe de modelos GPT-4.1 pela OpenAI, que traz processamento mais rápido e contexto mais profundo.

ChatGPT agora está “pensando com imagens”

Com melhorias nas suas capacidades de raciocínio, ambos os modelos podem agora incorporar imagens no seu processo de raciocínio, o que os torna capazes de “pensar com imagens”, proclama a OpenAI . Com esta mudança, ambos os modelos podem integrar imagens na sua cadeia de pensamento. Indo além da análise básica de imagens, os modelos o3 e o4-mini podem investigar as imagens mais de perto e até mesmo manipulá-las por meio de ações como cortar, ampliar, inverter ou enriquecer detalhes para buscar quaisquer pistas visuais das imagens que possam potencialmente melhorar a capacidade do ChatGPT de fornecer soluções.

Apresentamos o OpenAI o3 e o4-mini – nossos modelos mais inteligentes e capazes até o momento.
Pela primeira vez, nossos modelos de raciocínio podem usar e combinar agentemente todas as ferramentas do ChatGPT, incluindo pesquisa na web, Python, análise de imagens, interpretação de arquivos e geração de imagens. pic.twitter.com/rDaqV0x0wE
– OpenAI (@OpenAI) 16 de abril de 2025

Com o anúncio, afirma-se que os modelos mesclam raciocínio visual e textual, que podem ser integrados a outros recursos do ChatGPT, como busca na web, análise de dados e geração de código, e espera-se que se tornem a base para agentes de IA mais avançados com análise multimodal.

Entre outras aplicações práticas, você pode incluir imagens de uma infinidade de itens, como fluxogramas ou rabiscos de notas manuscritas a imagens de objetos do mundo real, e esperar que o ChatGPT tenha uma compreensão mais profunda para um melhor resultado, mesmo sem um prompt de texto descritivo. Com isso, o OpenAI está cada vez mais próximo do Gemini do Google, que oferece a impressionante capacidade de interpretar o mundo real por meio de vídeo ao vivo .

Apesar das afirmações ousadas, a OpenAI está limitando o acesso apenas a membros pagos, provavelmente para evitar que suas GPUs “derretam” novamente, enquanto luta para manter a demanda computacional por novos recursos de raciocínio. A partir de agora, os modelos o3, o4-mini e o4-mini-high estarão disponíveis exclusivamente para membros ChatGPT Plus, Pro e Team, enquanto os usuários dos níveis Enterprise e Education os receberão em uma semana. Enquanto isso, os usuários gratuitos poderão ter acesso limitado ao o4-mini ao selecionar o botão “Pensar” na barra de prompt.