O Google descobriu que os chatbots de IA têm uma precisão de apenas 69%… na melhor das hipóteses.

dezembro 16, 2025 gurinho

O Google publicou uma avaliação direta sobre a confiabilidade dos chatbots de IA atuais, e os números não são nada animadores. Usando seu recém-lançado FACTS Benchmark Suite , a empresa descobriu que mesmo os melhores modelos de IA têm dificuldade em ultrapassar uma taxa de acerto de 70%. O melhor desempenho, Gemini 3 Pro , atingiu 69% de precisão geral, enquanto outros sistemas líderes da OpenAI , Anthropic e xAI obtiveram pontuações ainda menores. A conclusão é simples e preocupante: esses chatbots ainda erram aproximadamente uma em cada três respostas, mesmo quando parecem confiantes ao fazê-lo .

O parâmetro de comparação é importante porque a maioria dos testes de IA existentes se concentra em verificar se um modelo consegue concluir uma tarefa, e não se a informação que ele produz é de fato verdadeira . Para setores como o financeiro, o da saúde e o jurídico, essa discrepância pode ser custosa. Uma resposta fluente que soa confiante, mas contém erros, pode causar danos reais, especialmente quando os usuários presumem que o chatbot sabe do que está falando.

O que revela o teste de precisão do Google

O conjunto de testes FACTS Benchmark Suite foi desenvolvido pela equipe FACTS do Google em parceria com o Kaggle para testar diretamente a precisão factual em quatro situações reais. Um dos testes mede o conhecimento paramétrico, verificando se um modelo consegue responder a perguntas baseadas em fatos usando apenas o que aprendeu durante o treinamento. Outro avalia o desempenho de busca, testando a capacidade dos modelos de usar ferramentas da web para recuperar informações precisas. Um terceiro teste foca na fundamentação, ou seja, se o modelo se atém a um documento fornecido sem adicionar detalhes falsos. O quarto teste examina a compreensão multimodal, como a leitura correta de gráficos, diagramas e imagens.

Os resultados mostram diferenças acentuadas entre os modelos. O Gemini 3 Pro liderou o ranking com uma pontuação FACTS de 69%, seguido pelo Gemini 2.5 Pro e pelo ChatGPT-5 da OpenAI, ambos com quase 62%. O Claude 4.5 Opus alcançou cerca de 51%, enquanto o Grok 4 obteve aproximadamente 54%. As tarefas multimodais foram o ponto fraco em geral, com precisão frequentemente abaixo de 50%. Isso é importante porque essas tarefas envolvem a leitura de gráficos, diagramas ou imagens, onde um chatbot poderia facilmente interpretar erroneamente um gráfico de vendas ou extrair o número errado de um documento, levando a erros fáceis de passar despercebidos, mas difíceis de corrigir.

A conclusão não é que os chatbots sejam inúteis, mas sim que a confiança cega é arriscada. Os próprios dados do Google sugerem que a IA está melhorando, mas ainda precisa de verificação, mecanismos de controle e supervisão humana antes de poder ser considerada uma fonte confiável de verdade.

O artigo "Google descobre que chatbots de IA têm apenas 69% de precisão… na melhor das hipóteses" foi publicado originalmente no Digital Trends .