ChatGPT, Gemini e outros bots de IA dão dicas médicas ruins na metade das vezes.

As pessoas já usam chatbots de IA como mecanismos de busca para obter informações de saúde do dia a dia. Esse hábito parece mais arriscado depois que um novo estudo descobriu que metade das respostas de cinco dos principais bots eram problemáticas, mesmo quando as respostas soavam polidas e confiantes.

Pesquisadores testaram o ChatGPT , Gemini , Grok , Meta AI e DeepSeek com 250 perguntas sobre câncer, vacinas, células-tronco, nutrição e desempenho atlético.

As perguntas respondidas refletiam dúvidas comuns sobre saúde e temas recorrentes de desinformação, e então foi avaliado se os bots se mantinham alinhados com as evidências científicas ou se desviavam para conselhos enganosos e potencialmente inseguros.

Questões amplas expuseram as maiores lacunas.

Os resultados mais fracos vieram de perguntas abertas. Essas perguntas mais amplas produziram muito mais respostas problemáticas do que o esperado, enquanto as perguntas fechadas tenderam a gerar respostas mais seguras.

Isso é importante porque as pessoas comuns geralmente não fazem perguntas médicas em um formato simples de múltipla escolha. Elas perguntam se um tratamento funciona, se uma vacina é segura ou o que pode melhorar o desempenho atlético.

No estudo, esse tipo de estímulo levou os bots a darem respostas que misturavam evidências sólidas com afirmações mais fracas ou enganosas.

Alta confiança, fontes incertas

Os problemas não se limitavam às respostas em si. A qualidade das referências era baixa, com uma pontuação média de completude de 40%, e nenhum dos chatbots gerou uma lista de referências totalmente precisa.

Isso enfraquece um dos maiores motivos pelos quais as pessoas confiam nas respostas dos chatbots. Uma resposta pode parecer bem fundamentada e confiável, mas desmoronar quando as citações são verificadas.

Os pesquisadores também identificaram referências falsas, enquanto os bots ainda respondiam com certeza e praticamente não apresentavam ressalvas.

Por que isso é importante além de um único teste?

As conclusões do estudo têm limitações. O estudo abrangeu apenas cinco chatbots, esses produtos mudam rapidamente e os prompts foram elaborados para sobrecarregar os modelos, o que pode superestimar a frequência com que respostas incorretas aparecem no uso diário.

Ainda assim, a principal conclusão é difícil de ignorar. Esses sistemas foram testados em tópicos médicos baseados em evidências, e metade das respostas ainda apresentava falhas ou informações incompletas.

Por enquanto, os chatbots podem ajudar a resumir informações ou a formular perguntas de acompanhamento, mas ainda não parecem suficientemente confiáveis ​​para decisões médicas significativas.