Testes preliminares sugerem que a avaliação dos seus dados de condicionamento físico feita pelo ChatGPT Health pode causar pânico desnecessário.

No início deste mês, a OpenAI apresentou um novo espaço focado em saúde dentro do ChatGPT , promovendo-o como uma forma mais segura para os usuários fazerem perguntas sobre tópicos sensíveis, como dados médicos, doenças e condicionamento físico. Um dos principais recursos destacados no lançamento foi a capacidade do ChatGPT Saúde de analisar dados de aplicativos como Apple Health, MyFitnessPal e Peloton para revelar tendências de longo prazo e fornecer resultados personalizados. No entanto, um novo relatório sugere que a OpenAI pode ter superestimado a eficácia do recurso em extrair informações confiáveis ​​desses dados.

Segundo testes iniciais conduzidos por Geoffrey A. Fowler, do The Washington Post , quando o ChatGPT Health teve acesso a uma década de dados do Apple Health, o chatbot classificou a saúde cardíaca do repórter com nota F. No entanto, após revisar a avaliação, um cardiologista a considerou "infundada" e afirmou que o risco real de doença cardíaca do repórter era extremamente baixo.

O Dr. Eric Topol, do Scripps Research Institute, ofereceu uma avaliação direta das capacidades do ChatGPT Health, afirmando que a ferramenta não está pronta para fornecer aconselhamento médico e depende excessivamente de métricas pouco confiáveis ​​de smartwatches. A classificação do ChatGPT baseou-se principalmente nas estimativas de VO2 máximo e variabilidade da frequência cardíaca do Apple Watch, ambas com limitações conhecidas e que podem variar significativamente entre dispositivos e versões de software. Pesquisas independentes constataram que as estimativas de VO2 máximo do Apple Watch frequentemente são baixas, mas o ChatGPT ainda as considerou indicadores claros de saúde precária.

O ChatGPT Health atribuiu notas diferentes aos mesmos dados.

Os problemas não pararam por aí. Quando o repórter pediu ao ChatGPT Health para repetir o mesmo exercício de avaliação, a nota oscilou entre F e B ao longo das conversas, com o chatbot às vezes ignorando relatórios de exames de sangue recentes aos quais tinha acesso e ocasionalmente esquecendo detalhes básicos como a idade e o sexo do repórter. O Claude for Healthcare , da Anthropic, que também estreou no início deste mês, apresentou consistências semelhantes, atribuindo notas que variavam entre C e B-.

Tanto a OpenAI quanto a Anthropic enfatizaram que suas ferramentas não se destinam a substituir médicos e apenas a fornecer um contexto geral. Ainda assim, ambos os chatbots forneceram avaliações confiáveis ​​e altamente personalizadas da saúde cardiovascular. Essa combinação de autoridade e inconsistência pode assustar usuários saudáveis ​​ou tranquilizar falsamente usuários com problemas de saúde. Embora a IA possa eventualmente revelar informações valiosas a partir de dados de saúde de longo prazo, os testes iniciais sugerem que alimentar essas ferramentas com anos de dados de monitoramento de atividades físicas atualmente gera mais confusão do que clareza.

O artigo " Testes iniciais sugerem que a avaliação dos seus dados de condicionamento físico feita pelo ChatGPT Health pode causar pânico desnecessário" foi publicado originalmente no Digital Trends .