A precisão diagnóstica da IA ​​da Microsoft é quatro vezes maior que a de médicos humanos. Devemos perguntar isso antes de consultar um médico no futuro?

Quatro vezes, a precisão do diagnóstico do médico de IA excede em muito a dos médicos humanos.

Pode ser um pouco difícil de acreditar, mas a equipe de inteligência artificial da Microsoft lançou recentemente um sistema de coordenação de diagnóstico de IA, o MAI-DxO (MAI Diagnostic Orchestrator), que realmente faz isso.

O teste foi comparado com 304 casos reais complexos publicados semanalmente no New England Journal of Medicine. Os resultados mostraram uma taxa de precisão de 85,5%.

Este benchmark não é mais um teste que pode ser concluído apenas memorizando, mas um novo padrão de avaliação criado pela Microsoft, o "Banco de Diagnóstico Sequencial" (Banco SD). Ele restaura em grande parte os desafios interativos do processo real de diagnóstico e tratamento:

  1. Comece com a descrição inicial dos sintomas do paciente.
  2. Por meio de várias rodadas de perguntas e seleção de vários testes e exames, as informações sobre a condição do paciente são gradualmente coletadas.
  3. Para cada inspeção, registre o custo do item de inspeção; avalie a necessidade e o custo.
  4. Dê um diagnóstico final.

Diante dos mesmos 304 casos complexos, a Microsoft selecionou outros 21 médicos atuantes nos Estados Unidos e no Reino Unido, com 5 a 20 anos de experiência clínica. Os resultados do teste mostraram que a precisão média dos médicos reais era de apenas 20%, quatro vezes a diferença entre os "médicos de IA".

Ao mesmo tempo, comparado aos médicos humanos, esse "médico de IA" também solicitou menos exames desnecessários, reduzindo os custos de diagnóstico em 20%-70%.

Uma ilustração de um teste de referência de diagnóstico sequencial, onde o gatekeeper responde às solicitações de informações dos agentes de diagnóstico, e o modelo de avaliação avalia a precisão dos diagnósticos finais e relatórios de casos dos agentes de diagnóstico.

▲Diagrama introdutório do teste de referência de diagnóstico sequencial. O "gatekeeper" responde às solicitações de informações dos agentes de diagnóstico, e o modelo de avaliação avalia a precisão do diagnóstico final e do relatório de caso do agente de diagnóstico.

Como o MAI-DxO atinge uma taxa de precisão quatro vezes maior que a de médicos humanos? Não se trata de um modelo de linguagem amplo e emergente, nem se baseia em um modelo único.

O MAI-DxO é um sistema que simula o processo de diagnóstico colaborativo de vários médicos na realidade. Graças ao desenvolvimento contínuo do atual modelo de linguagem de grande porte, o sistema MAI-DxO conta com diferentes modelos de linguagem para desempenhar cinco funções médicas distintas.

Essas funções médicas incluem o médico de hipóteses que especula sobre vários resultados, o médico de seleção, o médico de desafio que questiona as suposições diagnósticas atuais, o médico de gerenciamento de custos que evita testes desnecessários e o médico de lista de verificação que garante que as etapas de diagnóstico e a lógica de seleção sejam consistentes.

Esses "médicos" trabalham de forma colaborativa, simulando completamente o fluxo de trabalho de uma equipe médica humana e compensando os defeitos que um único modelo de IA pode ter em diagnósticos complexos.

Visão geral do sistema MAI-DxO

▲Visão geral do sistema MAI-DxO

Conforme mostrado no diagrama de visão geral do sistema descrito acima, o MAI-DxO simula completamente o processo de ir ao hospital para consultar um médico.

  1. Começando com a consulta, o MAIN-DxO receberá uma breve história clínica, geralmente de 2 a 3 frases, abordando os detalhes básicos do caso.
  2. Em seguida, o MAI-DxO começará a resumir as principais demandas do paciente e escolherá o próximo passo, se continuará fazendo perguntas ao paciente ou solicitará um exame.
  3. O custo de cada exame é calculado e várias rodadas de interação continuam até que o diagnóstico final seja dado.

Durante o processo de testes, a MAI-DxO usou o o4-mini e médicos profissionais para configurar um "gatekeeper" para garantir que as informações que o sistema fornecia à IA fossem as mesmas que os médicos normais poderiam obter durante consultas e práticas clínicas.

O surgimento do MAI-DxO melhorou significativamente o desempenho de grandes modelos de linguagem em diagnósticos médicos. A Microsoft testou diferentes modelos das séries OpenAI, Gemini, Claude, Grok, DeepSeek e Llama, e o desempenho foi superior ao de apenas um modelo de IA. A combinação com melhor desempenho foi o MAI-DxO e o pareamento o3 da OpenAI.

Como não é limitado por grandes modelos de linguagem, o MAI-DxO também pode se adaptar de forma sincronizada quando modelos melhores estiverem disponíveis no futuro.

Comparação da precisão de diferentes modelos de IA e do custo médio dos testes de diagnóstico por caso

▲Comparação da precisão de diferentes modelos de inteligência artificial e do custo médio dos testes diagnósticos por caso

Embora pareça que o "médico da IA" tenha tomado forma, não é fácil para a IA ser um bom médico.

A Microsoft mencionou no final do artigo do projeto que este estudo apresenta limitações significativas, incluindo o fato de que os 21 médicos que participaram do experimento comparativo não tiveram acesso a auxílio para discussão entre pares, livros de referência, IA generativa e outros recursos. Além disso, o experimento da Microsoft discutiu apenas os problemas de caso mais desafiadores e não realizou testes adicionais sobre nosso diagnóstico geral de doenças diárias.

A Microsoft enfatiza que a IA não substituirá os médicos, mas se tornará uma assistente tanto para médicos quanto para pacientes.

Mas este assistente para médicos e pacientes continua atraindo a atenção do mundo todo. Já em março deste ano, a Microsoft lançou o primeiro assistente de IA do setor médico para fluxos de trabalho clínicos, o Microsoft Dragon Copilot, que pode ajudar os médicos a organizar melhor os arquivos de casos clínicos.

A plataforma de inteligência artificial médica IBM Watson Health da IBM, o DeepMind do Google e o NVIDIA Clara da NVIDIA estão trazendo novas mudanças para cenários médicos, como orientação médica, consulta e patologia.

Há algum tempo, a Alibaba DAMO Academy também lançou o primeiro modelo de IA do mundo para triagem de imagens de câncer gástrico, o DAMO GRAPE, que pela primeira vez usou imagens de TC de varredura simples combinadas com aprendizado profundo para identificar lesões precoces de câncer gástrico.

A Huawei só estabeleceu seu corpo médico e de saúde neste ano e, na semana passada, em colaboração com o Hospital Ruijin, anunciou o modelo de patologia RuiPath de código aberto, que tem recursos de verificação clínica e abrange sete tipos comuns de câncer, incluindo câncer de pulmão.

A medicina exige altíssima precisão, e um erro de 0,01% pode ter consequências graves. É completamente diferente dos bugs que aparecem quando os programadores escrevem código.

O MAI-DxO simula o processo de consulta médica real, e parece que o caminho do atendimento médico por IA está se tornando cada vez mais claro.

Da consulta Baidu à consulta ChatGPT, acredito que no futuro, além de obter os resultados de exames de hospitais comuns, verificar classificações de hospitais e pagar para consultar médicos online, você também poderá dar uma olhada neste "médico de IA" primeiro.

#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.

iFanr | Link original · Ver comentários · Sina Weibo