A precisão diagnóstica da IA da Microsoft é quatro vezes maior que a de médicos humanos. Devemos perguntar isso antes de consultar um médico no futuro?
Quatro vezes, a precisão do diagnóstico do médico de IA excede em muito a dos médicos humanos.
Pode ser um pouco difícil de acreditar, mas a equipe de inteligência artificial da Microsoft lançou recentemente um sistema de coordenação de diagnóstico de IA, o MAI-DxO (MAI Diagnostic Orchestrator), que realmente faz isso.
O teste foi comparado com 304 casos reais complexos publicados semanalmente no New England Journal of Medicine. Os resultados mostraram uma taxa de precisão de 85,5%.
Este benchmark não é mais um teste que pode ser concluído apenas memorizando, mas um novo padrão de avaliação criado pela Microsoft, o "Banco de Diagnóstico Sequencial" (Banco SD). Ele restaura em grande parte os desafios interativos do processo real de diagnóstico e tratamento:
- Comece com a descrição inicial dos sintomas do paciente.
- Por meio de várias rodadas de perguntas e seleção de vários testes e exames, as informações sobre a condição do paciente são gradualmente coletadas.
- Para cada inspeção, registre o custo do item de inspeção; avalie a necessidade e o custo.
- Dê um diagnóstico final.
Diante dos mesmos 304 casos complexos, a Microsoft selecionou outros 21 médicos atuantes nos Estados Unidos e no Reino Unido, com 5 a 20 anos de experiência clínica. Os resultados do teste mostraram que a precisão média dos médicos reais era de apenas 20%, quatro vezes a diferença entre os "médicos de IA".
Ao mesmo tempo, comparado aos médicos humanos, esse "médico de IA" também solicitou menos exames desnecessários, reduzindo os custos de diagnóstico em 20%-70%.
▲Diagrama introdutório do teste de referência de diagnóstico sequencial. O "gatekeeper" responde às solicitações de informações dos agentes de diagnóstico, e o modelo de avaliação avalia a precisão do diagnóstico final e do relatório de caso do agente de diagnóstico.
Como o MAI-DxO atinge uma taxa de precisão quatro vezes maior que a de médicos humanos? Não se trata de um modelo de linguagem amplo e emergente, nem se baseia em um modelo único.
O MAI-DxO é um sistema que simula o processo de diagnóstico colaborativo de vários médicos na realidade. Graças ao desenvolvimento contínuo do atual modelo de linguagem de grande porte, o sistema MAI-DxO conta com diferentes modelos de linguagem para desempenhar cinco funções médicas distintas.
Essas funções médicas incluem o médico de hipóteses que especula sobre vários resultados, o médico de seleção, o médico de desafio que questiona as suposições diagnósticas atuais, o médico de gerenciamento de custos que evita testes desnecessários e o médico de lista de verificação que garante que as etapas de diagnóstico e a lógica de seleção sejam consistentes.
Esses "médicos" trabalham de forma colaborativa, simulando completamente o fluxo de trabalho de uma equipe médica humana e compensando os defeitos que um único modelo de IA pode ter em diagnósticos complexos.
▲Visão geral do sistema MAI-DxO
Conforme mostrado no diagrama de visão geral do sistema descrito acima, o MAI-DxO simula completamente o processo de ir ao hospital para consultar um médico.
- Começando com a consulta, o MAIN-DxO receberá uma breve história clínica, geralmente de 2 a 3 frases, abordando os detalhes básicos do caso.
- Em seguida, o MAI-DxO começará a resumir as principais demandas do paciente e escolherá o próximo passo, se continuará fazendo perguntas ao paciente ou solicitará um exame.
- O custo de cada exame é calculado e várias rodadas de interação continuam até que o diagnóstico final seja dado.
Durante o processo de testes, a MAI-DxO usou o o4-mini e médicos profissionais para configurar um "gatekeeper" para garantir que as informações que o sistema fornecia à IA fossem as mesmas que os médicos normais poderiam obter durante consultas e práticas clínicas.
O surgimento do MAI-DxO melhorou significativamente o desempenho de grandes modelos de linguagem em diagnósticos médicos. A Microsoft testou diferentes modelos das séries OpenAI, Gemini, Claude, Grok, DeepSeek e Llama, e o desempenho foi superior ao de apenas um modelo de IA. A combinação com melhor desempenho foi o MAI-DxO e o pareamento o3 da OpenAI.
Como não é limitado por grandes modelos de linguagem, o MAI-DxO também pode se adaptar de forma sincronizada quando modelos melhores estiverem disponíveis no futuro.
▲Comparação da precisão de diferentes modelos de inteligência artificial e do custo médio dos testes diagnósticos por caso
Embora pareça que o "médico da IA" tenha tomado forma, não é fácil para a IA ser um bom médico.
A Microsoft mencionou no final do artigo do projeto que este estudo apresenta limitações significativas, incluindo o fato de que os 21 médicos que participaram do experimento comparativo não tiveram acesso a auxílio para discussão entre pares, livros de referência, IA generativa e outros recursos. Além disso, o experimento da Microsoft discutiu apenas os problemas de caso mais desafiadores e não realizou testes adicionais sobre nosso diagnóstico geral de doenças diárias.
A Microsoft enfatiza que a IA não substituirá os médicos, mas se tornará uma assistente tanto para médicos quanto para pacientes.
Mas este assistente para médicos e pacientes continua atraindo a atenção do mundo todo. Já em março deste ano, a Microsoft lançou o primeiro assistente de IA do setor médico para fluxos de trabalho clínicos, o Microsoft Dragon Copilot, que pode ajudar os médicos a organizar melhor os arquivos de casos clínicos.
A plataforma de inteligência artificial médica IBM Watson Health da IBM, o DeepMind do Google e o NVIDIA Clara da NVIDIA estão trazendo novas mudanças para cenários médicos, como orientação médica, consulta e patologia.
Há algum tempo, a Alibaba DAMO Academy também lançou o primeiro modelo de IA do mundo para triagem de imagens de câncer gástrico, o DAMO GRAPE, que pela primeira vez usou imagens de TC de varredura simples combinadas com aprendizado profundo para identificar lesões precoces de câncer gástrico.
A Huawei só estabeleceu seu corpo médico e de saúde neste ano e, na semana passada, em colaboração com o Hospital Ruijin, anunciou o modelo de patologia RuiPath de código aberto, que tem recursos de verificação clínica e abrange sete tipos comuns de câncer, incluindo câncer de pulmão.
A medicina exige altíssima precisão, e um erro de 0,01% pode ter consequências graves. É completamente diferente dos bugs que aparecem quando os programadores escrevem código.
O MAI-DxO simula o processo de consulta médica real, e parece que o caminho do atendimento médico por IA está se tornando cada vez mais claro.
Da consulta Baidu à consulta ChatGPT, acredito que no futuro, além de obter os resultados de exames de hospitais comuns, verificar classificações de hospitais e pagar para consultar médicos online, você também poderá dar uma olhada neste "médico de IA" primeiro.
#Bem-vindo a seguir a conta pública oficial do iFanr no WeChat: iFanr (ID do WeChat: ifanr), onde mais conteúdo interessante será apresentado a você o mais breve possível.