o1-preview模型诊断医疗病例胜过医者
据最新研究报道,一支由哈佛医学院与斯坦福大学联合组成的科研团队,对OpenAI开发的o1-preview模型在医学诊断领域的表现进行了深入评估。结果表明,这款模型在处理复杂医疗案例时,表现超越了人类医生。
研究显示,o1-preview在测试的78.3%案例中成功作出诊断,尤其是在对70个特定案例的对比测试中,其准确率高达88.6%,远超其前代模型GPT-4的72.9%。采用医学推理质量评估标准量表R-IDEA,o1-preview在80个案例中获得了78个满分。而经验丰富的医生在同样情况下仅获得28个满分,住院医生则只有16例满分。
在由25位专家设计的复杂案例中,o1-preview的得分达到了86%,是使用GPT-4的医生(41%)和使用传统工具的医生(34%)的两倍以上。
尽管研究人员承认该测试存在局限性,例如部分测试案例可能包含在o1-preview的训练数据中,以及测试主要集中于系统独立工作,未充分考虑与人类医生的协同工作场景。此外,o1-preview的诊断测试成本较高,实际应用中存在一定限制。
这一研究结果表明,尽管AI模型在医学诊断领域展现出巨大的潜力,但实际应用仍需谨慎,以确保其在提高诊断准确性的同时,也能兼顾成本效益和与医疗团队的协作。