一项最新研究评估了大型语言模型在多种医疗场景中的表现,特别是在真实急诊病例中,其中至少有一种模型的诊断准确率超过了人类医生。

该研究由哈佛医学院和贝斯以色列女执事医疗中心的医生与计算机科学家联合领导,成果本周发表在《Science》杂志上。研究团队通过多项实验比较了OpenAI的模型与人类医生的诊断能力。

在一项实验中,研究人员选取了76名进入贝斯以色列急诊室的患者,比较了两位内科主治医生与OpenAI的o1和4o模型所给出的诊断。随后,两位不知情的主治医生对这些诊断进行了评估,未被告知诊断来源是人类还是AI。

研究指出:“在每个诊断环节,o1模型的表现要么略优于两位主治医生,要么与之持平。”尤其是在急诊初筛阶段,信息最少且决策最紧急时,o1模型的优势尤为明显。

哈佛医学院在研究新闻稿中强调,AI模型使用的诊断信息完全来自电子病历,未经过任何预处理。

基于这些信息,o1模型在急诊初筛中给出了67%的准确或接近准确的诊断,而两位医生分别为55%和50%。

哈佛医学院AI实验室负责人、该研究主要作者之一Arjun Manrai表示:“我们几乎用所有标准测试了AI模型,它的表现超越了之前的模型和我们的医生基线。”

需要说明的是,研究并未声称AI已准备好在急诊室做出生死攸关的决策,而是强调了“迫切需要在真实临床环境中开展前瞻性试验来评估这些技术”。

研究者还指出,本次研究仅考察了模型处理文本信息的能力,且现有研究表明,当前基础模型在处理非文本输入时推理能力较为有限。

贝斯以色列医生、研究主要作者之一Adam Rodman提醒,目前尚无针对AI诊断的正式责任框架,患者仍然希望由人类医生引导他们做出生死和复杂治疗决策。

急诊医生Kristen Panthagani在一篇关于该研究的评论中指出,这项研究虽然有趣,但引发了过度炒作的标题,尤其是因为它将AI的诊断与内科医生而非急诊医生的诊断进行了比较。

她认为:“如果要比较AI工具与医生的临床能力,应该先与实际从事该专科的医生比较。我不会惊讶大型语言模型能在神经外科考试中胜过皮肤科医生,但这并无太大意义。”

她还强调:“作为急诊医生,初次接诊时,我的首要目标不是猜测最终诊断,而是判断患者是否患有可能致命的疾病。”

本文及标题已更新,明确研究中诊断来自内科主治医生,并加入了Kristen Panthagani的评论。