你是否想过人工智能在急诊诊断环境中与人类医生相比表现如何?一项最新研究或许会让你重新思考这个问题。
这项发表在《科学》杂志上的研究发现,一款先进的大型语言模型在多项常见临床任务中表现优于人类医生。研究利用真实的急诊科数据和数百次医生对比,模型在诊断选择、急诊分诊以及后续管理决策中,表现与人类临床医生相当甚至更优。
研究作者指出,这些结果并不意味着AI模型可以取代医生,而是表明医疗行业需要更快速且严格的评估标准,以及明确的AI应用规则。
研究团队测试了OpenAI于2024年发布的o1系列大型语言模型,进行了六项实验,结合标准化临床案例和马萨诸塞州一家医疗中心随机选取的急诊患者样本。
模型优势最明显的是早期分诊阶段,当时决策信息有限。尽管随着数据增多,人类医生和AI模型的表现均有所提升,但研究发现大型语言模型在处理不确定性方面表现更佳,能够更有效地利用零散或非结构化的健康数据和病历记录。
这些发现基于数十年来利用复杂诊断案例评估医疗计算系统的经验。早期的大型语言模型已优于传统算法,而本研究的独特之处在于规模庞大且直接对比了真实临床场景中的人类医生与AI。
作者强调,我们应对这些结果保持谨慎。医院和急诊室的临床工作往往依赖视觉和听觉线索,而AI无法完全准确地解读这些非文本信息。研究指出,“未来需要评估人类与机器如何有效协作利用非文本信号”。

此外,考虑AI辅助医疗时,还必须评估其安全性、公平性和成本效益,这些方面本研究未涉及。
哈佛医学院生物医学信息学助理教授Arjun Manrai在一次线上新闻发布会上表示:“简而言之,该模型超越了我们庞大的医生基线,包括持证且在职的医生和真实复杂病例。”
他补充道:“我不认为我们的发现意味着AI会取代医生,尽管某些公司可能会这样宣传并利用这些结果。我认为这标志着技术的深刻变革将重塑医学,我们需要立即开始严格评估这项技术,并在前瞻性临床试验中验证。”
监管机构、医院和医疗服务提供者应共同努力,彻底测试这些工具,确保所有患者的安全和公平。
澳大利亚弗林德斯大学的Ashley M. Hopkins和Eric Cornelisse在同一期《科学》杂志的评论中指出,这项研究是评估医疗AI系统的重要一步,但医学领域复杂,需严格监管以保障患者获得最佳护理。
Cornelisse表示:“我们不会允许医生在无监督和无评估的情况下执业,AI也应遵循类似标准。”


