最近一项调查显示,数百万美国人正在向人工智能聊天机器人寻求医疗建议,甚至取代了向医生咨询的行为。尽管如此,研究人员仍发现基于大型语言模型的医疗AI工具存在严重缺陷。这些工具声称能够总结医疗记录并根据简单文本提示提供健康建议,但“幻觉”问题依然未解决,例如AI模型会基于未提供的图像生成详细临床结果,甚至被研究人员设计的假疾病所欺骗。
科学家们因此质疑患者、医疗提供者或医疗系统是否应当采用AI,尤其是在缺乏真实世界效益证据的情况下。顶级医学期刊《自然医学》本周二发表了一篇尖锐社论,指出“目前缺乏证据表明AI工具能为患者、医疗提供者或医疗系统创造价值”。
社论中提到,“尽管尚无明确共识规定应达到何种证据水平才能使临床影响的声明被视为可信,但相关声明在出版物和产品材料中越来越常见。这不仅带来了科学上的不确定性,也导致了过早的实施和采用。”
因此,文章呼吁“迫切需要建立一个评估医疗AI技术的框架,明确评估指标和基准”。
AI工具在理想实验条件下似乎能提供有说服力的医疗建议,但在现实世界中表现不佳。《JAMA医学》期刊最近一项研究发现,当面对模糊症状时,前沿AI模型超过80%的时间未能给出正确诊断。
临床研究中AI的应用依然存在争议。虽然大型语言模型擅长总结和分析数据、回答问题,但研究人员警告我们不能忽视其重大局限性。

哈佛医学院外科助理教授Jamie Robertson去年表示,AI可以加快许多繁琐且具有挑战性的流程,帮助编写数据分析代码,甚至提出研究方案。但她强调,参与临床研究的人员必须了解AI的正确和错误应用及其适用场景。
研究人员警告,过度依赖AI工具可能牺牲科学严谨性,导致医疗领域出现过度泛化甚至虚构的数据。
哥德堡大学医学研究员Almira Osmanovic Thunström曾上传两篇明显伪造的研究到预印本服务器,成功诱使大型语言模型误判一种虚构的皮肤病为真实存在。不久后,其他同行评审期刊竟发表了引用这些预印本的论文(后被撤回),暴露出其有效性问题。
《自然医学》社论总结道:“未来的进展不仅依赖于更好的模型和新应用,还需明确临床影响的定义、评估和沟通方式。若缺乏声明与证据的清晰联系,医疗AI可能会被过快采用,而其真实价值尚未被充分理解。”
更多关于医疗AI的信息,请参见: 数百万美国人选择向AI咨询医疗问题,结果却收到严重错误的建议


