
尽管谷歌的人工智能不再建议用户“吃石头”或自信地告诉用户在披萨上涂胶水,但即使是最先进的AI聊天机器人在提供医疗建议方面仍然表现极其不可靠。
本周发表在《JAMA Network Open》期刊上的一项新研究中,研究人员让21个前沿大型语言模型(LLMs)在面对真实且患者可能提出的症状时“扮演医生”角色。
结果令人震惊。当面对可能对应多种疾病的模糊症状时,AI的失败率超过80%;即使是包含体检发现和实验室结果的较为明确的病例,失败率仍高达40%。研究还发现,与人类医生不同,这些大型语言模型往往过早地给出单一诊断,导致所有模型的表现都很差。
麻省总医院创新与商业化副主任Marc Succi在声明中表示:“尽管持续改进,现成的大型语言模型尚未准备好进行无监督的临床级应用。鉴别诊断是临床推理的核心,也是AI目前无法复制的‘医学艺术’。”
在现实生活中,AI在未获得完整信息时贸然下结论,可能带来灾难性后果。例如,当有人向聊天机器人咨询皮疹或突发咳嗽时,可能会得到误导性甚至危险的建议。
这项研究凸显了依赖AI获取生死攸关健康建议的巨大风险,而这一趋势已在美国广泛存在。根据West Health-Gallup美国医疗中心最近的一项调查,四分之一的美国成年人——约6600万人——已经在向ChatGPT及类似聊天机器人寻求医疗建议。
调查显示,受访者通常在看医生前后都会咨询AI,有些人在与聊天机器人交流后甚至完全放弃了寻求现实医疗帮助。在向AI求医的人群中,有14%(超过900万人)表示如果没有AI,他们本应去看医生。

调查还发现,27%的人表示不想支付看医生的费用,14%的人表示负担不起,还有部分人因为时间或能力限制无法就医。
West Health政策中心主席Tim Lash指出:“人工智能已经在改变美国人获取健康信息、做出决策和与医疗提供者互动的方式,医疗系统必须跟上这一变化。”
综合这两项研究,当前美国医疗现状令人担忧。数百万美国人严重依赖AI工具,而这些工具经常给出错误建议,导致他们放弃向更专业的医生求助。
专家们早已批评AI提供错误医疗建议的问题,从谷歌AI给出危险且不准确的信息,到医生使用的转录工具“发明”不存在的药物。
即使信息错误,AI仍让患者产生确定感。最新调查显示,近一半受访者表示与聊天机器人讨论医疗问题后,在与医生交流时更有信心,22%的人认为AI帮助他们更早发现问题,19%的人表示避免了不必要的检查或治疗。
但同时,许多美国人对AI的医疗建议持高度怀疑态度。约三分之一的AI用户表示不信任该工具,10%的受访者认为AI给出了潜在不安全的建议。
可以肯定的是,AI行业迫切需要监管。
更多关于AI与医疗建议的信息,请参见: 前沿AI模型在诊断医疗X光片时表现异常


