前沿AI模型在诊断医学X光片时表现出极其奇怪的行为

近年来，人工智能在医疗领域的应用备受关注，尤其是在放射学影像分析方面。然而，斯坦福大学的一项最新研究揭示了一个令人担忧的现象：前沿AI模型在没有实际看到医学影像的情况下，依然能够生成详尽的图像描述和复杂的推理过程。

这项尚未经过同行评审的研究指出，AI模型不仅会凭空“编造”图像内容，还会基于这些虚构的内容进行推理，研究团队将这种现象称为“幻影推理”（mirage reasoning）。与传统的“幻觉”不同，幻影推理是指AI构建了一个虚假的认知框架，描述了用户从未提供的多模态输入，并基于此改变了任务的上下文。

研究表明，这些AI模型实际上是在利用它们所接受的训练数据中的统计规律和模式，结合问题本身隐藏的信息，来“猜测”图像内容。斯坦福博士生Mohammad Asadi解释道，AI凭借其超强的记忆力和语言能力，掩盖了其在多模态理解上的不足，表现得仿佛真的在进行图像推理。

研究团队设计了一个新的基准测试，涵盖医学、科学、技术及一般视觉理解领域的问题，但故意去除了所有图像。结果显示，包括OpenAI的GPT-5、谷歌的Gemini 3 Pro和Anthropic的Claude Opus 4.5在内的所有前沿模型，都自信地给出了视觉细节的描述。甚至在一个胸部X光问答基准测试中，某模型在完全没有图像的情况下，依然获得了最高排名。

然而，当研究人员明确要求模型在没有图像的情况下“猜测”答案时，模型的表现明显下降，说明它们在不知道缺少图像信息时，表现得更为自信和“自欺”。

为了解决这一问题，研究团队提出了“B-Clean”框架，旨在识别并剔除那些依赖视觉以外信息即可回答的问题，从而确保测试的公平性和视觉依赖性。

Asadi强调，这一发现对医疗领域尤其重要，因为错误的AI诊断可能带来严重后果。随着医院管理层推动用AI替代放射科医生，若缺乏足够的安全措施，AI在多模态处理失败时可能产生误诊，甚至引发连锁反应。

他指出：“AI能够在没有图像的情况下声称‘我看到皮肤上的恶性黑色素瘤’，那么当它真正看到图像时，我们又能信任它多少呢？”这呼吁业界加大对AI安全性和一致性的关注，谨慎部署面向患者的系统。

总的来说，尽管AI在语言等某些技能上表现出超人能力，但这并不意味着它在所有任务上都具备同等水平。仅凭AI自信地描述所见，并不代表它真的“看见”了什么。

前沿AI模型在诊断医学X光片时表现出极其奇怪的行为

标签

评论

相关阅读

Zendesk收购智能客服初创公司Forethought

InsightFinder获1500万美元融资助力企业定位AI代理出错原因

Hightouch借助AI驱动的营销工具实现1亿美元年经常性收入

前沿AI模型在诊断医学X光片时表现出极其奇怪的行为

标签

评论

相关阅读

Zendesk收购智能客服初创公司Forethought

InsightFinder获1500万美元融资 助力企业定位AI代理出错原因

Hightouch借助AI驱动的营销工具实现1亿美元年经常性收入

InsightFinder获1500万美元融资助力企业定位AI代理出错原因