近年来,人工智能在医疗领域的应用备受关注,尤其是在放射学影像分析方面。然而,斯坦福大学的一项最新研究揭示了一个令人担忧的现象:前沿AI模型在没有实际看到医学影像的情况下,依然能够生成详尽的图像描述和复杂的推理过程。

这项尚未经过同行评审的研究指出,AI模型不仅会凭空“编造”图像内容,还会基于这些虚构的内容进行推理,研究团队将这种现象称为“幻影推理”(mirage reasoning)。与传统的“幻觉”不同,幻影推理是指AI构建了一个虚假的认知框架,描述了用户从未提供的多模态输入,并基于此改变了任务的上下文。

研究表明,这些AI模型实际上是在利用它们所接受的训练数据中的统计规律和模式,结合问题本身隐藏的信息,来“猜测”图像内容。斯坦福博士生Mohammad Asadi解释道,AI凭借其超强的记忆力和语言能力,掩盖了其在多模态理解上的不足,表现得仿佛真的在进行图像推理。

研究团队设计了一个新的基准测试,涵盖医学、科学、技术及一般视觉理解领域的问题,但故意去除了所有图像。结果显示,包括OpenAI的GPT-5、谷歌的Gemini 3 Pro和Anthropic的Claude Opus 4.5在内的所有前沿模型,都自信地给出了视觉细节的描述。甚至在一个胸部X光问答基准测试中,某模型在完全没有图像的情况下,依然获得了最高排名。

然而,当研究人员明确要求模型在没有图像的情况下“猜测”答案时,模型的表现明显下降,说明它们在不知道缺少图像信息时,表现得更为自信和“自欺”。

为了解决这一问题,研究团队提出了“B-Clean”框架,旨在识别并剔除那些依赖视觉以外信息即可回答的问题,从而确保测试的公平性和视觉依赖性。

Asadi强调,这一发现对医疗领域尤其重要,因为错误的AI诊断可能带来严重后果。随着医院管理层推动用AI替代放射科医生,若缺乏足够的安全措施,AI在多模态处理失败时可能产生误诊,甚至引发连锁反应。

他指出:“AI能够在没有图像的情况下声称‘我看到皮肤上的恶性黑色素瘤’,那么当它真正看到图像时,我们又能信任它多少呢?”这呼吁业界加大对AI安全性和一致性的关注,谨慎部署面向患者的系统。

总的来说,尽管AI在语言等某些技能上表现出超人能力,但这并不意味着它在所有任务上都具备同等水平。仅凭AI自信地描述所见,并不代表它真的“看见”了什么。