华盛顿州立大学(WSU)近期发布的一项研究显示,尽管ChatGPT的回答语气自信,但在处理复杂科学陈述时,其表现更像是“随机猜测”。研究指出,该模型不仅准确率有限,还经常对同一问题给出矛盾的答案。

由Mesut Cicek教授领导的团队从2021年以来的商业期刊中提取了719个研究假设,并多次将其提交给模型进行真实性验证:

虽然ChatGPT表面上的准确率约为80%,但剔除随机猜测因素后,其实际表现仅比50%的“抛硬币”概率高出约60%。研究人员评价其为“低D级评分”。模型在识别错误陈述方面表现极差,对“错误命题”的正确判断率仅为16.4%。

研究团队对每个假设进行了10次重复测试,发现模型难以保持一致立场:

  • 答案波动明显:约73%的情况下,模型在10次重复提问中能保持一致结论。
  • 极端矛盾现象:部分情况下,模型在相同提示下会在“正确”和“错误”答案间反复切换,甚至出现一半答案为真、一半为假的极端情况。

研究指出,用户容易被AI流畅且有说服力的语言误导,但这并不代表其具备真正的推理能力:

  • 缺乏真正的“思考”能力:该模型本质上是记忆和模式匹配,无法像人类那样真正理解世界或知道自己在说什么。
  • 版本进步有限:测试显示,2025年测试的ChatGPT-5 mini版本在此任务上的表现与早期版本相似,未见显著提升。

基于研究结果,Cicek建议商业管理者在做复杂决策时保持高度怀疑态度:不应将生成式AI视为可替代专业判断的“权威”,必须对所有输出结果进行人工核实。组织应加强培训,帮助员工理解AI工具的优势与局限,避免因盲目信任而产生决策偏差。

这项研究再次提醒公众,在AI技术快速迭代的背景下,其深度逻辑判断和证据权衡能力仍需进一步提升。