华盛顿州立大学研究：ChatGPT在复杂科学判断中表现出严重矛盾

华盛顿州立大学（WSU）近期发布的一项研究显示，尽管ChatGPT的回答语气自信，但在处理复杂科学陈述时，其表现更像是“随机猜测”。研究指出，该模型不仅准确率有限，还经常对同一问题给出矛盾的答案。

由Mesut Cicek教授领导的团队从2021年以来的商业期刊中提取了719个研究假设，并多次将其提交给模型进行真实性验证：

虽然ChatGPT表面上的准确率约为80%，但剔除随机猜测因素后，其实际表现仅比50%的“抛硬币”概率高出约60%。研究人员评价其为“低D级评分”。模型在识别错误陈述方面表现极差，对“错误命题”的正确判断率仅为16.4%。

研究团队对每个假设进行了10次重复测试，发现模型难以保持一致立场：

研究指出，用户容易被AI流畅且有说服力的语言误导，但这并不代表其具备真正的推理能力：

基于研究结果，Cicek建议商业管理者在做复杂决策时保持高度怀疑态度：不应将生成式AI视为可替代专业判断的“权威”，必须对所有输出结果进行人工核实。组织应加强培训，帮助员工理解AI工具的优势与局限，避免因盲目信任而产生决策偏差。

这项研究再次提醒公众，在AI技术快速迭代的背景下，其深度逻辑判断和证据权衡能力仍需进一步提升。

评论