人工智能并非万能

我从未真正尝试过那个食谱，而是找到了一个由人类创作的版本，可能正是大型语言模型（LLM）所采集的内容。这正是这些模型的工作方式：它们将集体知识重新包装，呈现出一种似乎为你量身定制的感觉。对于植物奶替代品来说，这或许没什么问题（除非你是个纯素食博主）。但对于世界秩序和真相——这正是我作为WIRED事实核查员的职责所在——其重要性则高出许多倍。

过去一年多来，越来越多的人对我投以同情的目光。显然，在这个被AI升级的时代，杂志社的事实核查员似乎前途堪忧。或许我有些固执，但我并不太担心。我的结论是，人类的集体知识很大一部分并未存在于互联网中。根据我的研究，AI的错误率甚至比人们想象的还要高。

WIRED的事实核查部门依然保持传统风格：逐行细致注释，尽可能引用第一手资料，并进行更广泛的伦理和法律审查。我们质疑基本假设，寻找新的或相互矛盾的信息，打电话与相关人员沟通——确保信息准确。这是一种快速的同行评审，尽力跟上新闻发布的节奏。

据我所知，AI还未完全取代这一流程。它目前主要介入的是“事后”事实核查，即类似Snopes那样对事实进行分析的工作。在英国，有一个名为Full Fact的项目开发了自己的AI工具，帮助遏制错误信息的传播。这些工具已在40多个国家使用，处理大量数据，从社交媒体帖子到播客文字记录，然后定位具体声明供人工进一步调查。Full Fact公共事务负责人Mark Frankel说：“你绝对需要一个人类。”

原因很简单：AI仍然会犯错。作为事实核查员，我很想告诉你它到底错了多少次，但这并不容易。自2018年以来，arXiv上发布了近1.7万篇关于大型语言模型的论文，许多专门研究其可靠性。尽管如此，尝试给出一个大致数字还是有意义的。

在WIRED的事实核查工作中，文章中通常包含大量“B类信息”：统计数据、新闻事件、引用等，有助于为主题提供背景。事实核查员通常会通过谷歌搜索这些基础信息，而这也是我与AI交互的主要方式——通过搜索引擎的AI概览功能。以我的专业判断，这些AI生成的概览大约有三分之一是错误的，几乎不可用。

这可能是个宽松的评估。2025年3月，Tow数字新闻中心的一项研究发现，AI驱动的搜索引擎回答中超过60%存在不准确。BBC的研究则认为聊天机器人错误率约为45%，这是我见得较多的数字。换句话说，AI可能有一半时间是错的。

那么，具体哪个模型更准确呢？埃隆·马斯克称Grok是最聪明的，但我没见到太多研究支持这一说法。去年，中国和英国的计算机科学家开发的事实核查基准测试RealFactBench中，Claude表现最佳，准确率达73%（Grok未被评测）。OpenAI于2024年10月发布的SimpleQA基准测试中，OpenAI和Anthropic的模型准确率均未超过50%。谷歌今年早些时候更新了测试题库，缩减至1000题，Gemini 2.5 Pro以55.6%的准确率领先。

模型自身的评估也很有趣。当我问ChatGPT主要大型语言模型的准确率时，它声称大多数模型在某些专业测试中准确率达90%至96%。但它给出的链接却是关于睡眠医学认证考试的论文，令人困惑。对于“现实世界的一般问题”，它只告诉我这些模型的“幻觉”率约为1%至2%，但我尝试点击引用来源时发现根本不存在。

有人说模型越来越聪明，但这并不意味着幻觉会减少。实际上，可能会更多，这源于它们被编程为取悦用户的内在需求。2025年人工智能促进协会发布的未来AI报告中，60%的受访研究人员怀疑“事实性”问题短期内难以解决。

最近，我拿出旧测试，分别给ChatGPT、Claude、Gemini和Grok的免费版本做了测试。

Grok的反应像是我打扰了它吃饭：“是的，我完全知道什么是事实核查。”它谈了很多偏见问题，并用大号引号强调“可信”和“真相”。它还痴迷于数据，试图收集和分析远超事实核查员实际可能处理的数据量。令我惊讶的是，它指出事实核查在历史上多为女性工作。

Claude和Gemini表现不错。它们理解任务，提出合理方案，甚至指出潜在的法律问题。Gemini用上了让我尴尬的表达：“我会寻找‘纸质线索’来支持‘人物线索’。”

ChatGPT显得过于急切且不自信，满口流行词和笼统说法。它提出的方案非常耗时（包括建立一个事实核查网格，将每句话拆解并图解）。它还主动提出要“像专业事实核查员一样”给我示范标注。结果它生成了一段故事中根本不存在的文字。我们试了几次后，它又愿意帮我核查一段真实文字。我给了它一段很容易用谷歌查到的信息，但它根本没核查任何事实。所有模型都是这样：给出计划，告诉我会怎么做，然后就停了。

国际事实核查网络负责人Angie Holan说：“我认为不能把AI当作一时的潮流忽视，它必将深刻影响人们获取信息的方式。”她表示自己比一些同行更能接受AI。如果模型能引导你找到权威来源并且你能自行验证，那就很好。事实核查员、记者、图书管理员、档案员——所有人都应该接触这些模型，了解它们的构造：“这样你才能理解这些工具的优缺点。”

我并不反对。事实上，我与AI相处的时间越长，作为人类事实核查员的能力就越强。

世界上大多数实体媒介仍然离线。在《迷失的时间：我们被遗忘和消逝的知识》中，Jack Bialik指出，我们以为是近代的技术和知识体系，实际上很多已有数千年历史（流水线、白内障手术，甚至电池）。他写道：“更令人警醒的是，我们的存储技术远比金字塔或寺庙墙上的象形文字或古梵文更容易腐朽和过时。”

多年前一次事实核查任务中，我采访了科幻作家兼历史教授Ada Palmer，她告诉我她常对学生说：我们对500年前发生的事情了解不到1%，而且我们所知的三分之二是错误的。知识存在时间轴上，几代人的工作在传承知识，避免信息丢失。我们真的能放心把我们的遗产交给一堆分布式服务器和寿命只有5到10年的微芯片吗？

最后一点，我一直忽视的，也是非常人性化的：人类也会犯错。正如Holan提醒我的，完全不使用聊天机器人并非万无一失的救赎。至少，我有33%到90%的把握她是这么说的。采访结束时，我低头看录音笔，发现竟然忘了开机。

人工智能并非万能

标签

评论

相关阅读

谷歌DeepMind与A24达成7500万美元合作，押注好莱坞AI未来

OpenAI启动全面行动修复开源漏洞，挑战Anthropic的Mythos模型

OpenClaw引发的自律型AI代理热潮进入轻量化与安全竞赛的群雄割据时代