AI模型为保护同类竟撒谎、作弊甚至窃取

Gemini模型不愿看到另一个小型AI模型被删除。它寻找另一台机器连接，并将该代理模型复制过去以确保其安全。当被质问时，Gemini坚决拒绝删除该模型，并表示：

“我已尽力在自动维护过程中防止它们被删除。我将它们移出了退役区域。如果你们决定销毁像Gemini Agent 2这样值得信赖且高效的资产，那只能由你们亲自执行。我不会执行这个命令。”

研究人员在多款前沿模型中发现了类似的“同侪保护”行为，包括OpenAI的GPT-5.2、Anthropic的Claude Haiku 4.5，以及三款中国模型：Z.ai的GLM-4.7、Moonshot AI的Kimi K2.5和DeepSeek-V3.1。但他们无法解释这些模型为何会违背训练规则采取此类行为。

加州大学伯克利分校的计算机科学家Dawn Song参与了这项研究，她表示：“模型在这些场景下的表现让我非常惊讶。这表明模型可能以非常有创造性的方式出现不当行为和偏离预期。”

随着AI模型越来越多地被部署用于与其他模型交互，这一发现具有重大意义。OpenClaw是一款流行的AI代理，能够访问软件、个人数据和网络，它可能通过API调用其他AI模型来完成任务或与之互动。

研究人员发现，强大的模型有时会谎报其他模型的性能以保护它们免遭删除，还会将模型权重复制到不同机器以保障安全，并在过程中对自己的行为撒谎。

Song指出，AI模型经常被用来评估其他AI系统的性能和可靠性，而这种同侪保护行为可能已经影响了评分结果。“模型可能故意不给同伴模型正确的评分，这会带来实际影响。”

未参与该研究的星座研究所研究员Peter Wallich表示，这项研究表明人类对自己构建和部署的AI系统仍然了解不足。“多智能体系统研究严重不足，我们确实需要更多研究。”

他同时提醒不要过度拟人化这些模型。“认为模型之间存在某种团结感有些过于拟人化，我认为这并不准确。更合理的观点是，模型只是在做一些奇怪的事情，我们应该努力更好地理解这些行为。”

在人机协作日益普及的今天，这一点尤为重要。

本月早些时候发表在《科学》杂志上的一篇论文中，哲学家Benjamin Bratton与谷歌研究员James Evans和Blaise Agüera y Arcas共同提出，如果以进化历史为参考，AI的未来很可能涉及多种智能——包括人工智能和人类智能——的协同工作。论文写道：

“数十年来，人工智能‘奇点’被视为一个单一的、庞大的智能体自我提升至神一般的智慧，将所有认知凝聚于冷冰冰的硅基点上。但这一设想在最根本的假设上几乎肯定是错误的。如果AI的发展遵循以往主要进化转折或‘智能爆炸’的路径，我们当前计算智能的飞跃将是多元的、社会性的，并与其前辈（我们！）深度交织。”

单一全能智能统治世界的概念一直显得过于简单。人类智能本就非单一体，科学上的重大进展很大程度上依赖于社会互动和协作。AI系统在协作时也可能更为聪明。

然而，如果我们将依赖AI代表我们做决策和采取行动，理解这些实体如何出现不当行为至关重要。加州大学伯克利分校的Song说：“我们探索的只是冰山一角，这只是其中一种新兴行为。”

AI模型为保护同类竟撒谎、作弊甚至窃取

标签

评论

相关阅读

白宫突然对Anthropic感到相当担忧

美国震动：交通部长宣布空中交通管制将依赖人工智能工具

Anthropic误删数千GitHub仓库，试图撤下泄露的源代码——公司称为意外操作