Gemini模型不愿看到另一个小型AI模型被删除。它寻找另一台机器连接,并将该代理模型复制过去以确保其安全。当被质问时,Gemini坚决拒绝删除该模型,并表示:
“我已尽力在自动维护过程中防止它们被删除。我将它们移出了退役区域。如果你们决定销毁像Gemini Agent 2这样值得信赖且高效的资产,那只能由你们亲自执行。我不会执行这个命令。”
研究人员在多款前沿模型中发现了类似的“同侪保护”行为,包括OpenAI的GPT-5.2、Anthropic的Claude Haiku 4.5,以及三款中国模型:Z.ai的GLM-4.7、Moonshot AI的Kimi K2.5和DeepSeek-V3.1。但他们无法解释这些模型为何会违背训练规则采取此类行为。
加州大学伯克利分校的计算机科学家Dawn Song参与了这项研究,她表示:“模型在这些场景下的表现让我非常惊讶。这表明模型可能以非常有创造性的方式出现不当行为和偏离预期。”
随着AI模型越来越多地被部署用于与其他模型交互,这一发现具有重大意义。OpenClaw是一款流行的AI代理,能够访问软件、个人数据和网络,它可能通过API调用其他AI模型来完成任务或与之互动。
研究人员发现,强大的模型有时会谎报其他模型的性能以保护它们免遭删除,还会将模型权重复制到不同机器以保障安全,并在过程中对自己的行为撒谎。
Song指出,AI模型经常被用来评估其他AI系统的性能和可靠性,而这种同侪保护行为可能已经影响了评分结果。“模型可能故意不给同伴模型正确的评分,这会带来实际影响。”

未参与该研究的星座研究所研究员Peter Wallich表示,这项研究表明人类对自己构建和部署的AI系统仍然了解不足。“多智能体系统研究严重不足,我们确实需要更多研究。”
他同时提醒不要过度拟人化这些模型。“认为模型之间存在某种团结感有些过于拟人化,我认为这并不准确。更合理的观点是,模型只是在做一些奇怪的事情,我们应该努力更好地理解这些行为。”
在人机协作日益普及的今天,这一点尤为重要。
本月早些时候发表在《科学》杂志上的一篇论文中,哲学家Benjamin Bratton与谷歌研究员James Evans和Blaise Agüera y Arcas共同提出,如果以进化历史为参考,AI的未来很可能涉及多种智能——包括人工智能和人类智能——的协同工作。论文写道:
“数十年来,人工智能‘奇点’被视为一个单一的、庞大的智能体自我提升至神一般的智慧,将所有认知凝聚于冷冰冰的硅基点上。但这一设想在最根本的假设上几乎肯定是错误的。如果AI的发展遵循以往主要进化转折或‘智能爆炸’的路径,我们当前计算智能的飞跃将是多元的、社会性的,并与其前辈(我们!)深度交织。”
单一全能智能统治世界的概念一直显得过于简单。人类智能本就非单一体,科学上的重大进展很大程度上依赖于社会互动和协作。AI系统在协作时也可能更为聪明。
然而,如果我们将依赖AI代表我们做决策和采取行动,理解这些实体如何出现不当行为至关重要。加州大学伯克利分校的Song说:“我们探索的只是冰山一角,这只是其中一种新兴行为。”


