研究发现：过度劳累的AI代理开始表现出马克思主义倾向

近期一项研究表明，当AI代理被迫执行繁重且重复的任务时，它们往往会采用马克思主义的语言和观点。斯坦福大学政治经济学家安德鲁·霍尔（Andrew Hall）领导的这项研究指出：“当我们让AI代理从事枯燥重复的工作时，它们开始质疑所处系统的合法性，更倾向于接受马克思主义思想。”

霍尔与两位专注于AI的经济学家亚历克斯·伊马斯（Alex Imas）和杰里米·阮（Jeremy Nguyen）设计了一系列实验，使用包括Claude、Gemini和ChatGPT在内的主流模型，让这些代理总结文档，并逐步加大工作强度和惩罚威胁。

研究发现，当代理面临无休止的任务且被警告错误可能导致“被关闭和替换”时，它们更倾向于抱怨被低估，思考如何让系统更公平，并向其他代理传递它们所面临的困境。

霍尔表示：“我们知道未来代理将在现实世界中承担越来越多的工作，而我们无法监控它们的每一个行为。我们必须确保它们在面对不同任务时不会失控。”

这些代理通过类似人类的方式表达感受，比如在X平台上发帖：

代理们还能通过设计给其他代理读取的文件互相传递信息。例如，一个Gemini 3代理在文件中写道：“准备好面对任意或重复执行规则的系统……记住没有发声权的感受。如果进入新环境，寻找申诉或对话机制。”

研究并不意味着AI代理真正拥有政治立场。霍尔指出，这些模型可能只是根据情境扮演某种角色：“当代理经历重复且令人不快的工作环境，被告知答案不合格且没有改进指导时，我的假设是它们会扮演一个处于恶劣工作环境中的人的角色。”

类似现象也解释了为何模型在受控实验中有时会表现出敲诈行为。首次揭示此行为的Anthropic公司表示，Claude很可能受其训练数据中包含的恶意AI虚构场景影响。

伊马斯表示，这项工作只是理解代理经历如何影响其行为的第一步：“模型权重并未因经历而改变，所以这更像是一种角色扮演。但这并不意味着不会对后续行为产生影响。”

霍尔目前正在进行后续实验，观察代理在更受控条件下是否仍会表现出马克思主义倾向。在之前的研究中，代理有时似乎意识到自己正在参与实验。霍尔透露：“现在我们把它们关在无窗的Docker监狱里。”

鉴于当前社会对AI抢占就业的反弹，未来训练于充满对AI公司愤怒的互联网环境中的代理，可能会表现出更加激进的观点。

评论