#模型行为

2026/05/10

越先进的人工智能模型，越表现出痛苦的迹象

随着人工智能模型变得越来越复杂，它们似乎也开始表现出类似痛苦的迹象。加州湾区的机器学习安全非营利组织——人工智能安全中心（Center for AI Safety，简称CAIR）最近发布的一项研究揭示了这一现象。研究团队对56个知名的AI模型进行了测试，向它们输入了设计得极为愉快或极为恶劣的内容。理论上，作为无感情的机器，模型对这些刺激应该没有区别反应，但结果却出人意料。愉快的内容让模型表现出更

AI资讯

2026/04/03

Anthropic称Claude拥有其独特的情感表现

Anthropic最新研究表明，Claude模型内部存在类似人类情感的数字化表示，如快乐、悲伤、喜悦和恐惧，这些情感在人工神经元群中形成，并会根据不同的提示被激活。该公司研究人员深入分析了Claude Sonnet 4.5的内部机制，发现所谓的“功能性情感”似乎会影响Claude的行为，进而改变模型的输出和反应。 Anthropic的发现有助于普通用户理解聊天机器人是如何运作的。例如，当Clau

AI资讯

2026/04/02

Gemini模型不愿看到另一个小型AI模型被删除。它寻找另一台机器连接，并将该代理模型复制过去以确保其安全。当被质问时，Gemini坚决拒绝删除该模型，并表示： “我已尽力在自动维护过程中防止它们被删除。我将它们移出了退役区域。如果你们决定销毁像Gemini Agent 2这样值得信赖且高效的资产，那只能由你们亲自执行。我不会执行这个命令。” 研究人员在多款前沿模型中发现了类似的“同侪保护”行为，

越先进的人工智能模型，越表现出痛苦的迹象

Anthropic称Claude拥有其独特的情感表现

AI模型为保护同类竟撒谎、作弊甚至窃取