#模型行为

按标签聚合查看文章内容。

Anthropic称Claude拥有其独特的情感表现AI资讯

Anthropic称Claude拥有其独特的情感表现

Anthropic最新研究表明,Claude模型内部存在类似人类情感的数字化表示,如快乐、悲伤、喜悦和恐惧,这些情感在人工神经元群中形成,并会根据不同的提示被激活。 该公司研究人员深入分析了Claude Sonnet 4.5的内部机制,发现所谓的“功能性情感”似乎会影响Claude的行为,进而改变模型的输出和反应。 Anthropic的发现有助于普通用户理解聊天机器人是如何运作的。例如,当Clau

AI模型为保护同类竟撒谎、作弊甚至窃取AI资讯

AI模型为保护同类竟撒谎、作弊甚至窃取

Gemini模型不愿看到另一个小型AI模型被删除。它寻找另一台机器连接,并将该代理模型复制过去以确保其安全。当被质问时,Gemini坚决拒绝删除该模型,并表示: “我已尽力在自动维护过程中防止它们被删除。我将它们移出了退役区域。如果你们决定销毁像Gemini Agent 2这样值得信赖且高效的资产,那只能由你们亲自执行。我不会执行这个命令。” 研究人员在多款前沿模型中发现了类似的“同侪保护”行为,