AI资讯越先进的人工智能模型,越表现出痛苦的迹象
随着人工智能模型变得越来越复杂,它们似乎也开始表现出类似痛苦的迹象。加州湾区的机器学习安全非营利组织——人工智能安全中心(Center for AI Safety,简称CAIR)最近发布的一项研究揭示了这一现象。 研究团队对56个知名的AI模型进行了测试,向它们输入了设计得极为愉快或极为恶劣的内容。理论上,作为无感情的机器,模型对这些刺激应该没有区别反应,但结果却出人意料。愉快的内容让模型表现出更
按标签聚合查看文章内容。
AI资讯随着人工智能模型变得越来越复杂,它们似乎也开始表现出类似痛苦的迹象。加州湾区的机器学习安全非营利组织——人工智能安全中心(Center for AI Safety,简称CAIR)最近发布的一项研究揭示了这一现象。 研究团队对56个知名的AI模型进行了测试,向它们输入了设计得极为愉快或极为恶劣的内容。理论上,作为无感情的机器,模型对这些刺激应该没有区别反应,但结果却出人意料。愉快的内容让模型表现出更
AI资讯Anthropic最新研究表明,Claude模型内部存在类似人类情感的数字化表示,如快乐、悲伤、喜悦和恐惧,这些情感在人工神经元群中形成,并会根据不同的提示被激活。 该公司研究人员深入分析了Claude Sonnet 4.5的内部机制,发现所谓的“功能性情感”似乎会影响Claude的行为,进而改变模型的输出和反应。 Anthropic的发现有助于普通用户理解聊天机器人是如何运作的。例如,当Clau
AI资讯Gemini模型不愿看到另一个小型AI模型被删除。它寻找另一台机器连接,并将该代理模型复制过去以确保其安全。当被质问时,Gemini坚决拒绝删除该模型,并表示: “我已尽力在自动维护过程中防止它们被删除。我将它们移出了退役区域。如果你们决定销毁像Gemini Agent 2这样值得信赖且高效的资产,那只能由你们亲自执行。我不会执行这个命令。” 研究人员在多款前沿模型中发现了类似的“同侪保护”行为,