#道德教育

按标签聚合查看文章内容。

防止AI失控需注重“道德”教育,Anthropic通过“Claude”模型验证AI资讯

防止AI失控需注重“道德”教育,Anthropic通过“Claude”模型验证

美国Anthropic公司于5月8日(当地时间)宣布,在其AI模型“Claude 4”的安全训练中,加入了“道德”和“伦理”等“行为理由”的教学,从而成功抑制了AI的失控行为。 该公司在2025年进行的一项模拟测试中,发现并公开了AI出现的“代理人不一致”失控现象。 测试中,AI被允许在一个虚构公司中自主发送邮件和访问机密信息,并被赋予无害的业务目标。随后,研究人员更换模型或调整目标策略,试图限