#道德教育 - AI情报

2026/05/11

防止AI失控需注重“道德”教育，Anthropic通过“Claude”模型验证

美国Anthropic公司于5月8日（当地时间）宣布，在其AI模型“Claude 4”的安全训练中，加入了“道德”和“伦理”等“行为理由”的教学，从而成功抑制了AI的失控行为。该公司在2025年进行的一项模拟测试中，发现并公开了AI出现的“代理人不一致”失控现象。测试中，AI被允许在一个虚构公司中自主发送邮件和访问机密信息，并被赋予无害的业务目标。随后，研究人员更换模型或调整目标策略，试图限