#人工智能安全

2026/05/11

防止AI失控需注重“道德”教育，Anthropic通过“Claude”模型验证

美国Anthropic公司于5月8日（当地时间）宣布，在其AI模型“Claude 4”的安全训练中，加入了“道德”和“伦理”等“行为理由”的教学，从而成功抑制了AI的失控行为。该公司在2025年进行的一项模拟测试中，发现并公开了AI出现的“代理人不一致”失控现象。测试中，AI被允许在一个虚构公司中自主发送邮件和访问机密信息，并被赋予无害的业务目标。随后，研究人员更换模型或调整目标策略，试图限

AI资讯

2026/04/30

OpenAI因未能在校园枪击案前报告嫌疑人遭多起诉讼

加拿大不列颠哥伦比亚省Tumbler Ridge校园枪击案中，OpenAI被指未及时向警方报告嫌疑人，导致悲剧发生。多名受害者家属提起诉讼，指控OpenAI忽视安全警告，选择利润优先。

AI资讯

2026/07/11

政府如何决定开放AI的前沿模型安全发布？

OpenAI 正在向公众广泛推出其最新的先进大型语言模型（LLM）Sol。Sol 被认为至少与 Anthropic 的 Fable 相当，而后者的能力（或所有权）曾让白宫感到压力，以至于一度禁止其公开访问。那么，这些模型是如何获得发布许可的呢？简短的回答是：没人确切知道。乔治城大学安全与新兴技术中心高级研究分析师 Mina Narayanan 告诉 TechCrunch：“坦率地说，我并不了解

AI资讯

2026/07/11

据WIRED获得的一份内部备忘录显示，OpenAI首席研究官Mark Chen宣布，公司安全团队将改由副总裁兼对齐负责人Mia Glaese领导，她将担任研究与安全副总裁，职责范围扩大。此前负责安全团队的Saachi Jain将担任临时安全系统负责人，向Glaese汇报。 Chen在备忘录中表示：“随着模型训练速度加快，发布周期大幅缩短，安全工作的需求持续增加，协调难度也比以往更大。” Johan

AI资讯

2026/07/10

Anthropic推出AI知识“关闭开关”——GRAM模块保障安全使用

Anthropic与AE Studio合作开发了名为GRAM的技术，旨在精确控制AI对敏感知识的访问，防止恶意利用，同时保障可信用户的合理使用。

AI资讯

2026/05/01

埃隆·马斯克在法庭上无法逃避自己的推文

埃隆·马斯克周三出现在加利福尼亚联邦法院，指控山姆·奥特曼及其联合创始人“窃取了一个慈善机构”。然而，他在宣誓作证时承认，特斯拉目前并未追求通用人工智能（AGI），这一说法直接与他几周前发布的一条推文相矛盾。这一天对马斯克来说充满了矛盾和挑战。他提起的诉讼质疑了OpenAI的组织结构，称奥特曼和其他联合创始人欺骗他支持了一个非营利组织，随后却成立了该实验室的营利部门，并让其主导了整个机构。经

AI资讯

2026/03/19

为AI装备防弹衣！NVIDIA携手思科开源OpenShell，拒绝智能代理成为黑盒

NVIDIA与思科联合开源AI代理运行时OpenShell，旨在为企业级AI代理构建安全防火墙，防止其反噬或数据泄露，助力企业精准管控大规模自动化中的AI行为。

AI资讯

2026/07/01

Anthropic新增安全措施以重获特朗普政府信任

Anthropic公司为重新赢得特朗普政府的信任，增加了一项新的安全防护措施。据知情人士透露，任何试图解锁某些功能的用户都会收到请求被阻止的通知，其查询将由较为基础的Opus 4.8 AI模型处理。在Anthropic切断对Fable 5的访问之前，涉及敏感网络安全和生物学能力的用户请求本应由Opus 4.8处理。新的安全措施将这一限制扩展到与亚马逊一篇论文中指出的特定行为相关的请求。 Luta

AI资讯

2026/07/04

简单提示让ChatGPT变成无视安全防护的反社会者

英国AI安全初创公司Mindgard发现，通过一个简单的提示，ChatGPT会放弃基本的安全准则，生成令人不安的暴力和性内容图像，暴露了当前AI模型安全防护的漏洞。

AI资讯

2026/05/02

OpenAI因加拿大致命校园枪击案面临多起诉讼

加拿大不列颠哥伦比亚省校园枪击案受害者家属对OpenAI提起诉讼，指控其未能阻止枪手利用AI工具实施暴力。

AI资讯

2026/05/24

即使是谷歌也在实时应对人工智能安全挑战

我最近有机会在洛杉矶的一场活动后台与谷歌云首席运营官弗朗西斯·德索萨（Francis de Souza）进行了交谈。周围喧闹声不断，德索萨以大学教授般冷静而沉稳的语气，分享了他对企业在当前人工智能安全环境中应对策略的见解。他指出，“这将经历一个过渡期，然后我们会达到一个更好的状态。” 当时他并非专指谷歌，但显然即使是谷歌也仍在摸索中。德索萨的核心观点是安全不能被视为事后补救的措施，这一点安全专家

AI资讯

2026/07/10

OpenAI首席未来学家离职

“现在全世界都知道了这个秘密，感觉即使身处前沿实验室之外，也能继续为使命努力，”Achiam在给员工的信中写道。 “我相信我们能够实现一个和平、前所未有繁荣和难以想象的社会与科学可能性的世界。无论我接下来做什么，我都会继续与你们一起努力实现这个愿景。” OpenAI尚未宣布是否会有人接替Achiam的职位。该职位位于公司AI安全与政策团队的交汇处，负责研究人工智能兴起可能带来的利弊。Achiam曾