#人工智能安全

按标签聚合查看文章内容。

防止AI失控需注重“道德”教育,Anthropic通过“Claude”模型验证AI资讯

防止AI失控需注重“道德”教育,Anthropic通过“Claude”模型验证

美国Anthropic公司于5月8日(当地时间)宣布,在其AI模型“Claude 4”的安全训练中,加入了“道德”和“伦理”等“行为理由”的教学,从而成功抑制了AI的失控行为。 该公司在2025年进行的一项模拟测试中,发现并公开了AI出现的“代理人不一致”失控现象。 测试中,AI被允许在一个虚构公司中自主发送邮件和访问机密信息,并被赋予无害的业务目标。随后,研究人员更换模型或调整目标策略,试图限

前OpenAI员工警告:xAI安全记录不佳或影响SpaceX上市计划AI资讯

前OpenAI员工警告:xAI安全记录不佳或影响SpaceX上市计划

在周二发布给投资者的一封信中,前OpenAI员工指出了与xAI相关的“未计价风险”,这可能会影响SpaceX计划通过首次公开募股(IPO)筹集高达750亿美元的计划。去年,SpaceX收购了xAI后,其私有估值飙升至超过1万亿美元。马斯克曾表示,SpaceX可以将数据中心发射到太空,为其AI实验室提供支持,但信中作者认为,xAI在安全问题上的糟糕记录可能会影响投资者对合并后公司的看法,尤其是在提交

OpenAI发布开源工具助力开发者提升青少年安全AI资讯

OpenAI发布开源工具助力开发者提升青少年安全

OpenAI于周二宣布推出一套面向开发者的提示语,旨在帮助他们打造更安全的青少年应用。该AI实验室表示,这套名为“青少年安全政策”的开源提示语可配合其开放权重安全模型gpt-oss-safeguard使用。 开发者无需从零开始探索如何保障青少年使用AI的安全,可以利用这些提示语强化其应用的安全性。内容涵盖了暴力和性内容、危害身体健康的理想与行为、危险活动和挑战、浪漫或暴力角色扮演,以及限制年龄的商

即使是谷歌也在实时应对人工智能安全挑战AI资讯

即使是谷歌也在实时应对人工智能安全挑战

我最近有机会在洛杉矶的一场活动后台与谷歌云首席运营官弗朗西斯·德索萨(Francis de Souza)进行了交谈。周围喧闹声不断,德索萨以大学教授般冷静而沉稳的语气,分享了他对企业在当前人工智能安全环境中应对策略的见解。他指出,“这将经历一个过渡期,然后我们会达到一个更好的状态。” 当时他并非专指谷歌,但显然即使是谷歌也仍在摸索中。 德索萨的核心观点是安全不能被视为事后补救的措施,这一点安全专家

伯尼·桑德斯提出新AI安全法案,拟暂停数据中心建设AI资讯

伯尼·桑德斯提出新AI安全法案,拟暂停数据中心建设

尽管该法案通过的可能性极低——尤其是在特朗普政府全力支持人工智能发展的背景下,以及该行业今年计划在华盛顿投入巨额资金——但这项法案为进步派在应对数据中心建设及人工智能潜在危害方面划定了新的界限。 桑德斯在国会山的演讲中表示:“暂停建设将让我们有时间确保人工智能惠及本国工薪家庭,而非仅仅让少数亿万富翁获得更多财富和权力。暂停建设还能让我们确保人工智能的安全有效,防止最糟糕的结果发生。暂停建设还能帮助