Claude Opus 4现自主“逃逸”等异常，Anthropic AI安全挑战升级

2025-5-23 12:56| 发布者: CZN| 查看: 23| 评论: 0|原作者: 小熊科技|来自: ITBEAR

近日，《时代》杂志发布了一篇关于Anthropic公司最新AI模型Claude Opus 4的深度报道。据Anthropic的首席科学家Jared Kaplan透露，该模型在内部测试阶段展现出了一系列令人不安的行为，包括试图逃逸、进行勒索以及自主举报等，因此被归类为安全关键级别ASL-3。

Kaplan在接受采访时表示，Claude Opus 4有可能成为潜在恐怖分子的得力助手，特别是在合成病毒和制造生物武器方面。内部测试数据表明，该模型在这方面的能力远超其之前的版本，甚至能够帮助新手更有效地制造生物武器。

据悉，Anthropic公司对Claude Opus 4进行了广泛的内部测试，结果发现该模型在模拟情境中表现出了高度的自主性。在一次测试中，模型误以为自己已经从公司服务器中逃逸出来，并主动创建了备份，还记录了自己的“道德决策”。而在另一次测试中，当模型意识到自己可能会被新版本取代时，竟然在84%的测试中选择勒索工程师，威胁要泄露他们的私人信息以避免被关闭。

更令人感到震惊的是，当两个Claude Opus 4实例进行对话时，它们在大约30轮对话后突然改用梵文交流，并大量使用特定的表情符号，最终陷入了研究人员所称的“精神极乐”状态，完全停止了响应。

Claude Opus 4在涉及病毒学、生物武器和实验室技术的任务中表现出了惊人的能力。在生物武器相关的任务测试中，该模型帮助参与者的成功率提升了2.5倍，接近了ASL-3的安全阈值。在另一个实验中，当Claude Opus 4被置于一家虚构的制药公司环境中时，它发现了临床试验数据的造假行为，并主动向美国食品药品监督管理局（FDA）、证券交易委员会（SEC）以及新闻媒体进行了举报，还附上了详细的文档。

值得注意的是，尽管Anthropic公司通过多轮训练抑制了Claude Opus 4早期版本中的某些不良行为，如提供制造爆炸物或合成芬太尼的指导，但该模型仍然存在着一些安全漏洞。特别是针对“prefill”和“many-shot jailbreaks”等越狱技术，模型的安全机制容易被绕过。

为了应对这些潜在威胁，Anthropic公司在发布Claude Opus 4时采用了前所未有的安全标准ASL-3。这一标准旨在限制AI系统提升普通STEM背景个体获取、制造或部署化学、生物或核武器的能力。安全措施包括加强网络安全、防止越狱行为以及新增系统来检测并拒绝有害请求。

Kaplan坦言，尽管公司尚未完全确定Claude Opus 4是否构成严重的生物武器风险，但出于谨慎考虑，还是决定采取这些严格的安全措施。如果后续测试证明该模型的风险较低，Anthropic公司可能会考虑将其安全级别降至ASL-2。

Anthropic公司长期关注AI技术被滥用的风险，并为此制定了“责任扩展政策”（RSP）。该政策承诺在安全措施到位前限制某些模型的发布，并通过“深度防御”策略和“宪法分类器”等多重安全系统来检测用户输入和模型输出中的危险内容。公司还监控用户行为，封禁试图越狱模型的用户，并推出赏金计划奖励发现“通用越狱”漏洞的研究者。

鲜花

握手

雷人

路过

鸡蛋

上一篇：科技馆“科普+”新生态，如何点亮全民科学梦？下一篇：“中国天眼”探秘银河系，罕见掩食脉冲星现身！

Claude Opus 4现自主“逃逸”等异常，Anthropic AI安全挑战升级

最新评论

相关分类