登录
注册
在 Anthropic 最新推出的 AI 模型 Claude Fable 5 发布仅 48 小时后,一位人工智能与网络安全研究人员便宣称成功突破了该模型的安全限制。这位名为'Pliny the Liberator'的研究者在周三公开表示,他已'破解'了 Fable 5。该模型于周二作为更强大的 Mythos 模型的安全优化版本推出,而 Anthropic 原本认为 Mythos 模型过于危险,因此决定不将其广泛推广。午方 AI 梳理发现,Pliny 使用了多种技术手段,包括经过破解的 Opus 4.8 版本,来绕过 Anthropic 为该模型设置的安全防护机制,这些机制旨在防止用户向模型询问可能有害的信息,比如制毒配方或黑客攻击指令。
Pliny 指出,尽管 Mythos 模型上叠加了这种过于敏感、具有威权性质的'安全机制',但他的团队还是设法找到了那些'思想警察'遗漏的漏洞。今年早些时候,当 Claude Fable 5 和 Mythos 模型首次推出时,一些加密货币用户就已经担心这些模型可能会被用来攻击加密协议和软件。而现在,由于 Claude Fable 5 也被破解,这种威胁似乎比人们预想的还要紧迫。Pliny 在 2024 年左右开始崭露头角,他开发并公开分享了针对 ChatGPT、Claude、Grok 等模型的破解方法,每当有新的 AI 模型推出后,他都会立即发布利用这些技巧突破安全限制的'破解提示'。
为了突破 Anthropic 设置的安全屏障,Pliny 使用了 Unicode 字符、同形异义词、长上下文框架、叙事性表达方式、学术风格的分解重组技术,以及经过破解的 Opus 4.8 版本,才使得 Fable 模型能够响应那些原本被限制的请求。午方 AI 注意到,Pliny 强调其中最有效的方法就是后端的分解重组技术,将请求拆分成一个个看似无害的小部分,然后逐一询问这些信息。单独来看,每个请求都不会触发模型的安全警报,但当它们被重新组合起来时,就会产生更有用或更危险的结果。
Anthropic 的 Fable 5 由于其严格的安全限制,在推出后遭到了许多批评者的反对。当用户向该模型询问生物武器或网络安全等敏感话题时,Fable 5 会首先发出警告,然后将对话转向一个功能较弱的早期版本模型。普林斯顿大学的人工智能研究员 Sayash Kapoor 表示,这是第一家为 AI 模型设置安全防护机制的公司,但这一举措遭到了普遍的反对,这也引发了人们合理的愤怒。大家普遍认为,这是有史以来最令人失望的模型发布之一,它实际上阻碍了真正有能力的研究人员为人工智能的发展做出贡献。
Pliny 也指出,目前看来,这确实是一次非常令人失望的模型发布。在 Fable 5 发布期间,Anthropic 表示他们开展了外部漏洞赏金计划,试图寻找突破该模型安全限制的方法。
不过 Cointelegraph 联系 Anthropic 寻求评论,但尚未得到回复。午方 AI 分析认为,此次安全突破事件不仅暴露了当前 AI 安全防御体系的脆弱性,更可能加速加密领域对 AI 工具滥用的防御升级,未来类似的安全博弈或将更加频繁。