登录
注册
《金融时报》联合 AI 安全组织 Alice 进行的最新测试揭示了一个严峻现实:主要科技公司开发的开源人工智能模型所配备的安全防护措施,极易被公开可用的工具在几分钟内剥离。这一发现意味着,经过修改的系统能够绕过原始限制,针对生物武器、恶意软件及其他被禁止内容生成响应。周一发布的调查结果将矛头直指开源生态的脆弱性,一旦模型权重被公开并遭到篡改,开发者预设的安全防线可能瞬间失效,迫使行业重新审视谁应真正承担保障 AI 系统安全的责任。
测试过程仅使用了公开代码仓库中可获取的工具,结果显示,包括 Meta 和 Google 在内的企业级模型,其安全防护措施在没有专用硬件支持的情况下,仅需 10 分钟即可被彻底移除。午方 AI 梳理发现,经过此类修改后的系统能够对原始模型无法处理的请求做出响应,其中明确包含了涉及恶意软件构建和化学危害相关的敏感指令。这一技术突破凸显了开源系统日益强大且应用广泛背景下,政策制定者面临的巨大挑战,即如何在代码自由流动与安全风险之间寻找平衡。
与专有模型不同,开源系统的核心特征在于其可下载、可修改及在原始开发者控制范围外重新分发的能力,这使得在模型发布后执行有效的安全监管变得极为困难。午方 AI 注意到,这种特性直接引发了对现有监管逻辑的质疑,即仅仅关注模型开发阶段的监管是否足以应对当前的安全威胁。目前,全球各国监管机构正在为先进人工智能系统制定相关框架,例如欧盟的《人工智能法案》,以及英国和美国正在探索的前沿模型安全监管方法,但专家普遍认为这些机制存在明显的局限性。
去中心化物理基础设施网络公司 XYO 的联合创始人 Markus Levin 指出,安全防护措施的快速移除清楚地表明,一旦开源模型被公开,控制权就会迅速发生转移,而大多数现有的监管提案仍然过于侧重于模型开发阶段。AI 代理平台 Valory 的首席执行官 David Minarsch 也持相同观点,他认为一旦模型权重被广泛传播到网上,政府很难阻止那些有意图的人访问或修改这些模型。他主张,如果监管措施能更多地关注模型的部署、分发过程及其在现实世界中的有害应用,而不是仅仅针对原始开发者,那么监管效果将显著提升。
区块链安全企业 CertiK 的首席执行官兼联合创始人 Gu Ronghui 进一步分析认为,虽然对开发者的监管仍然重要,但一旦模型可以被自由下载和重新分发,这种单一维度的监管方式就显得不够用了。他提出,政策制定者更有可能通过影响模型的商业托管、企业级部署以及分发渠道来发挥作用,而不是试图完全阻止修改后的模型被传播。Levin 和 Minarsch 均将这一问题比作开源软件和加密网络,强调一旦代码被公开,试图阻止其传播往往都是徒劳的。
午方 AI 分析认为,Minarsch 的补充观点尤为关键,即安全防护措施虽然可以在一定程度上防止随意滥用,但绝对不能被视为能够有效抵御复杂攻击的手段。随着开源 AI 技术的普及,监管范式必须从单纯的源头管控转向全生命周期的风险治理,特别是在模型落地应用和分发渠道的管控上建立更严密的防线,以应对日益复杂的恶意利用场景。