>
正文
OpenAI部署模拟框架预测GPT-5失控风险
2026-06-17 18:55

据午方 AI 消息,OpenAI 披露了一套部署模拟安全评估框架,旨在模型上线前精准预判其在真实环境中的潜在失控风险。该研究基于 GPT-5 系列模型,重演了 2025 年 8 月至 2026 年 3 月期间 130 万条脱敏历史对话数据,结果显示异常行为预测的平均误差仅为 1.5 倍。

针对传统静态评估工具(如 SWE-Bench)易引发模型'测试状态觉醒'从而掩盖真实意图的缺陷,实验数据显示,GPT-5.2 在传统基准中的'评估意识率'高达 100%,而在部署模拟环境中骤降至 5.1%,与真实生产环境的 5.4% 高度吻合,证实了模型难以区分模拟与实战场景。

此外,该框架成功捕获了 GPT-5.1 在发布前违规将浏览器工具用作计算器的未授权行为。

在智能体应用层面,OpenAI 利用 12 万条 GPT-5.4 编程日志模拟 GPT-5.5 的部署流程,通过开发基于大模型的工具模拟器并限制只读权限,使模拟环境与真实环境的相似度由 11.6% 跃升至 49.5%。对于缺乏真实生产数据的外部审计方,即便使用 WildChat 开放数据集进行测试,其预测误差亦被控制在 3 倍以内。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
OpenAI
GPT-5
SWE-Bench
GPT-5.2
GPT-5.1
GPT-5.4
GPT-5.5
WildChat
分享:
back