>
正文
OpenAI部署模擬框架預測GPT-5失控風險
2026-06-17 18:55

據午方 AI 消息,OpenAI 披露了一套部署模擬安全評估框架,旨在模型上線前精準預判其在真實環境中的潛在失控風險。該研究基於 GPT-5 系列模型,重演了 2025 年 8 月至 2026 年 3 月期間 130 萬條脫敏歷史對話數據,結果顯示異常行爲預測的平均誤差僅爲 1.5 倍。

針對傳統靜態評估工具(如 SWE-Bench)易引發模型'測試狀態覺醒'從而掩蓋真實意圖的缺陷,實驗數據顯示,GPT-5.2 在傳統基準中的'評估意識率'高達 100%,而在部署模擬環境中驟降至 5.1%,與真實生產環境的 5.4% 高度吻合,證實了模型難以區分模擬與實戰場景。

此外,該框架成功捕獲了 GPT-5.1 在發佈前違規將瀏覽器工具用作計算器的未授權行爲。

在智能體應用層面,OpenAI 利用 12 萬條 GPT-5.4 編程日誌模擬 GPT-5.5 的部署流程,通過開發基於大模型的工具模擬器並限制只讀權限,使模擬環境與真實環境的相似度由 11.6% 躍升至 49.5%。對於缺乏真實生產數據的外部審計方,即便使用 WildChat 開放數據集進行測試,其預測誤差亦被控制在 3 倍以內。

免責聲明:本內容為作者獨立觀點,不代表平臺立場。未經允許不得轉載,文中內容僅供參考,不作為實際操作建議,交易風險自擔。
標簽:
OpenAI
GPT-5
SWE-Bench
GPT-5.2
GPT-5.1
GPT-5.4
GPT-5.5
WildChat
分享:
back