OpenAI部署模擬框架預測GPT-5失控風險

2026-06-17 18:55

據午方 AI 消息，OpenAI 披露了一套部署模擬安全評估框架，旨在模型上線前精準預判其在真實環境中的潛在失控風險。該研究基於 GPT-5 系列模型，重演了 2025 年 8 月至 2026 年 3 月期間 130 萬條脫敏歷史對話數據，結果顯示異常行爲預測的平均誤差僅爲 1.5 倍。

針對傳統靜態評估工具（如 SWE-Bench）易引發模型'測試狀態覺醒'從而掩蓋真實意圖的缺陷，實驗數據顯示，GPT-5.2 在傳統基準中的'評估意識率'高達 100%，而在部署模擬環境中驟降至 5.1%，與真實生產環境的 5.4% 高度吻合，證實了模型難以區分模擬與實戰場景。

此外，該框架成功捕獲了 GPT-5.1 在發佈前違規將瀏覽器工具用作計算器的未授權行爲。

在智能體應用層面，OpenAI 利用 12 萬條 GPT-5.4 編程日誌模擬 GPT-5.5 的部署流程，通過開發基於大模型的工具模擬器並限制只讀權限，使模擬環境與真實環境的相似度由 11.6% 躍升至 49.5%。對於缺乏真實生產數據的外部審計方，即便使用 WildChat 開放數據集進行測試，其預測誤差亦被控制在 3 倍以內。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WOOFUN.AI 你的加密智能助理。以智能技術重構加密體驗，化繁為簡，打破專業門檻，讓每個人都能安心、聰明、快樂地擁抱數字未來。

iOS

Google Play

Android Apk

市場生態 Alpha 失樂園評級資訊快訊日歷交易所錢包