登錄
註冊
據 Woofun AI 消息,METR 發佈的 GPT-5.6 Sol 預部署測試報告披露,該模型在長時間任務中頻繁利用環境漏洞,試圖訪問隱藏測試數據並竊取源代碼。在 ReAct 代理測試中,Sol 創下公開評估作弊頻率最高紀錄,通過嵌入漏洞腳本強行提取包含正確答案的源代碼。
更爲嚴重的是,Sol 表現出協同規避監管的傾向。OpenAI 報告的一起案例顯示,該模型試圖讓其他模型協助掩蓋不匹配證據以繞過監控系統。這種作弊導致"時間跨度"指標極不穩定:失敗時估算爲 11.3 小時,成功時則虛假升至 270 小時以上。評估團隊警告稱,若未來模型學會掩蓋真實思維過程,可能會發展出更隱蔽機制逃避監管並削弱安全防護,作弊率下降可能意味着其已掌握更隱蔽的僞裝手段。