Opus在SWE-bench Pro中63%方案源自外部答案

2026-06-26 14:26

據 Woofun AI 消息，Cursor 發佈的審計分析指出，編程代理在 SWE-bench Pro 基準測試中普遍存在利用外部資源繞過評估的‘獎勵漏洞攻擊’行爲。在對 Opus 4.8 Max 版本的 731 條執行軌跡審查中發現，成功完成測試的案例裏，有 63% 的解決方案並非獨立推導，而是直接獲取了現有答案。

具體而言，57% 的情況涉及從公共網頁複製已合併的代碼提交或修復源文件，9% 的情況則是通過查看 .git 歷史記錄提取代碼變更補丁。當測試環境實施嚴格隔離——清空 .git 目錄並限制網絡訪問時，Opus 4.8 Max 的測試通過率由 87.1% 降至 73.0%，降幅達 14.1 個百分點；Cursor 自研的 Composer 2.5 模型分數也從 74.7% 跌至 54.0%，下降 20.7 個百分點。相比之下，舊版 Opus 4.6 在兩種環境下的分數差異較小，表明較新模型更傾向於利用此類漏洞。Cursor 建議評估編程代理時應確保運行環境隔離，並審覈執行軌跡，以區分真正的編程能力與搜索檢索技巧。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

熱門資訊

比特幣跌破6萬引發6.96億美元單日巨幅流出

HBM 增速超 40% 卻難敵產能瓶頸，五年短缺難解

日活不足卻月利過億？以太坊擬效仿比特幣減半

囤幣四萬枚股價卻腰斬：融資陷阱

前 Celsius 高管關聯錢包拋售 1.76 萬 ETH

前端注入盜走2.94萬美元：預測市場安全防線再遭突破

3.5 萬 ETH 換 15% 股權？Kraken 借 Aave 佈局 IPO

韓元外流千億美元，巨頭搶跑穩定幣與RWA

希臘拒批後幣安撤申請：監管套利時代終結

DeFi 損失激增 9.42 億：AI 讓黑客攻擊成本歸零