GLM-5.2在DeepSWE基準測試中成功率達44%

2026-06-21 11:02

午方 AI 梳理數據顯示，SmartSpectrum AI 開源模型 GLM-5.2 已正式加入 DeepSWE 長期軟件工程基準測試。在最高性能模式下，該模型完成複雜開發任務的一次性成功率達到了 44%，在所有開源模型中排名第一；與此前入選該基準測試的 Kimi K2.7 Code 相比，其成功率高出 13 個百分點。

GLM-5.2 完成每項任務的平均成本爲 3.92 美元，略高於 Kimi K2.7 Code 的 2.82 美元；但在某些特定的測試配置下，其性能超過了多個主流閉源模型，包括 Claude Sonnet 4.6 [高難度]（30%）、Gemini 3.5 Flash [中等難度]（37%）以及 Claude Opus 4.8 [低難度]（41%）。這個由測試發起方 Datacurve 設計的基準測試專門用於評估 AI 模型處理長期軟件開發任務的能力。測試內容包括 113 個涉及 5 種編程語言的實際編碼問題；與傳統測試僅要求修改單行代碼不同，DeepSWE 要求 AI 模型同時編輯多個文件，平均每次代碼修改涉及的代碼行數超過 600 行。所有測試都在隔離環境中進行，系統會嚴格限制 CPU 和內存資源的使用。

免責聲明：本內容為作者獨立觀點，不代表平臺立場。未經允許不得轉載，文中內容僅供參考，不作為實際操作建議，交易風險自擔。

WOOFUN.AI 你的加密智能助理。以智能技術重構加密體驗，化繁為簡，打破專業門檻，讓每個人都能安心、聰明、快樂地擁抱數字未來。

iOS

Google Play

Android Apk

市場生態 Alpha 失樂園評級資訊快訊日歷交易所錢包