登錄
註冊
午方 AI 梳理數據顯示,SmartSpectrum AI 開源模型 GLM-5.2 已正式加入 DeepSWE 長期軟件工程基準測試。在最高性能模式下,該模型完成複雜開發任務的一次性成功率達到了 44%,在所有開源模型中排名第一;與此前入選該基準測試的 Kimi K2.7 Code 相比,其成功率高出 13 個百分點。
GLM-5.2 完成每項任務的平均成本爲 3.92 美元,略高於 Kimi K2.7 Code 的 2.82 美元;但在某些特定的測試配置下,其性能超過了多個主流閉源模型,包括 Claude Sonnet 4.6 [高難度](30%)、Gemini 3.5 Flash [中等難度](37%)以及 Claude Opus 4.8 [低難度](41%)。這個由測試發起方 Datacurve 設計的基準測試專門用於評估 AI 模型處理長期軟件開發任務的能力。測試內容包括 113 個涉及 5 種編程語言的實際編碼問題;與傳統測試僅要求修改單行代碼不同,DeepSWE 要求 AI 模型同時編輯多個文件,平均每次代碼修改涉及的代碼行數超過 600 行。所有測試都在隔離環境中進行,系統會嚴格限制 CPU 和內存資源的使用。