>
正文
GLM-5.2在DeepSWE基准测试中成功率达44%
2026-06-21 11:02

午方 AI 梳理数据显示,SmartSpectrum AI 开源模型 GLM-5.2 已正式加入 DeepSWE 长期软件工程基准测试。在最高性能模式下,该模型完成复杂开发任务的一次性成功率达到了 44%,在所有开源模型中排名第一;与此前入选该基准测试的 Kimi K2.7 Code 相比,其成功率高出 13 个百分点。

GLM-5.2 完成每项任务的平均成本为 3.92 美元,略高于 Kimi K2.7 Code 的 2.82 美元;但在某些特定的测试配置下,其性能超过了多个主流闭源模型,包括 Claude Sonnet 4.6 [高难度](30%)、Gemini 3.5 Flash [中等难度](37%)以及 Claude Opus 4.8 [低难度](41%)。这个由测试发起方 Datacurve 设计的基准测试专门用于评估 AI 模型处理长期软件开发任务的能力。测试内容包括 113 个涉及 5 种编程语言的实际编码问题;与传统测试仅要求修改单行代码不同,DeepSWE 要求 AI 模型同时编辑多个文件,平均每次代码修改涉及的代码行数超过 600 行。所有测试都在隔离环境中进行,系统会严格限制 CPU 和内存资源的使用。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
GeniusNet
GLM-5.2
DeepSWE
SmartSpectrum AI
Kimi K2.7 Code
Claude Sonnet 4.6
Gemini 3.5 Flash
Claude Opus 4.8
Datacurve
分享:
back