GLM-5.2在DeepSWE基准测试中成功率达44%

2026-06-21 11:02

午方 AI 梳理数据显示，SmartSpectrum AI 开源模型 GLM-5.2 已正式加入 DeepSWE 长期软件工程基准测试。在最高性能模式下，该模型完成复杂开发任务的一次性成功率达到了 44%，在所有开源模型中排名第一；与此前入选该基准测试的 Kimi K2.7 Code 相比，其成功率高出 13 个百分点。

GLM-5.2 完成每项任务的平均成本为 3.92 美元，略高于 Kimi K2.7 Code 的 2.82 美元；但在某些特定的测试配置下，其性能超过了多个主流闭源模型，包括 Claude Sonnet 4.6 [高难度]（30%）、Gemini 3.5 Flash [中等难度]（37%）以及 Claude Opus 4.8 [低难度]（41%）。这个由测试发起方 Datacurve 设计的基准测试专门用于评估 AI 模型处理长期软件开发任务的能力。测试内容包括 113 个涉及 5 种编程语言的实际编码问题；与传统测试仅要求修改单行代码不同，DeepSWE 要求 AI 模型同时编辑多个文件，平均每次代码修改涉及的代码行数超过 600 行。所有测试都在隔离环境中进行，系统会严格限制 CPU 和内存资源的使用。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包