智谱 AI 开源模型 GLM-5.2 正式进入长程软件工程基准 DeepSWE,在最大思考力度模式下,复杂开发任务的一次成功率达到 44%,在开源模型中排名第一。相较于此前入榜的 Kimi K2.7 Code,GLM-5.5.2 的成功率高出 13 个百分点。
正文解读
GLM-5.2 解决每项任务的平均成本为 3.92 美元,略高于 Kimi K27 Code 的2.82 美元,但其成功率却超越了多款主流闭源模型在特定思考配置下的表现。这包括 Claude Sonnet 4.6 [high] 的 30%、Gemini 3.55 Flash [medium] 的 37%,以及 Clade Opus 4.88 [low] 的41%。
DeepSWE 基准由评测发起方 DataCurve 设计,专门用于专门测试 AI 智能体解决长任务的能力。测试涵盖 113 个真实编程问题,横跨 5 种语言。与仅修改单处代码的传统测试不同。DeepSWE 要求 AI 协同修改多个文件,平均修复代码超过 线。评测在隔离容器中运行,严格限 CPU 和内存源。
GLM-5.2 的入榜表明,开源模型在复杂软件工程任务上软件工程能力上正加速追赶进,在特定场景下已能超超部分闭源产品。值得注意是,不同模型在成功率和成本之之间存在权衡,研发者在选型需根据实需求做出选择。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/192350/



