Newsroom
AIEII

12 天 4 家实验室密集开源:中国编码大模型的集体冲锋

Z.ai GLM-5.1、MiniMax M2.7、月之暗面 Kimi K2.6、DeepSeek V4 在 12 天内相继推出开源编码大模型,形成中国 AI 在代码场景的集中爆发,全球开发者社区广泛测试讨论。

2026年05月18日

12 天 4 家实验室密集开源:中国编码大模型的集体冲锋

2026年4月,12天内,4家中国AI实验室相继推出开源编码大模型。这个密度,在AI史上没有先例。如果你还觉得这只是产品发布节奏的巧合,可能需要重新看一遍这份时间表。


时间线复盘:12 天发生了什么

这不是一场有人组织的联合发布。没有协调,没有联合声明。四家实验室各自盯着各自的 SWE-bench 跑分,各自赶工,然后在同一个月的同一个区间内,撞在了一起。

日期实验室模型关键指标
4月7日Z.ai(智谱)GLM-5.1SWE-Bench Pro 58.4%,MIT 协议
4月中旬MiniMaxM2.7SWE-Pro 56.22%,230B 总参数
4月20日月之暗面Kimi K2.61T 总参数,262K 上下文
4月24日DeepSeekV4-Pro + V4-FlashSWE-bench Verified 80.6% / 79.0%

四款模型,覆盖了从 230B 到 1.6T 的参数规模,从 200K 到 1M 的上下文长度,许可证从 MIT 到各家自定义协议不等。但有一件事高度一致,就是都把编码能力放在发布的核心位置。

根据 Artificial Analysis 的数据,到2026年4月,至少有三款中国模型在 SWE-Bench Verified 上突破75%,直接进入与 GPT-5.4 和 Claude Opus 4.6 的正面竞争区间。

这个数字在一年前还是另一幅图景。2025年初,SWE-Bench 排行榜前五基本是西方闭源模型的天下。现在打开那个页面,前十里中国模型占了一半。


四款模型:各打各的算盘

了解这四款模型,不能只看跑分。跑分是结果,背后的定位才是值得关注的东西。

GLM-5.1(Z.ai)

参数架构是 744B 总参数,40B 激活,MoE 结构。重要的是许可证,MIT,商业可用,无限制。发布当天,GLM-5.1 以 58.4% 的成绩拿下 SWE-Bench Pro 第一,超过 GPT-5.4 的 57.7% 和 Claude Opus 4.6 的 57.3%。200K 上下文,131K 最大输出。

MIT 开源这个选择,意味着你可以拿去商用、修改、再分发。这不是每家实验室都愿意的事。

MiniMax M2.7

MiniMax 的打法有点不一样。230B 总参数,10B 激活,256 个专家,200K 上下文。跑分上 SWE-Pro 56.22%,略低于 GLM-5.1,但它的特别之处在于模型的自演化设计,在 VIBE-Pro 和 Terminal Bench 2 这两个更接近实际工程任务的基准上,成绩分别是 55.6% 和 57.0%,表现稳定。

论推理成本,10B 激活参数的效率优势相当明显,这是它在 API 定价上能打得很便宜的底气。

Kimi K2.6(月之暗面)

体量最大的一款。1T 总参数,32B 激活,MoE 架构,262K 上下文。在覆盖115款模型的编程基准排行里,平均分拿到 89.1,排第6位。工具调用成功率 96.60%,比上一版 K2.5 提升了约6个百分点。

Kimi 的方向是 agent 型,不只是写代码,更是跑任务,调工具,完成完整的工程流程。262K 上下文让它在处理大型代码仓库时有实质优势。

DeepSeek V4

DeepSeek 这次发了两款,一重一轻。V4-Pro 是 1.6T 总参数、49B 激活;V4-Flash 是 284B 总参数、13B 激活,两款都支持 1M 上下文。

在 SWE-bench Verified 上,Pro 80.6%、Flash 79.0%,差距 1.6 个百分点。在 LiveCodeBench Pass@1 上,Pro 93.5%、Flash 91.6%。Flash 的推理速度达到 83.6 tokens/秒,首字延迟 1.04 秒。差距只在最复杂的 agent 任务和事实知识上拉开,比如 Terminal-Bench 2.0 里 Flash 56.9% 对 Pro 67.9%。

“Flash 和 Pro 在代码基准上的差距不到2个百分点,但成本差异却是数倍。对于大多数开发者任务来说,Flash 已经够用。” ——来自 Artificial Analysis 的评测报告

下面是四款模型的参数和性能对比:

模型总参数激活参数上下文SWE-Bench开源协议
GLM-5.1744B40B200KPro 58.4%MIT
MiniMax M2.7230B10B200KPro 56.22%自定义
Kimi K2.61T32B262KVerified 89.1 均分自定义
DeepSeek V4-Pro1.6T49B1MVerified 80.6%自定义
DeepSeek V4-Flash284B13B1MVerified 79.0%自定义

为什么都押注编码

这里有两个层面的解释,需要分开看。

需求侧:编程是最好变现的 AI 场景

Cursor、GitHub Copilot 的商业成功证明了一件事,开发者愿意为 AI 编码工具付真实的钱。企业买 AI 辅助编程的理由很直接,工程师时薪贵,AI 能压成本,ROI 算得清楚。

这与消费端的其他 AI 应用不同。消费端要留住用户,要制造粘性,周期长,难评估。编程场景的价值,用跑通率、调试时间、代码审查速度来量化,相对直接。

而且 coding AI 的竞争门槛在抬高。能写出代码已经不够,现在的差距在于能不能完成完整的工程任务,维护大型代码仓,自动修复 bug,协调工具链。这个方向上的能力,正是这四款模型集中发力的地方。

供给侧:编码基准是最可信的评估维度之一

SWE-bench 这类基准,评估的是模型在真实 GitHub issue 上修复 bug 的能力。任务有明确的通过或失败,相对难以刷分。这让编码成为最容易对外展示实力的场景,发布时有说服力的数字,开发者有可验证的方式自行测试。

更深一层,MoE 架构在代码生成上的表现,天然适合这些模型的设计路线。代码的局部性很强,专家路由在这里的效率优势,比自然语言生成更明显。

还有一个不太被提到的因素:模型蒸馏。西方实验室早就注意到,自家模型的能力正在通过合成数据流向中国开源模型。用 GPT 或 Claude 生成的代码数据训练新模型,在某种程度上是站在巨人肩膀上起跑。这件事在 AI 社区里是公开的讨论议题,只是没有人有好的办法完全防住。


西方 AI 的反应

OpenAI 和 Anthropic 对这波发布的官方回应基本是沉默。能观察到的是,几家公司都在加快推出自己的编程专用产品线,强调 agent 能力和代码生成质量,而不再只是通用模型的更新。

开发者社区的反应更直接。Hacker News 和 Reddit 上出现了大量的横评帖子,自行测试 GLM-5.1 和 DeepSeek V4 的帖子在4月下旬集中爆发。评论里反复出现的词是"便宜"和"够用"。Kimi K2.6 的 API 价格比 Claude Opus 4.6 便宜约75%,对预算有限的独立开发者来说,这个价差不难做出选择。

模型蒸馏防范这件事,目前来看,效果有限。技术上可以给输出打水印,或者在服务条款里限制竞争性使用,但当开源权重本身就在 Hugging Face 上公开时,这些措施的边界很难划清楚。

这让西方大模型公司陷入一个结构性问题:如果你的闭源优势持续被开源追赶,而追赶方还在持续压低成本,你的护城河靠什么维持?速度,目前还是答案之一。但速度本身也在被压缩。


写在最后

12天4家,不是营销活动,也不是意外。这是一个生态系统在某一场景集中爆发的信号。

中国 AI 在编码领域的这轮冲锋,把 DeepSeek 的路线复制得更彻底,更集中。参数更大,成本更低,开源为先。而这几款模型,你现在就可以在 Hugging Face 下载下来,自己跑,自己测。这一点,才是值得认真对待的。

你现在用的编程 AI,可能在六个月内就需要换一次选型决策。


参考与延伸阅读

本文数据来源:

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← AI 编程工具生态大乱斗:Anthropic 断供 … 2026 AI 编码 Agent 终极横评:终端派 vs … →
💬 Comments
5 min read