2026年04月09日

别被“首超 Opus 4.6”带跑：GLM-5.1 真正值得看的，不是这行分数

GLM-5.1 最值得看的，不是“首超 Opus 4.6”这句标题，而是模型竞争正在从刷分，转向谁能把活连续干下去。看懂这件事，比转一条热搜更重要。

Zampo 约 10 分钟阅读

GLM-5.1 智谱 Claude Opus 4.6 Agentic Coding AI 模型

“开源模型首超 Opus 4.6。”

如果你这两天被这句话晃了一下，你不是一个人。

更会带节奏的版本，后面还会再接一句：“14 小时后，CUDA 专家被冲了。”

这种标题最厉害的地方，不是它全是假话。

而是它只给你留一种情绪：开源反超了，闭源不行了，工程师也快坐不住了。

可真把材料拆开看，你会发现这次最该看的，根本不是“赢了 1.1 分”这件事。

真正值得看的，是模型竞争正在从“谁更会答题”，变成“谁能把活连续干下去”。

夜间多屏开发工位，适合作为 GLM-5.1 长程任务文章头图

夜间多屏开发工位，用来承接“模型开始能连续干活”这个主题。

先别急着喊反超，先把证据分层

智谱确实发布了 GLM-5.1，这点没问题。

官方也确实把它往长程任务、agentic engineering 这个方向去打。能确认的公开口径包括：200K 上下文、128K 最大输出，以及“单个任务最长可持续自主工作 8 小时”。

按智谱官方博客和 Hugging Face 模型卡展示的口径，SWE-Bench Pro 上，GLM-5.1 是 58.4，Claude Opus 4.6 是 57.3。

这句话可以写。

但也只能写到这里。

因为“按官方公布的一个 benchmark，它略高一点”，和“开源模型全面反超闭源”，中间差的不是一个形容词，差的是一整套证据。

同一套官方材料里，Claude Opus 4.6 在 KernelBench Level 3 上仍然高于 GLM-5.1。也就是说，这次发布更像是局部突破，不是全线盖章。

看到一行漂亮分数就喊全面反超，和看股价涨一天就宣布牛市回来，本质上是同一种冲动。

这类新闻最爱干的事，就是把三种东西搅成一锅

很多人不是判断能力差，而是材料本身就故意写得很滑。

现在不少模型发布稿，最爱把下面三种东西拧在一起讲。

一类是 benchmark。

这类东西当然也有口径、有 harness、有时效性问题，但至少还有统一任务、统一分数、统一比较方式，勉强算能比。

一类是 vendor demo，也就是厂商自己挑出来的案例。

比如 600 多轮迭代优化、长时间 Linux 桌面构建、CUDA kernel 调优。这些东西不是没价值，恰恰相反，它们很有信号意义。问题在于，它们更像“我把最能打的一段录像放给你看”，不能自动翻译成“模型已经在普遍条件下稳定做到”。

还有一类是社媒轶事。

有人发帖说它像 Opus，有人说想取消 Claude Max，也有人转发模型卡表示欢迎。这些都能说明传播在发酵，但它们不是第三方审计，更不是行业结论。

暗色代码屏幕特写，适合放在解释 benchmark 与官方口径边界的位置

一堆代码截图看起来都很硬，但“截图很硬”不等于“证据很硬”。

很多传播稿最会干的，就是先拿 benchmark 勾你一下，再拿 demo 炸你一下，最后再塞几个社媒截图替你完成情绪闭环。

读者一旦顺着这套节奏滑下去，后面就很难再把三层证据拆开。

所以这次最该学会的，不是站队智谱还是 Anthropic，而是别再把 benchmark、厂商录像和社媒热闹，当成同一种东西。

这句话，你完全可以截给还在朋友圈转“首超 Opus 4.6”的朋友看。

如果把噪音拿掉，GLM-5.1 真正有价值的地方反而更清楚

我觉得这次发布最值得看的，不是那 1.1 分。

而是长程任务能力被正式推到了台前。

过去大家讨论模型，习惯盯着单轮问答、代码补全、排行榜名次。那套比较方式当然还有效，但已经不够了。

真正开始改变工作流的，不是模型能不能在一轮里说对话，而是它能不能在更长的时间里持续做事：自己拆问题、调工具、回看结果、继续试错，而不是两回合之后就掉线。

这也是为什么智谱这次反复强调 8 小时持续执行、600 多轮迭代、长时间工程任务。

它真正想抢的话语权，其实不是“我比 Opus 多了 1.1 分”。

而是另一句：

别再只盯一行分数了。真正开始拉开差距的，是谁能把活连续干下去。

这句话比“首超”重要得多。

因为真正会改写开发流程的，从来不是榜单多 2 分，而是模型开始形成更长的任务闭环：接任务、试错、调用工具、检查结果、继续往前推。

一旦这一段能力变强，agentic coding 的比较方式就一定会变。

双屏工作站与数据界面，适合放在解释长程任务能力为什么更值得看的位置

比较模型，正在从“答得好不好”转向“能不能把事做完”。

但别因为方向对，就把宣传口径也一起吞下去

长程任务能力重要，这一点我认。

可重要，不等于已经坐实。

官方说“最长可持续自主工作 8 小时”，你可以把它理解成：智谱确实在认真押注这个方向，而且已经做出了一些值得看的结果。

你不能直接把它翻译成：“以后初级工程师按小时失业。”

同样，CUDA 35.7× 这类说法，目前更接近官方案例展示；社媒上个别用户说要取消 Claude Max，也最多只能算轶事证据。

这些内容不是不能写。

但它们只适合写成“有这个信号”，不适合写成“趋势已经发生”。

一家公司可以用 demo 证明自己方向押对了，但还不能只靠 demo 证明自己已经赢了。

这就是这次所有热闹里，我最想强调的边界。

普通技术读者，以后看这类新闻就盯三件事

第一，它说的是 benchmark，还是 demo？

第二，这个结论来自第三方榜单，还是发布方自述？

第三，它说的是某个场景里的领先，还是偷偷被升级成了“全面领先”？

这三个问题一问，九成标题党都会自己露馅。

你甚至不需要先懂完整技术细节，只要先把证据层级分开，判断就已经比大多数转稿稳了。

最后给一个更稳的结论

GLM-5.1 值得关注，这是真的。

它说明开源模型在长程 agentic coding 这条线上，追得比很多人想得更快。

但更稳的结论，不是“开源已经全面反超闭源”。

更稳的结论是：

开源模型已经开始逼着所有人重新定义，什么叫“会干活的模型”。

这比一行分数更重要。

也比一条热搜标题更难伪造。

如果哪天开源真的全面压过闭源，你会先在更大范围、更稳定的任务表现里看见它。

不是先在一篇标题很猛的新闻稿里听说它。