2026年04月10日

Qwen3.6-Plus 爆火这一周，开发者先吵的不是它强不强

Qwen3.6-Plus 最值得看的，不是它有没有全面超过 Claude，而是阿里正在从开源模型品牌，往 hosted agent 竞争者的位置上硬拐。问题也正出在这里：宣传很猛，真实接入摩擦来得更快。

Zampo 约 9 分钟阅读

Qwen Qwen3.6-Plus 大模型 AI Agent 开发者工具模型选型

大家都在问：Qwen3.6-Plus 到底有没有超过 Claude？

说实话，这不是这次发布里最值得看的问题。真正该盯住的是另一件事：阿里这次发的，已经不只是一个“更强一点的 Qwen”，而是在把自己往 hosted agent model 的位置上推。1M context、agentic coding、多模态、preserve_thinking，这套词不是在卖聊天模型，是在抢开发者工作流。

Qwen3.6-Plus 头图：从开源模型品牌转向 hosted agent 竞争

Qwen3.6-Plus 这次最值得看的，不是谁赢了谁，而是阿里开始认真抢 hosted agent 这张桌子上的位置。

官方信息里，能确认的部分并不含糊。Qwen3.6-Plus 在 4 月 2 日正式发布，走的是托管 API 路线，不是开放权重模型；默认给到 1M context，主打 agentic coding 和多模态推理，还专门加了一个 preserve_thinking，明确就是冲着多步 agent 任务去的。单看这组信号，方向已经很清楚了：它想证明自己不是“Qwen 家族里又一个新型号”，而是一个更接近真实工程任务的工作模型。

问题在于，宣传口径和开发者真正关心的东西，从来不是一回事。

这次声量为什么大，我觉得有三个原因。第一，1M context 这种数字天生适合传播，哪怕很多人短期根本用不到。第二，agent coding 这几个字现在太敏感了，只要谁敢往这个方向喊，开发者都会看两眼。第三，也是最现实的一点：只要市场相信它有机会用更低成本去碰一线模型的活，哪怕还没坐实，试用流量就会先冲上来。

所以它爆火，不光是因为能力，也因为想象空间够大。

但第一波开发者反馈，很快就把想象空间拉回了地面。

最典型的争议，不是“它写代码到底比谁强 3 分还是 5 分”，而是 benchmark 口径。官方公开表格里，Qwen3.6-Plus 在 Terminal-Bench 2.0 上给出的分数是 61.6，高于表中 Claude Opus 4.5 的 59.3；在 SWE-bench Verified 上是 78.8，低于表中 Claude Opus 4.5 的 80.9。这个信息本身可以转述，但社区真正盯着看的不是数字漂亮不漂亮，而是：为什么拿 4.5 对比，不是更新的 4.6？

这不是抬杠，这是开发者对宣传叙事的本能警惕。你越想把“我已经逼近第一梯队”讲成结论，大家越会先检查尺子是不是你自己挑的。

官方宣传口径 vs 真实开发者反馈

同一波发布里，一边是更强、更稳、更像 real-world agents 的官方叙事，另一边是开发者先去挑 benchmark、封闭性和接入兼容性的问题。

第二个争议点也很有代表性：Qwen 这个名字过去最容易吃到的红利之一，是“开源、可拿来折腾、对中文开发者友好”。结果这次真正顶在前面的核心产品，是 hosted 模型，而且参数规模也没有像开源模型那样透明公开。这个转向不是不能理解，商业上甚至很合理，但它一定会带来口碑分裂。

说白了，很多人喜欢 Qwen，本来就不是因为它像 Claude，而是因为它不像 Claude。现在阿里要往 hosted 路线上走，意味着它想去拿更高价值的开发者工作流，但代价就是：原来那批最看重开放性的技术用户，不会自动跟着鼓掌。

第三个争议，比前两个更扎实，因为它直接落在接入体验上。

发布后一周内，公开 issue 就已经冒出来了。比如 OpenCode 的 issue #20813，开发者在图片输入场景下调用 qwen3.6-plus，会报 “System message must be at the beginning”，而同样输入格式下 qwen3.5-plus 是正常的。这件事不能放大成“模型整体不稳定”，那样就过头了；但它至少说明一个现实：模型能力、API 宣传、第三方工具生态，这三件事的成熟速度并不同步。

这恰好也是我觉得这次最值得写的地方。

很多文章会把重点放在“它有没有赢”。我倒觉得，普通技术读者现在更该问的是：它有没有进入你的候选名单，以及它是以什么身份进入的。

如果你是那种很看重 API 成本、愿意试新 agent 工作流、对生态小摩擦有容忍度的人，Qwen3.6-Plus 是值得盯住的。不是因为它已经把所有对手按在地上，而是因为它已经显露出一个很明确的野心：不只做模型能力展示，而是想真的进入自动化、子代理、长链路任务这些更接近生产的场景。

如果你特别在意开源透明度，或者你现在就要求第三方工具链非常成熟、别出幺蛾子，那这东西还没到可以无脑上车的时候。它现在更像一个很有吸引力、但还带着早期摩擦的强候选，而不是“已经可以闭眼替换”的标准答案。

为什么真正值得看的不是 benchmark 输赢，而是 hosted agent 路线变化

这次发布真正的变量，不是哪张榜单上多拿了几分，而是阿里开始更明显地从“模型提供方”往“开发者工作流里的 hosted agent 供应商”移动。

还有一点也得泼个冷水。现在围绕 Qwen3.6-Plus 的热度，里面明显混着“免费/低门槛试用”“大上下文想象力”“更便宜替代高价模型”的试用红利。这个红利会不会变成长期口碑，得看后面两件事：一是第三方工具接入能不能快速补齐，二是那些最能打的卖点，能不能在真实项目里持续复现，而不是只活在发布页和二手传播稿里。

所以我的判断是：Qwen3.6-Plus 值得关注，但不值得吹满。

它最有价值的信号，不是“阿里又赢了一次”，而是中国大模型厂商开始更直接地抢 hosted agent 这条线了。以前大家爱聊参数、榜单、开源口碑；接下来真正更贵的竞争，可能是看谁能更稳地接进开发者工作流，谁能在工具、上下文、推理链路和成本之间做出更像产品的平衡。

这件事，比分数输赢重要得多。