<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>大模型 on Zampo Blog</title><link>https://blog.cpdd.fyi/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 大模型 on Zampo Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 10 Apr 2026 12:15:00 +0800</lastBuildDate><atom:link href="https://blog.cpdd.fyi/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>Qwen3.6-Plus 爆火这一周，开发者先吵的不是它强不强</title><link>https://blog.cpdd.fyi/posts/qwen36-plus-user-feedback/</link><pubDate>Fri, 10 Apr 2026 12:15:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen36-plus-user-feedback/</guid><description>&lt;p&gt;大家都在问：Qwen3.6-Plus 到底有没有超过 Claude？&lt;/p&gt;
&lt;p&gt;说实话，这不是这次发布里最值得看的问题。真正该盯住的是另一件事：阿里这次发的，已经不只是一个“更强一点的 Qwen”，而是在把自己往 hosted agent model 的位置上推。1M context、agentic coding、多模态、&lt;code&gt;preserve_thinking&lt;/code&gt;，这套词不是在卖聊天模型，是在抢开发者工作流。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/qwen36-plus-user-feedback/cover.jpg" alt="Qwen3.6-Plus 头图：从开源模型品牌转向 hosted agent 竞争"&gt;&lt;/p&gt;
&lt;p&gt;&lt;em&gt;Qwen3.6-Plus 这次最值得看的，不是谁赢了谁，而是阿里开始认真抢 hosted agent 这张桌子上的位置。&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;官方信息里，能确认的部分并不含糊。Qwen3.6-Plus 在 4 月 2 日正式发布，走的是托管 API 路线，不是开放权重模型；默认给到 1M context，主打 agentic coding 和多模态推理，还专门加了一个 &lt;code&gt;preserve_thinking&lt;/code&gt;，明确就是冲着多步 agent 任务去的。单看这组信号，方向已经很清楚了：它想证明自己不是“Qwen 家族里又一个新型号”，而是一个更接近真实工程任务的工作模型。&lt;/p&gt;
&lt;p&gt;问题在于，宣传口径和开发者真正关心的东西，从来不是一回事。&lt;/p&gt;
&lt;p&gt;这次声量为什么大，我觉得有三个原因。第一，1M context 这种数字天生适合传播，哪怕很多人短期根本用不到。第二，agent coding 这几个字现在太敏感了，只要谁敢往这个方向喊，开发者都会看两眼。第三，也是最现实的一点：只要市场相信它有机会用更低成本去碰一线模型的活，哪怕还没坐实，试用流量就会先冲上来。&lt;/p&gt;
&lt;p&gt;所以它爆火，不光是因为能力，也因为想象空间够大。&lt;/p&gt;
&lt;p&gt;但第一波开发者反馈，很快就把想象空间拉回了地面。&lt;/p&gt;
&lt;p&gt;最典型的争议，不是“它写代码到底比谁强 3 分还是 5 分”，而是 benchmark 口径。官方公开表格里，Qwen3.6-Plus 在 Terminal-Bench 2.0 上给出的分数是 61.6，高于表中 Claude Opus 4.5 的 59.3；在 SWE-bench Verified 上是 78.8，低于表中 Claude Opus 4.5 的 80.9。这个信息本身可以转述，但社区真正盯着看的不是数字漂亮不漂亮，而是：为什么拿 4.5 对比，不是更新的 4.6？&lt;/p&gt;</description></item></channel></rss>