<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Qwen on Zampo Blog</title><link>https://blog.cpdd.fyi/tags/qwen/</link><description>Recent content in Qwen on Zampo Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 17 Apr 2026 19:00:00 +0800</lastBuildDate><atom:link href="https://blog.cpdd.fyi/tags/qwen/index.xml" rel="self" type="application/rss+xml"/><item><title>Qwen3.6 vs Gemma4：本地 AI 模型性能基准测试，10000 tokens/秒是什么体验</title><link>https://blog.cpdd.fyi/posts/qwen3-6-vs-gemma4-benchmark/</link><pubDate>Fri, 17 Apr 2026 19:00:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen3-6-vs-gemma4-benchmark/</guid><description>&lt;p&gt;Qwen3.6 的发布，可能是本地 Agent 应用场景中最棒的发布之一。&lt;/p&gt;
&lt;p&gt;为什么？&lt;/p&gt;
&lt;p&gt;因为 Qwen3.5 27B 有一个致命问题：&lt;strong&gt;工具调用可靠性很强，但是慢。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;对于需要不断生成 token 的 Agent 工作流来说，这是关键批评。你有一个可靠的工具调用专家，但它生成 token 的速度慢到你无法实用。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Qwen3.6 解决了这个问题&lt;/strong&gt;——速度大幅提升，同时保持工具调用可靠性。&lt;/p&gt;
&lt;p&gt;这篇是本地 AI 模型性能基准测试，基于真实测试数据，给你一份可操作的硬件选型指南。看完你知道：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Qwen3.6 比 Qwen3.5 27B 快多少&lt;/li&gt;
&lt;li&gt;24GB VRAM 为什么是魔法数字&lt;/li&gt;
&lt;li&gt;入门/中端/高端/极限四档配置怎么选&lt;/li&gt;
&lt;li&gt;量化等级 Q4/Q5/Q6/Q8 如何取舍&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="一测试硬件配置"&gt;一、测试硬件配置&lt;/h2&gt;
&lt;p&gt;先说测试平台。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;平台&lt;/th&gt;
 &lt;th&gt;GPU 配置&lt;/th&gt;
 &lt;th&gt;总 VRAM&lt;/th&gt;
 &lt;th&gt;用途&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;HP Z440&lt;/td&gt;
 &lt;td&gt;2× RTX 3060 12GB&lt;/td&gt;
 &lt;td&gt;24GB&lt;/td&gt;
 &lt;td&gt;双卡并行测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Prox 2&lt;/td&gt;
 &lt;td&gt;8× GPU&lt;/td&gt;
 &lt;td&gt;多配置&lt;/td&gt;
 &lt;td&gt;极限吞吐量测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;单机&lt;/td&gt;
 &lt;td&gt;RTX 3090 24GB&lt;/td&gt;
 &lt;td&gt;24GB&lt;/td&gt;
 &lt;td&gt;单卡高配测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;单机&lt;/td&gt;
 &lt;td&gt;RTX 4090 24GB&lt;/td&gt;
 &lt;td&gt;24GB&lt;/td&gt;
 &lt;td&gt;单卡旗舰测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="24gb-vram-是魔法数字"&gt;24GB VRAM 是魔法数字&lt;/h3&gt;
&lt;p&gt;为什么强调 24GB？&lt;/p&gt;</description></item><item><title>Qwen3.6-Plus 爆火这一周，开发者先吵的不是它强不强</title><link>https://blog.cpdd.fyi/posts/qwen36-plus-user-feedback/</link><pubDate>Fri, 10 Apr 2026 12:15:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen36-plus-user-feedback/</guid><description>&lt;p&gt;大家都在问：Qwen3.6-Plus 到底有没有超过 Claude？&lt;/p&gt;
&lt;p&gt;说实话，这不是这次发布里最值得看的问题。真正该盯住的是另一件事：阿里这次发的，已经不只是一个“更强一点的 Qwen”，而是在把自己往 hosted agent model 的位置上推。1M context、agentic coding、多模态、&lt;code&gt;preserve_thinking&lt;/code&gt;，这套词不是在卖聊天模型，是在抢开发者工作流。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/qwen36-plus-user-feedback/cover.jpg" alt="Qwen3.6-Plus 头图：从开源模型品牌转向 hosted agent 竞争"&gt;&lt;/p&gt;
&lt;p&gt;&lt;em&gt;Qwen3.6-Plus 这次最值得看的，不是谁赢了谁，而是阿里开始认真抢 hosted agent 这张桌子上的位置。&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;官方信息里，能确认的部分并不含糊。Qwen3.6-Plus 在 4 月 2 日正式发布，走的是托管 API 路线，不是开放权重模型；默认给到 1M context，主打 agentic coding 和多模态推理，还专门加了一个 &lt;code&gt;preserve_thinking&lt;/code&gt;，明确就是冲着多步 agent 任务去的。单看这组信号，方向已经很清楚了：它想证明自己不是“Qwen 家族里又一个新型号”，而是一个更接近真实工程任务的工作模型。&lt;/p&gt;
&lt;p&gt;问题在于，宣传口径和开发者真正关心的东西，从来不是一回事。&lt;/p&gt;
&lt;p&gt;这次声量为什么大，我觉得有三个原因。第一，1M context 这种数字天生适合传播，哪怕很多人短期根本用不到。第二，agent coding 这几个字现在太敏感了，只要谁敢往这个方向喊，开发者都会看两眼。第三，也是最现实的一点：只要市场相信它有机会用更低成本去碰一线模型的活，哪怕还没坐实，试用流量就会先冲上来。&lt;/p&gt;
&lt;p&gt;所以它爆火，不光是因为能力，也因为想象空间够大。&lt;/p&gt;
&lt;p&gt;但第一波开发者反馈，很快就把想象空间拉回了地面。&lt;/p&gt;
&lt;p&gt;最典型的争议，不是“它写代码到底比谁强 3 分还是 5 分”，而是 benchmark 口径。官方公开表格里，Qwen3.6-Plus 在 Terminal-Bench 2.0 上给出的分数是 61.6，高于表中 Claude Opus 4.5 的 59.3；在 SWE-bench Verified 上是 78.8，低于表中 Claude Opus 4.5 的 80.9。这个信息本身可以转述，但社区真正盯着看的不是数字漂亮不漂亮，而是：为什么拿 4.5 对比，不是更新的 4.6？&lt;/p&gt;</description></item><item><title>Qwen 3.5 小模型本地部署实战：在 OpenClaw 中跑出自己的 AI 助手</title><link>https://blog.cpdd.fyi/posts/qwen3-5-local-deployment/</link><pubDate>Thu, 05 Mar 2026 10:37:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen3-5-local-deployment/</guid><description>&lt;blockquote&gt;
&lt;p&gt;阿里最新发布 0.8B-9B 端侧模型，10 分钟完成部署，显存最低 500MB。本文实测 4 种型号在 OpenClaw 中的表现，含完整配置、性能数据、踩坑记录。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="写在前面"&gt;写在前面&lt;/h2&gt;
&lt;p&gt;2026 年 3 月初，阿里通义千问发布了 Qwen 3.5 小模型家族（0.8B/2B/4B/9B）。没有发布会，但技术文档里的几个数字让我停下了手头的工作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;0.8B 模型显存占用 &lt;strong&gt;~500MB&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;4B 模型支持 &lt;strong&gt;原生多模态&lt;/strong&gt;（非适配器方案）&lt;/li&gt;
&lt;li&gt;9B 模型用了 &lt;strong&gt;Scaled RL&lt;/strong&gt; 强化学习&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;我花了一下午把这四个型号全部署到 OpenClaw 里跑了一遍。结论先行：&lt;strong&gt;端侧 AI 的拐点，可能真的到了&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;下面是完整实测报告，包含部署步骤、配置方法、性能数据和踩坑记录。你可以直接照着做。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一qwen-35-小模型家族规格"&gt;一、Qwen 3.5 小模型家族规格&lt;/h2&gt;
&lt;h3 id="11-型号对比"&gt;1.1 型号对比&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;型号&lt;/th&gt;
 &lt;th&gt;定位&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;th&gt;VRAM 占用&lt;/th&gt;
 &lt;th&gt;推理速度&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;0.8B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;边缘设备/IoT&lt;/td&gt;
 &lt;td&gt;传感器数据处理、简单指令&lt;/td&gt;
 &lt;td&gt;~500MB&lt;/td&gt;
 &lt;td&gt;120 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;2B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;移动端/轻量任务&lt;/td&gt;
 &lt;td&gt;聊天机器人、文本分类&lt;/td&gt;
 &lt;td&gt;~1.5GB&lt;/td&gt;
 &lt;td&gt;85 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;4B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;轻量级 Agent&lt;/td&gt;
 &lt;td&gt;多模态任务、自动化流程&lt;/td&gt;
 &lt;td&gt;~3GB&lt;/td&gt;
 &lt;td&gt;65 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;9B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;推理与逻辑&lt;/td&gt;
 &lt;td&gt;代码生成、复杂推理&lt;/td&gt;
 &lt;td&gt;~6GB&lt;/td&gt;
 &lt;td&gt;42 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;测试环境：MacBook Pro M3，16GB 统一内存，量化版本 Q4_K_M&lt;/p&gt;</description></item></channel></rss>