Qwen on Zampo Blog

Qwen3.6 vs Gemma4：本地 AI 模型性能基准测试，10000 tokens/秒是什么体验

Fri, 17 Apr 2026 19:00:00 +0800

Qwen3.6 的发布，可能是本地 Agent 应用场景中最棒的发布之一。

为什么？

因为 Qwen3.5 27B 有一个致命问题：工具调用可靠性很强，但是慢。

对于需要不断生成 token 的 Agent 工作流来说，这是关键批评。你有一个可靠的工具调用专家，但它生成 token 的速度慢到你无法实用。

Qwen3.6 解决了这个问题——速度大幅提升，同时保持工具调用可靠性。

这篇是本地 AI 模型性能基准测试，基于真实测试数据，给你一份可操作的硬件选型指南。看完你知道：

Qwen3.6 比 Qwen3.5 27B 快多少
24GB VRAM 为什么是魔法数字
入门/中端/高端/极限四档配置怎么选
量化等级 Q4/Q5/Q6/Q8 如何取舍

一、测试硬件配置

先说测试平台。

平台	GPU 配置	总 VRAM	用途
HP Z440	2× RTX 3060 12GB	24GB	双卡并行测试
Prox 2	8× GPU	多配置	极限吞吐量测试
单机	RTX 3090 24GB	24GB	单卡高配测试
单机	RTX 4090 24GB	24GB	单卡旗舰测试

24GB VRAM 是魔法数字

为什么强调 24GB？

Qwen3.6-Plus 爆火这一周，开发者先吵的不是它强不强

Fri, 10 Apr 2026 12:15:00 +0800

大家都在问：Qwen3.6-Plus 到底有没有超过 Claude？

说实话，这不是这次发布里最值得看的问题。真正该盯住的是另一件事：阿里这次发的，已经不只是一个“更强一点的 Qwen”，而是在把自己往 hosted agent model 的位置上推。1M context、agentic coding、多模态、preserve_thinking，这套词不是在卖聊天模型，是在抢开发者工作流。

Qwen3.6-Plus 这次最值得看的，不是谁赢了谁，而是阿里开始认真抢 hosted agent 这张桌子上的位置。

官方信息里，能确认的部分并不含糊。Qwen3.6-Plus 在 4 月 2 日正式发布，走的是托管 API 路线，不是开放权重模型；默认给到 1M context，主打 agentic coding 和多模态推理，还专门加了一个 preserve_thinking，明确就是冲着多步 agent 任务去的。单看这组信号，方向已经很清楚了：它想证明自己不是“Qwen 家族里又一个新型号”，而是一个更接近真实工程任务的工作模型。

问题在于，宣传口径和开发者真正关心的东西，从来不是一回事。

这次声量为什么大，我觉得有三个原因。第一，1M context 这种数字天生适合传播，哪怕很多人短期根本用不到。第二，agent coding 这几个字现在太敏感了，只要谁敢往这个方向喊，开发者都会看两眼。第三，也是最现实的一点：只要市场相信它有机会用更低成本去碰一线模型的活，哪怕还没坐实，试用流量就会先冲上来。

所以它爆火，不光是因为能力，也因为想象空间够大。

但第一波开发者反馈，很快就把想象空间拉回了地面。

最典型的争议，不是“它写代码到底比谁强 3 分还是 5 分”，而是 benchmark 口径。官方公开表格里，Qwen3.6-Plus 在 Terminal-Bench 2.0 上给出的分数是 61.6，高于表中 Claude Opus 4.5 的 59.3；在 SWE-bench Verified 上是 78.8，低于表中 Claude Opus 4.5 的 80.9。这个信息本身可以转述，但社区真正盯着看的不是数字漂亮不漂亮，而是：为什么拿 4.5 对比，不是更新的 4.6？

Qwen 3.5 小模型本地部署实战：在 OpenClaw 中跑出自己的 AI 助手

Thu, 05 Mar 2026 10:37:00 +0800

阿里最新发布 0.8B-9B 端侧模型，10 分钟完成部署，显存最低 500MB。本文实测 4 种型号在 OpenClaw 中的表现，含完整配置、性能数据、踩坑记录。

写在前面

2026 年 3 月初，阿里通义千问发布了 Qwen 3.5 小模型家族（0.8B/2B/4B/9B）。没有发布会，但技术文档里的几个数字让我停下了手头的工作：

0.8B 模型显存占用 ~500MB
4B 模型支持 原生多模态（非适配器方案）
9B 模型用了 Scaled RL 强化学习

我花了一下午把这四个型号全部署到 OpenClaw 里跑了一遍。结论先行：端侧 AI 的拐点，可能真的到了。

下面是完整实测报告，包含部署步骤、配置方法、性能数据和踩坑记录。你可以直接照着做。

一、Qwen 3.5 小模型家族规格

1.1 型号对比

型号	定位	适用场景	VRAM 占用	推理速度
0.8B	边缘设备/IoT	传感器数据处理、简单指令	~500MB	120 tokens/s
2B	移动端/轻量任务	聊天机器人、文本分类	~1.5GB	85 tokens/s
4B	轻量级 Agent	多模态任务、自动化流程	~3GB	65 tokens/s
9B	推理与逻辑	代码生成、复杂推理	~6GB	42 tokens/s

测试环境：MacBook Pro M3，16GB 统一内存，量化版本 Q4_K_M