Qwen3.6 vs Gemma4：本地 AI 模型性能基准测试，10000 tokens/秒是什么体验

Fri, 17 Apr 2026 19:00:00 +0800

Qwen3.6 的发布，可能是本地 Agent 应用场景中最棒的发布之一。

为什么？

因为 Qwen3.5 27B 有一个致命问题：工具调用可靠性很强，但是慢。

对于需要不断生成 token 的 Agent 工作流来说，这是关键批评。你有一个可靠的工具调用专家，但它生成 token 的速度慢到你无法实用。

Qwen3.6 解决了这个问题——速度大幅提升，同时保持工具调用可靠性。

这篇是本地 AI 模型性能基准测试，基于真实测试数据，给你一份可操作的硬件选型指南。看完你知道：

一、测试硬件配置

先说测试平台。

平台	GPU 配置	总 VRAM	用途
HP Z440	2× RTX 3060 12GB	24GB	双卡并行测试
Prox 2	8× GPU	多配置	极限吞吐量测试
单机	RTX 3090 24GB	24GB	单卡高配测试
单机	RTX 4090 24GB	24GB	单卡旗舰测试

为什么强调 24GB？