Gemma 4 刚发布，我连夜把它装进了 OpenClaw

Fri, 03 Apr 2026 10:20:00 +0800

昨天 Gemma 4 刚发，今天它已经跑在我本地了，而且接进了 OpenClaw。

很多人一看到新模型发布，第一反应是去搜教程。

然后就会看到两类内容：

所以这篇文章我不聊空话，只讲一条真的能跑通的链路：

1
2
3


hf download
→ ollama create
→ OpenClaw 接入

这条路的好处很现实：

如果你只想要一句结论，那就是：

先别冲 31B，也别一上来折腾一堆转换脚本。先从 Gemma 4 E4B 开始，用 GGUF 跑通本地链路，这是最稳的。

Qwen 3.5 小模型本地部署实战：在 OpenClaw 中跑出自己的 AI 助手

Thu, 05 Mar 2026 10:37:00 +0800

阿里最新发布 0.8B-9B 端侧模型，10 分钟完成部署，显存最低 500MB。本文实测 4 种型号在 OpenClaw 中的表现，含完整配置、性能数据、踩坑记录。

2026 年 3 月初，阿里通义千问发布了 Qwen 3.5 小模型家族（0.8B/2B/4B/9B）。没有发布会，但技术文档里的几个数字让我停下了手头的工作：

我花了一下午把这四个型号全部署到 OpenClaw 里跑了一遍。结论先行：端侧 AI 的拐点，可能真的到了。

下面是完整实测报告，包含部署步骤、配置方法、性能数据和踩坑记录。你可以直接照着做。

型号	定位	适用场景	VRAM 占用	推理速度
0.8B	边缘设备/IoT	传感器数据处理、简单指令	~500MB	120 tokens/s
2B	移动端/轻量任务	聊天机器人、文本分类	~1.5GB	85 tokens/s
4B	轻量级 Agent	多模态任务、自动化流程	~3GB	65 tokens/s
9B	推理与逻辑	代码生成、复杂推理	~6GB	42 tokens/s

测试环境：MacBook Pro M3，16GB 统一内存，量化版本 Q4_K_M