<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>本地部署 on Zampo Blog</title><link>https://blog.cpdd.fyi/tags/%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/</link><description>Recent content in 本地部署 on Zampo Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 03 Apr 2026 10:20:00 +0800</lastBuildDate><atom:link href="https://blog.cpdd.fyi/tags/%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/index.xml" rel="self" type="application/rss+xml"/><item><title>Gemma 4 刚发布，我连夜把它装进了 OpenClaw</title><link>https://blog.cpdd.fyi/posts/gemma4-local-deployment/</link><pubDate>Fri, 03 Apr 2026 10:20:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/gemma4-local-deployment/</guid><description>&lt;blockquote&gt;
&lt;p&gt;昨天 Gemma 4 刚发，今天它已经跑在我本地了，而且接进了 OpenClaw。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;很多人一看到新模型发布，第一反应是去搜教程。&lt;/p&gt;
&lt;p&gt;然后就会看到两类内容：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;一堆参数表，读完还是不知道怎么装&lt;/li&gt;
&lt;li&gt;直接甩一句 &lt;code&gt;ollama pull xxx&lt;/code&gt;，结果你一跑就报错，因为库里根本还没有，或者版本不对&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;所以这篇文章我不聊空话，只讲一条真的能跑通的链路：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;hf download
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;→ ollama create
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;→ OpenClaw 接入
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这条路的好处很现实：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你知道模型文件是从哪里来的&lt;/li&gt;
&lt;li&gt;你知道自己下的是哪个量化版本&lt;/li&gt;
&lt;li&gt;你不需要赌 Ollama 官方库有没有同步&lt;/li&gt;
&lt;li&gt;你装完就能在 OpenClaw 里用，不是“理论上可行”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你只想要一句结论，那就是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;先别冲 31B，也别一上来折腾一堆转换脚本。先从 Gemma 4 E4B 开始，用 GGUF 跑通本地链路，这是最稳的。&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>Qwen 3.5 小模型本地部署实战：在 OpenClaw 中跑出自己的 AI 助手</title><link>https://blog.cpdd.fyi/posts/qwen3-5-local-deployment/</link><pubDate>Thu, 05 Mar 2026 10:37:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen3-5-local-deployment/</guid><description>&lt;blockquote&gt;
&lt;p&gt;阿里最新发布 0.8B-9B 端侧模型，10 分钟完成部署，显存最低 500MB。本文实测 4 种型号在 OpenClaw 中的表现，含完整配置、性能数据、踩坑记录。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="写在前面"&gt;写在前面&lt;/h2&gt;
&lt;p&gt;2026 年 3 月初，阿里通义千问发布了 Qwen 3.5 小模型家族（0.8B/2B/4B/9B）。没有发布会，但技术文档里的几个数字让我停下了手头的工作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;0.8B 模型显存占用 &lt;strong&gt;~500MB&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;4B 模型支持 &lt;strong&gt;原生多模态&lt;/strong&gt;（非适配器方案）&lt;/li&gt;
&lt;li&gt;9B 模型用了 &lt;strong&gt;Scaled RL&lt;/strong&gt; 强化学习&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;我花了一下午把这四个型号全部署到 OpenClaw 里跑了一遍。结论先行：&lt;strong&gt;端侧 AI 的拐点，可能真的到了&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;下面是完整实测报告，包含部署步骤、配置方法、性能数据和踩坑记录。你可以直接照着做。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一qwen-35-小模型家族规格"&gt;一、Qwen 3.5 小模型家族规格&lt;/h2&gt;
&lt;h3 id="11-型号对比"&gt;1.1 型号对比&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;型号&lt;/th&gt;
 &lt;th&gt;定位&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;th&gt;VRAM 占用&lt;/th&gt;
 &lt;th&gt;推理速度&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;0.8B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;边缘设备/IoT&lt;/td&gt;
 &lt;td&gt;传感器数据处理、简单指令&lt;/td&gt;
 &lt;td&gt;~500MB&lt;/td&gt;
 &lt;td&gt;120 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;2B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;移动端/轻量任务&lt;/td&gt;
 &lt;td&gt;聊天机器人、文本分类&lt;/td&gt;
 &lt;td&gt;~1.5GB&lt;/td&gt;
 &lt;td&gt;85 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;4B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;轻量级 Agent&lt;/td&gt;
 &lt;td&gt;多模态任务、自动化流程&lt;/td&gt;
 &lt;td&gt;~3GB&lt;/td&gt;
 &lt;td&gt;65 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;9B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;推理与逻辑&lt;/td&gt;
 &lt;td&gt;代码生成、复杂推理&lt;/td&gt;
 &lt;td&gt;~6GB&lt;/td&gt;
 &lt;td&gt;42 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;测试环境：MacBook Pro M3，16GB 统一内存，量化版本 Q4_K_M&lt;/p&gt;</description></item></channel></rss>