AI on Zampo Blog

Agent 的下个形态，不是聊天框，而是你的操作系统

Wed, 20 May 2026 23:15:00 +0800

你什么时候会真正想要一个 AI 来操作你的电脑？

不是让它写首诗的时候。

是你在家、电脑在公司，文件没拷过来、表没做完、明天就要用——而此时此刻，你手上只有一部手机。

这个场景里，你需要的不是 Chatbot，不是一个从零开始教你的 AI 助手。你需要一个能看见你的电脑桌面、找到那个文件、打开表格、把数据抽出来、发到你手上——替你动手的东西。

过去两年，市面上大部分 AI 产品都在解决"让 AI 更会说话"这件事。而 2026 年 5 月进入内测的腾讯 Marvis，试图回答的是一个完全不同的问题：AI 能不能真的在你的电脑里干活？

Agent 做了两年，为什么还停在聊天框里

最近抖音上有一个视频，讲的是"Agent 的下个形态是什么"。视频作者把 Agent 产品的演进大致分为三个阶段：

第一阶段，纯 Agent 形态。 厂商把 Agent 理解为"会规划任务的聊天机器人"——你提需求，它拆解步骤，然后生成答案给你。典型的输入输出都在聊天框里，AI 像个很聪明的顾问，但始终没有走出那个对话框。

第二阶段，Claw 时代。 以 OpenClaw 为代表的产品开始让 Agent 拥有"手"——它能读你的文件、操作你的浏览器、执行 shell 命令。AI 不再只回答问题，开始动手了。但这个阶段的核心逻辑还是"Agent 中心"——Agent 像一个人的替身，你通过它操作一切。

第三阶段，以 Marvis 为代表的 OS Agent 形态。 核心变化不是 Agent 变强了，而是主角从 Agent 换成了你。Marvis 的设计逻辑是：不再让 AI 当一个人的代理，而是让它融入你本来就有的电脑环境——你的文件系统、你的桌面、你的手机。它嵌在你的操作系统里，而不是站在一个聊天框后面。

这个判断不一定能概括整个行业，但它抓住了 Agent 产品现在最本质的一个矛盾：如果 Agent 还停在聊天框里，它永远只是建议者，不是执行者。

Marvis 在做什么：不是更强的 Chatbot，是更近的操作系统

Qwen3.6 vs Gemma4：本地 AI 模型性能基准测试，10000 tokens/秒是什么体验

Fri, 17 Apr 2026 19:00:00 +0800

Qwen3.6 的发布，可能是本地 Agent 应用场景中最棒的发布之一。

为什么？

因为 Qwen3.5 27B 有一个致命问题：工具调用可靠性很强，但是慢。

对于需要不断生成 token 的 Agent 工作流来说，这是关键批评。你有一个可靠的工具调用专家，但它生成 token 的速度慢到你无法实用。

Qwen3.6 解决了这个问题——速度大幅提升，同时保持工具调用可靠性。

这篇是本地 AI 模型性能基准测试，基于真实测试数据，给你一份可操作的硬件选型指南。看完你知道：

Qwen3.6 比 Qwen3.5 27B 快多少
24GB VRAM 为什么是魔法数字
入门/中端/高端/极限四档配置怎么选
量化等级 Q4/Q5/Q6/Q8 如何取舍

一、测试硬件配置

先说测试平台。

平台	GPU 配置	总 VRAM	用途
HP Z440	2× RTX 3060 12GB	24GB	双卡并行测试
Prox 2	8× GPU	多配置	极限吞吐量测试
单机	RTX 3090 24GB	24GB	单卡高配测试
单机	RTX 4090 24GB	24GB	单卡旗舰测试

24GB VRAM 是魔法数字

为什么强调 24GB？

AI 把门槛打低了，也可能把台阶拆了

Wed, 15 Apr 2026 00:00:00 +0000

AI 让写代码更快了，让做产品更快了，让创业试错更快了。

但一个很少被认真讨论的问题是：当越来越多人依赖 AI 完成任务时，谁还会去维护 Linux、数据库、网络协议栈、编译器、中间件、开源基础库？

这不是"AI 会不会替代程序员"的老话题，而是一个更深的矛盾：AI 一边在显著提高互联网行业的表层生产力，一边也可能压缩工程师的成长路径、稀释对底层系统的理解，最终让互联网世界出现"表层繁荣、底层失血"的断层。

AI 带来的效率繁荣

先承认 AI 的真实价值。

AI 确实在把互联网行业推向前所未有的高效率：

开发更快——以前需要查文档、写样板代码、调试边界情况，现在 AI 几秒钟就能给出可用的代码片段
产品更快——从想法到原型的周期被大幅压缩，小团队也能快速验证商业模式
试错更快——失败成本降低，迭代速度加快，创新门槛变低
能力放大——一个懂产品的人，借助 AI 可以同时承担前端、后端、测试的角色

这些都是实实在在的好处。否认 AI 的效率价值，就像否认互联网本身一样不现实。

但效率提升，不等于理解增长。这才是问题的起点。

认知围城：完成任务，不等于理解发生

真正的问题不是 AI 太强，而是人可能越来越少思考。

我观察到一个现象：很多工程师在使用 AI 后，完成任务的速度确实变快了，但离开 AI 后，对系统的理解其实很薄。

完成任务，不等于理解发生。

AI 可以帮你写一个函数，可以帮你调试一个 bug，可以帮你解释一段代码。但它不能替你建立系统的认知结构。

会调用 AI，不等于会工作。

工作不仅仅是完成任务，还包括判断需求是否合理、方案是否可行、风险是否可控。这些判断力，AI 给不了。

我见过一些年轻工程师，用 AI 写出来的代码能跑，测试也能过。但一旦线上出问题，他们就不知道从哪里开始排查。因为他们对代码的理解，停留在"AI 说这样写可以"的层面，而不是"我知道为什么要这样写"的层面。

这就是"认知围城"：看起来人人能力更强了，实际上真正能理解系统的人可能越来越少。

互联网的沉默底座

互联网世界不是只有应用层，还有一层沉默的底座。

这个底座包括：

Linux——全球 90% 以上的服务器运行在 Linux 上
数据库——MySQL、PostgreSQL、Redis 等支撑着所有数据存取
网络协议栈——TCP/IP、HTTP、DNS 等协议让互联网能够运转
编译器——GCC、LLVM 等把代码变成机器能执行的指令
中间件——消息队列、缓存、负载均衡等让分布式系统成为可能
开源基础库——无数人依赖的底层库，很多已经十几年没有大版本更新

互联网真正能运转，不是因为表层产品不断变多，而是因为底层基础设施一直有人维护。

但维护这些基础设施的人，正在变老。

MCP 被抛弃的背后：不是技术输了，是 Token 和效率扛不住了

Wed, 15 Apr 2026 00:00:00 +0000

今年 3 月，Perplexity 的 CTO 在一场开发者大会上公开宣布：他们内部正在全面转向 API 和 CLI 工具，放弃 MCP。

几乎同时，Y Combinator 的 CEO 也说自己选择用 CLI，不用 MCP。而最近爆火的 OpenClaw，在实际执行任务时用的几乎全是内部工具和 CLI 命令，基本上看不到 MCP 的身影。

这就有意思了。MCP 明明是专门为大模型设计的工具接口标准，曾被誉为"Agent 的万能接口"，为什么现在反而被一群"古老"的命令行工具抢了饭碗？

CLI 到底有什么惊为天人的优势？MCP 又有什么不为人知的问题？

CLI 的两大优势

既然 CLI 能获得越来越多人的青睐，那它必然有着非常明显的优势。我总结了一下，主要是两点：Token 消耗小和执行效率高。

Token 消耗：14268 vs 忽略不计

CLI 的 Token 消耗小，从反面看就意味着 MCP 的 Token 消耗大。尤其是 MCP 的元信息——包括名称、描述、入参格式等等——这些都会传到大模型的上下文里面，从而消耗大量 Token。

来看一个具体例子。假设你想让大模型帮你查 GitHub 仓库 OpenClaw 最新的 3 个 issue，此时发给大模型的不只是你的问题，还有可用的 MCP 工具列表。比如 list_issues 用来查询 issue 列表，create_branch 用来创建 git 分支等。

老板问：上了 TPU，为什么没快多少？

Tue, 14 Apr 2026 13:59:00 +0800

老板问：我们上了 TPU，为什么训练速度没快多少？

你答不上来。

问题不在 TPU，在你一开始就没想清楚：你的计算模式，到底适合什么。

大家都在抢 GPU，但真正稀缺的是晶体管文明

Mon, 13 Apr 2026 16:05:00 +0800

大家都在聊大模型、英伟达、算力战，像是 AI 世界里最重要的东西突然变成了 GPU。

但如果你再往前追一步，会发现今天最贵的根本不是“模型想法”，而是把这些想法真正变成计算的那套底层硬件。说得更直白一点：AI 看起来像软件革命，但它真正踩着的，还是从晶体管开始的硬件文明。

100 个 Nano Banana 爆款提示词，直接抄作业

Thu, 09 Apr 2026 10:45:00 +0800

朋友，你是不是也遇到过这种情况：

打开 AI 绘画工具，输入"一个漂亮的女孩"，出来的图要么假得吓人，要么根本不是你想要的感觉。

提示词这东西，真不是写得越长越好。关键是知道怎么写。

最近 Google 的 Nano Banana（Gemini 图像生成功能的昵称）火了。GitHub 上有个项目叫 awesome-nano-banana，8.7k stars，收集了 100+ 个高质量案例。我花了一整天，把这些案例的提示词全部拆解、分类、整理成模板。

你不用研究什么参数、不用学复杂技巧。下面这 100 个提示词，直接复制，把 [括号里的内容] 换成你想要的，就能出图。

先说两句怎么用

Nano Banana 不是独立 App，是 Google Gemini 的图像生成功能。入口在 Google AI Studio（aistudio.google.com），注册个账号就能用。

它有幾個特点：

支持最多 14 张参考图（角色一致性稳了）
可以对话式修改（“把背景换成海边"这种指令直接说）
能结合 Google 搜索生成实时数据图像（比如"今天的纽约时代广场”）

定价是按张算的，0.045 到 0.24 美元一张，取决于分辨率。免费账号有额度限制，但试试水够了。

好，废话不多说，上干货。

一、人物/角色（20 个）

1. 电影感肖像

A cinematic portrait of [SUBJECT], dramatic lighting, shallow depth of field, shot on 35mm film, moody atmosphere, film grain

替换示例：[SUBJECT] → a young woman with red hair

龙虾代运营月入 45 万？先算完这笔账再决定要不要入局

Tue, 07 Apr 2026 18:30:00 +0800

核心就一句话：当所有人都在讨论"怎么用 AI 赚钱"时，最先赚到钱的，永远是那群"教人怎么用 AI"的人。

昨天晚上，有个读者在后台问我：

“Zampo，现在入局龙虾代运营还来得及吗？”

我没直接回答，反问他一个问题：

“你知道装一个 OpenClaw，API 待命成本一天多少钱吗？”

他愣住了。

我又问：“你知道有多少人装了之后，发现每天啥也不干就要烧掉 20 美元吗？”

他不说话了。

这就是我今天要写这篇文章的原因。

最近"养龙虾"（部署 OpenClaw）火得一塌糊涂。淘宝有店家一个月卖出 3000 多单代安装服务，一单 300-500 块，月入三四十万。闲鱼上的兼职，上门装一次 450 块，一天一单就能月入过万。

AI 还没落地，卖铲子的人先赚到了钱。

但我想泼一盆冷水：在你决定入局之前，有些账必须先算清楚。

否则你不是去淘金，是去被收割。

OpenClaw 到底是什么

先说清楚，OpenClaw 到底是什么。

简单讲，它是一个能让你"用 AI 干活"的工具。

以前的 AI，你问它问题，它回答你。OpenClaw 不一样——它能接管你的电脑，自动帮你做事：

自动处理邮件
自动整理文件
自动运行代码
自动发布社交内容
自动采集数据
自动生成投研报告

从"对话智能"到"行动智能"，这是它爆红的核心原因。GitHub 星标不到三个月破 31 万，增长速度超越 Linux。

但问题也在这里。

这东西难装。要配 Node.js 环境，要装依赖，要连云端模型 API，要调环境变量，要处理报错。

对技术人员来说，这是周末花几小时的事。对非技术用户，这是一道跨不过去的坎。

有门槛，就有生意。 代运营出现了。

代运营怎么赚钱

代运营怎么赚钱？三类。

代部署

这是最直接的卖铲子。

服务类型	价格
远程部署	300-500 元/次
上门部署	450-600 元/次
海外标准化部署	$3,000-6,000
月度维护	$200-500/月

淘宝有店家月售 3000+ 单，收入 30-45 万。这是真金白银。

滴滴开放 AI 打车之后，我最想问的不是技术，而是这产品到底成不成立

Fri, 03 Apr 2026 18:30:00 +0800

滴滴把 didi-ride-skill 放出来之后，很多人的第一反应大概都是：AI 终于也能打车了。

但说实话，如果讨论只停在这里，我觉得有点浅。

因为这件事真正有意思的地方，不是“又多了一个能调用的工具”，而是它第一次把 AI 助手往一个特别现实、也特别容易翻车的产品场景里推了一步。

打车不是写诗，不是陪聊，也不是查资料。

它是一个目标非常明确、结果非常具体、用户容错率也非常低的场景。

你叫错车、叫错时间、叫错地点，用户不会觉得“模型偶尔犯错也正常”，只会转头把 App 打开，自己下单。

Gemma 4 刚发布，我连夜把它装进了 OpenClaw

Fri, 03 Apr 2026 10:20:00 +0800

昨天 Gemma 4 刚发，今天它已经跑在我本地了，而且接进了 OpenClaw。

很多人一看到新模型发布，第一反应是去搜教程。

然后就会看到两类内容：

一堆参数表，读完还是不知道怎么装
直接甩一句 ollama pull xxx，结果你一跑就报错，因为库里根本还没有，或者版本不对

所以这篇文章我不聊空话，只讲一条真的能跑通的链路：

1
2
3


hf download
→ ollama create
→ OpenClaw 接入

这条路的好处很现实：

你知道模型文件是从哪里来的
你知道自己下的是哪个量化版本
你不需要赌 Ollama 官方库有没有同步
你装完就能在 OpenClaw 里用，不是“理论上可行”

如果你只想要一句结论，那就是：

先别冲 31B，也别一上来折腾一堆转换脚本。先从 Gemma 4 E4B 开始，用 GGUF 跑通本地链路，这是最稳的。

Windows 折腾了我 3 年后，我换成了 Mac

Wed, 01 Apr 2026 23:14:00 +0800

三年前我买了一台 Windows 笔记本，配置不低，价格也不便宜。

然后我花了三年时间，折腾它。

装驱动、修蓝屏、重装系统、配环境、杀进程、查为什么风扇突然狂转……

直到换了 Mac，我才意识到：原来电脑可以不用折腾的。

不折腾，是 AI 时代最贵的东西

现在 AI 工具这么多，每个人的工作流都在快速变化。

你今天要装个新工具，明天要跑个本地模型，后天要配个开发环境。

Windows 上，每一步都可能踩坑。

CUDA 版本对不上、Python 环境冲突、WSL 和本机路径打架、某个依赖只支持 Linux……

我不是说 Windows 不能用，我是说你的时间花在折腾上，就没有花在真正的事情上。

Mac 不一样。

Homebrew 一条命令，工具装好了。Python、Node、Docker，全部开箱即用。终端就是正经 Unix，服务器上怎么操作，本地就怎么操作。

你的精力，可以全部放在做事上。

OpenClaw 在 Mac 上就是不一样

我现在用 OpenClaw 管理我的工作流——日程、笔记、代码审查、文章润色。

它需要长期在后台跑。

在 Windows 上，我试过类似的工具。后台进程莫名其妙挂掉，内存占用越来越高，偶尔蓝屏一次全没了。

MacBook Pro 开机之后，我基本不关机。

OpenClaw 就在那里，随时响应。风扇不响，电量不崩，第二天早上打开，一切都在。

这种稳定感，是 Windows 给不了我的。

生态这件事，用了才知道

我有 iPhone，有 iPad，有 Mac。

这三个东西在一起，有些事情自然而然就发生了：

手机上看到一篇文章，AirDrop 到 Mac，继续在大屏幕上读。Mac 上复制了一段代码，手机上直接粘贴。iPhone 来了个电话，Mac 上直接接。

没有设置，没有配置，没有"怎么连接"。

就是能用。

AI 时代，你的数据在多个设备之间流转是常态。Apple 生态把这件事做到了你感觉不到它的存在。

隐私，是我换 Mac 的真正原因

说实话，这才是重点。

谷歌提出的 5 种 Skill 设计模式，第 4 种 90% 的人都没用过

Fri, 27 Mar 2026 18:04:00 +0800

格式只是皮囊，内容设计才是灵魂

同一个模型、同样的 SKILL.md 格式规范，为什么有些 Agent 干活干净利落，有些却像没睡醒？

这个问题很多人琢磨了很久。直到看到 Google Cloud Tech 这篇文章，才恍然大悟——格式只告诉你"怎么包装"，没告诉你"里面该怎么设计"。

现在超过 30 个 Agent 工具（Claude Code、Gemini CLI、Cursor 等）都统一了 SKILL.md 布局，格式问题基本解决了。但一个包装 FastAPI 规范的 Skill，和一个四步文档流水线，外表看着一模一样，内部逻辑却天差地别。

这篇文章提炼出了 5 种经过实战验证的设计模式，帮你从"会用格式"进阶到"设计得好"。

Qwen 3.5 小模型本地部署实战：在 OpenClaw 中跑出自己的 AI 助手

Thu, 05 Mar 2026 10:37:00 +0800

阿里最新发布 0.8B-9B 端侧模型，10 分钟完成部署，显存最低 500MB。本文实测 4 种型号在 OpenClaw 中的表现，含完整配置、性能数据、踩坑记录。

写在前面

2026 年 3 月初，阿里通义千问发布了 Qwen 3.5 小模型家族（0.8B/2B/4B/9B）。没有发布会，但技术文档里的几个数字让我停下了手头的工作：

0.8B 模型显存占用 ~500MB
4B 模型支持 原生多模态（非适配器方案）
9B 模型用了 Scaled RL 强化学习

我花了一下午把这四个型号全部署到 OpenClaw 里跑了一遍。结论先行：端侧 AI 的拐点，可能真的到了。

下面是完整实测报告，包含部署步骤、配置方法、性能数据和踩坑记录。你可以直接照着做。

一、Qwen 3.5 小模型家族规格

1.1 型号对比

型号	定位	适用场景	VRAM 占用	推理速度
0.8B	边缘设备/IoT	传感器数据处理、简单指令	~500MB	120 tokens/s
2B	移动端/轻量任务	聊天机器人、文本分类	~1.5GB	85 tokens/s
4B	轻量级 Agent	多模态任务、自动化流程	~3GB	65 tokens/s
9B	推理与逻辑	代码生成、复杂推理	~6GB	42 tokens/s

测试环境：MacBook Pro M3，16GB 统一内存，量化版本 Q4_K_M

2024年人工智能发展趋势与未来展望

Fri, 15 Mar 2024 09:30:00 +0800

人工智能正在以前所未有的速度改变着我们的世界。2024年，AI技术迎来了新的突破和应用浪潮，让我们一起来探索这些激动人心的发展趋势。

🚀 大语言模型的持续进化

参数规模与效率的平衡

2024年，大语言模型（LLM）在参数规模和推理效率之间找到了更好的平衡点。虽然模型参数量仍在增长，但业界更关注高效推理和成本优化。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


# 模型效率优化示例
class EfficientTransformer:
 def __init__(self, d_model=512, n_heads=8, dropout=0.1):
 self.attention = MultiHeadAttention(d_model, n_heads, dropout)
 self.ffn = PositionWiseFeedForward(d_model, dropout)
 
 def forward(self, x, mask=None):
 # 优化的注意力机制
 attn_output = self.attention(x, x, x, mask)
 # 残差连接和层归一化
 x = self.layer_norm1(x + attn_output)
 ffn_output = self.ffn(x)
 return self.layer_norm2(x + ffn_output)

多语言支持的突破

现代LLM已经能够流利处理超过100种语言，这为全球化应用奠定了基础：

中文理解能力显著提升，能够处理复杂的成语和文化背景
代码混合文本处理能力增强，支持多语言编程环境
方言识别技术日趋成熟，为本地化应用提供支持

🌈 多模态AI的融合发展

视觉-语言模型的突破

2024年，视觉-语言模型（VLM）在多个方面取得了显著进展：

图像描述生成

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


# 多模态模型推理示例
def generate_image_caption(image_tensor, model):
 """生成图像描述"""
 visual_features = model.image_encoder(image_tensor)
 caption = model.text_decoder.generate(visual_features)
 return caption

# 应用场景
caption = generate_image_caption(image, model)
print(f"图像描述: {caption}")

视觉问答系统

现代VLM能够准确回答复杂的视觉问题：