<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI on Zampo Blog</title><link>https://blog.cpdd.fyi/tags/ai/</link><description>Recent content in AI on Zampo Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Wed, 20 May 2026 23:15:00 +0800</lastBuildDate><atom:link href="https://blog.cpdd.fyi/tags/ai/index.xml" rel="self" type="application/rss+xml"/><item><title>Agent 的下个形态，不是聊天框，而是你的操作系统</title><link>https://blog.cpdd.fyi/posts/agent-next-form-is-os/</link><pubDate>Wed, 20 May 2026 23:15:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/agent-next-form-is-os/</guid><description>&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/agent-next-form-is-os/cover.png" alt="腾讯 Marvis：手机远程电脑桌面控制概念图"&gt;&lt;/p&gt;
&lt;p&gt;你什么时候会真正想要一个 AI 来操作你的电脑？&lt;/p&gt;
&lt;p&gt;不是让它写首诗的时候。&lt;/p&gt;
&lt;p&gt;是你在家、电脑在公司，文件没拷过来、表没做完、明天就要用——而此时此刻，你手上只有一部手机。&lt;/p&gt;
&lt;p&gt;这个场景里，你需要的不是 Chatbot，不是一个从零开始教你的 AI 助手。你需要一个能看见你的电脑桌面、找到那个文件、打开表格、把数据抽出来、发到你手上——&lt;strong&gt;替你动手&lt;/strong&gt;的东西。&lt;/p&gt;
&lt;p&gt;过去两年，市面上大部分 AI 产品都在解决&amp;quot;让 AI 更会说话&amp;quot;这件事。而 2026 年 5 月进入内测的腾讯 Marvis，试图回答的是一个完全不同的问题：&lt;strong&gt;AI 能不能真的在你的电脑里干活？&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="agent-做了两年为什么还停在聊天框里"&gt;Agent 做了两年，为什么还停在聊天框里&lt;/h2&gt;
&lt;p&gt;最近抖音上有一个视频，讲的是&amp;quot;Agent 的下个形态是什么&amp;quot;。视频作者把 Agent 产品的演进大致分为三个阶段：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一阶段，纯 Agent 形态。&lt;/strong&gt; 厂商把 Agent 理解为&amp;quot;会规划任务的聊天机器人&amp;quot;——你提需求，它拆解步骤，然后生成答案给你。典型的输入输出都在聊天框里，AI 像个很聪明的顾问，但始终没有走出那个对话框。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二阶段，Claw 时代。&lt;/strong&gt; 以 OpenClaw 为代表的产品开始让 Agent 拥有&amp;quot;手&amp;quot;——它能读你的文件、操作你的浏览器、执行 shell 命令。AI 不再只回答问题，开始动手了。但这个阶段的核心逻辑还是&amp;quot;Agent 中心&amp;quot;——Agent 像一个人的替身，你通过它操作一切。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三阶段，以 Marvis 为代表的 OS Agent 形态。&lt;/strong&gt; 核心变化不是 Agent 变强了，而是&lt;strong&gt;主角从 Agent 换成了你&lt;/strong&gt;。Marvis 的设计逻辑是：不再让 AI 当一个人的代理，而是让它融入你本来就有的电脑环境——你的文件系统、你的桌面、你的手机。它嵌在你的操作系统里，而不是站在一个聊天框后面。&lt;/p&gt;
&lt;p&gt;这个判断不一定能概括整个行业，但它抓住了 Agent 产品现在最本质的一个矛盾：&lt;strong&gt;如果 Agent 还停在聊天框里，它永远只是建议者，不是执行者。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="marvis-在做什么不是更强的-chatbot是更近的操作系统"&gt;Marvis 在做什么：不是更强的 Chatbot，是更近的操作系统&lt;/h2&gt;
&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/agent-next-form-is-os/marvis-pc-cover.png" alt="Marvis PC 版主界面"&gt;&lt;/p&gt;</description></item><item><title>Qwen3.6 vs Gemma4：本地 AI 模型性能基准测试，10000 tokens/秒是什么体验</title><link>https://blog.cpdd.fyi/posts/qwen3-6-vs-gemma4-benchmark/</link><pubDate>Fri, 17 Apr 2026 19:00:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen3-6-vs-gemma4-benchmark/</guid><description>&lt;p&gt;Qwen3.6 的发布，可能是本地 Agent 应用场景中最棒的发布之一。&lt;/p&gt;
&lt;p&gt;为什么？&lt;/p&gt;
&lt;p&gt;因为 Qwen3.5 27B 有一个致命问题：&lt;strong&gt;工具调用可靠性很强，但是慢。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;对于需要不断生成 token 的 Agent 工作流来说，这是关键批评。你有一个可靠的工具调用专家，但它生成 token 的速度慢到你无法实用。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Qwen3.6 解决了这个问题&lt;/strong&gt;——速度大幅提升，同时保持工具调用可靠性。&lt;/p&gt;
&lt;p&gt;这篇是本地 AI 模型性能基准测试，基于真实测试数据，给你一份可操作的硬件选型指南。看完你知道：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Qwen3.6 比 Qwen3.5 27B 快多少&lt;/li&gt;
&lt;li&gt;24GB VRAM 为什么是魔法数字&lt;/li&gt;
&lt;li&gt;入门/中端/高端/极限四档配置怎么选&lt;/li&gt;
&lt;li&gt;量化等级 Q4/Q5/Q6/Q8 如何取舍&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="一测试硬件配置"&gt;一、测试硬件配置&lt;/h2&gt;
&lt;p&gt;先说测试平台。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;平台&lt;/th&gt;
 &lt;th&gt;GPU 配置&lt;/th&gt;
 &lt;th&gt;总 VRAM&lt;/th&gt;
 &lt;th&gt;用途&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;HP Z440&lt;/td&gt;
 &lt;td&gt;2× RTX 3060 12GB&lt;/td&gt;
 &lt;td&gt;24GB&lt;/td&gt;
 &lt;td&gt;双卡并行测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Prox 2&lt;/td&gt;
 &lt;td&gt;8× GPU&lt;/td&gt;
 &lt;td&gt;多配置&lt;/td&gt;
 &lt;td&gt;极限吞吐量测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;单机&lt;/td&gt;
 &lt;td&gt;RTX 3090 24GB&lt;/td&gt;
 &lt;td&gt;24GB&lt;/td&gt;
 &lt;td&gt;单卡高配测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;单机&lt;/td&gt;
 &lt;td&gt;RTX 4090 24GB&lt;/td&gt;
 &lt;td&gt;24GB&lt;/td&gt;
 &lt;td&gt;单卡旗舰测试&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="24gb-vram-是魔法数字"&gt;24GB VRAM 是魔法数字&lt;/h3&gt;
&lt;p&gt;为什么强调 24GB？&lt;/p&gt;</description></item><item><title>AI 把门槛打低了，也可能把台阶拆了</title><link>https://blog.cpdd.fyi/posts/ai-cognitive-moat-growth-path/</link><pubDate>Wed, 15 Apr 2026 00:00:00 +0000</pubDate><guid>https://blog.cpdd.fyi/posts/ai-cognitive-moat-growth-path/</guid><description>&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/ai-cognitive-moat/cover.jpeg" alt="AI 与基础设施对比图，象征表层繁荣与底层失血的矛盾"&gt;&lt;/p&gt;
&lt;p&gt;AI 让写代码更快了，让做产品更快了，让创业试错更快了。&lt;/p&gt;
&lt;p&gt;但一个很少被认真讨论的问题是：当越来越多人依赖 AI 完成任务时，谁还会去维护 Linux、数据库、网络协议栈、编译器、中间件、开源基础库？&lt;/p&gt;
&lt;p&gt;这不是&amp;quot;AI 会不会替代程序员&amp;quot;的老话题，而是一个更深的矛盾：AI 一边在显著提高互联网行业的表层生产力，一边也可能压缩工程师的成长路径、稀释对底层系统的理解，最终让互联网世界出现&amp;quot;表层繁荣、底层失血&amp;quot;的断层。&lt;/p&gt;
&lt;h2 id="ai-带来的效率繁荣"&gt;AI 带来的效率繁荣&lt;/h2&gt;
&lt;p&gt;先承认 AI 的真实价值。&lt;/p&gt;
&lt;p&gt;AI 确实在把互联网行业推向前所未有的高效率：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;开发更快&lt;/strong&gt;——以前需要查文档、写样板代码、调试边界情况，现在 AI 几秒钟就能给出可用的代码片段&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;产品更快&lt;/strong&gt;——从想法到原型的周期被大幅压缩，小团队也能快速验证商业模式&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;试错更快&lt;/strong&gt;——失败成本降低，迭代速度加快，创新门槛变低&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能力放大&lt;/strong&gt;——一个懂产品的人，借助 AI 可以同时承担前端、后端、测试的角色&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些都是实实在在的好处。否认 AI 的效率价值，就像否认互联网本身一样不现实。&lt;/p&gt;
&lt;p&gt;但效率提升，不等于理解增长。这才是问题的起点。&lt;/p&gt;
&lt;h2 id="认知围城完成任务不等于理解发生"&gt;认知围城：完成任务，不等于理解发生&lt;/h2&gt;
&lt;p&gt;真正的问题不是 AI 太强，而是人可能越来越少思考。&lt;/p&gt;
&lt;p&gt;我观察到一个现象：很多工程师在使用 AI 后，完成任务的速度确实变快了，但离开 AI 后，对系统的理解其实很薄。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;完成任务，不等于理解发生。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;AI 可以帮你写一个函数，可以帮你调试一个 bug，可以帮你解释一段代码。但它不能替你建立系统的认知结构。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;会调用 AI，不等于会工作。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;工作不仅仅是完成任务，还包括判断需求是否合理、方案是否可行、风险是否可控。这些判断力，AI 给不了。&lt;/p&gt;
&lt;p&gt;我见过一些年轻工程师，用 AI 写出来的代码能跑，测试也能过。但一旦线上出问题，他们就不知道从哪里开始排查。因为他们对代码的理解，停留在&amp;quot;AI 说这样写可以&amp;quot;的层面，而不是&amp;quot;我知道为什么要这样写&amp;quot;的层面。&lt;/p&gt;
&lt;p&gt;这就是&amp;quot;认知围城&amp;quot;：看起来人人能力更强了，实际上真正能理解系统的人可能越来越少。&lt;/p&gt;
&lt;h2 id="互联网的沉默底座"&gt;互联网的沉默底座&lt;/h2&gt;
&lt;p&gt;互联网世界不是只有应用层，还有一层沉默的底座。&lt;/p&gt;
&lt;p&gt;这个底座包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Linux&lt;/strong&gt;——全球 90% 以上的服务器运行在 Linux 上&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据库&lt;/strong&gt;——MySQL、PostgreSQL、Redis 等支撑着所有数据存取&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;网络协议栈&lt;/strong&gt;——TCP/IP、HTTP、DNS 等协议让互联网能够运转&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;编译器&lt;/strong&gt;——GCC、LLVM 等把代码变成机器能执行的指令&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;中间件&lt;/strong&gt;——消息队列、缓存、负载均衡等让分布式系统成为可能&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;开源基础库&lt;/strong&gt;——无数人依赖的底层库，很多已经十几年没有大版本更新&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;互联网真正能运转，不是因为表层产品不断变多，而是因为底层基础设施一直有人维护。&lt;/p&gt;
&lt;p&gt;但维护这些基础设施的人，正在变老。&lt;/p&gt;</description></item><item><title>MCP 被抛弃的背后：不是技术输了，是 Token 和效率扛不住了</title><link>https://blog.cpdd.fyi/posts/mcp-vs-cli-engineering-tradeoff/</link><pubDate>Wed, 15 Apr 2026 00:00:00 +0000</pubDate><guid>https://blog.cpdd.fyi/posts/mcp-vs-cli-engineering-tradeoff/</guid><description>&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/mcp-vs-cli/cover.jpeg" alt="暗色终端代码屏幕，象征 CLI 与 MCP 的技术对比"&gt;&lt;/p&gt;
&lt;p&gt;今年 3 月，Perplexity 的 CTO 在一场开发者大会上公开宣布：他们内部正在全面转向 API 和 CLI 工具，放弃 MCP。&lt;/p&gt;
&lt;p&gt;几乎同时，Y Combinator 的 CEO 也说自己选择用 CLI，不用 MCP。而最近爆火的 OpenClaw，在实际执行任务时用的几乎全是内部工具和 CLI 命令，基本上看不到 MCP 的身影。&lt;/p&gt;
&lt;p&gt;这就有意思了。MCP 明明是专门为大模型设计的工具接口标准，曾被誉为&amp;quot;Agent 的万能接口&amp;quot;，为什么现在反而被一群&amp;quot;古老&amp;quot;的命令行工具抢了饭碗？&lt;/p&gt;
&lt;p&gt;CLI 到底有什么惊为天人的优势？MCP 又有什么不为人知的问题？&lt;/p&gt;
&lt;h2 id="cli-的两大优势"&gt;CLI 的两大优势&lt;/h2&gt;
&lt;p&gt;既然 CLI 能获得越来越多人的青睐，那它必然有着非常明显的优势。我总结了一下，主要是两点：&lt;strong&gt;Token 消耗小&lt;/strong&gt;和&lt;strong&gt;执行效率高&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="token-消耗14268-vs-忽略不计"&gt;Token 消耗：14268 vs 忽略不计&lt;/h3&gt;
&lt;p&gt;CLI 的 Token 消耗小，从反面看就意味着 MCP 的 Token 消耗大。尤其是 MCP 的元信息——包括名称、描述、入参格式等等——这些都会传到大模型的上下文里面，从而消耗大量 Token。&lt;/p&gt;
&lt;p&gt;来看一个具体例子。假设你想让大模型帮你查 GitHub 仓库 OpenClaw 最新的 3 个 issue，此时发给大模型的不只是你的问题，还有可用的 MCP 工具列表。比如 list_issues 用来查询 issue 列表，create_branch 用来创建 git 分支等。&lt;/p&gt;</description></item><item><title>老板问：上了 TPU，为什么没快多少？</title><link>https://blog.cpdd.fyi/posts/tpu-is-engineering-optimization/</link><pubDate>Tue, 14 Apr 2026 13:59:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/tpu-is-engineering-optimization/</guid><description>&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/tpu-is-engineering-optimization/cover.svg" alt="CPU vs GPU vs TPU 架构对比"&gt;&lt;/p&gt;
&lt;p&gt;老板问：我们上了 TPU，为什么训练速度没快多少？&lt;/p&gt;
&lt;p&gt;你答不上来。&lt;/p&gt;
&lt;p&gt;问题不在 TPU，在你一开始就没想清楚：你的计算模式，到底适合什么。&lt;/p&gt;</description></item><item><title>大家都在抢 GPU，但真正稀缺的是晶体管文明</title><link>https://blog.cpdd.fyi/posts/transistor-to-ai-gpu/</link><pubDate>Mon, 13 Apr 2026 16:05:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/transistor-to-ai-gpu/</guid><description>&lt;p&gt;大家都在聊大模型、英伟达、算力战，像是 AI 世界里最重要的东西突然变成了 GPU。&lt;/p&gt;
&lt;p&gt;但如果你再往前追一步，会发现今天最贵的根本不是“模型想法”，而是把这些想法真正变成计算的那套底层硬件。说得更直白一点：AI 看起来像软件革命，但它真正踩着的，还是从晶体管开始的硬件文明。&lt;/p&gt;
&lt;p&gt;&lt;img src="https://blog.cpdd.fyi/images/transistor-to-ai-gpu/cover.svg" alt="从真空管、晶体管到 GPU，决定 AI 上限的从来不只是模型"&gt;&lt;/p&gt;</description></item><item><title>100 个 Nano Banana 爆款提示词，直接抄作业</title><link>https://blog.cpdd.fyi/posts/nano-banana-prompts/</link><pubDate>Thu, 09 Apr 2026 10:45:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/nano-banana-prompts/</guid><description>&lt;p&gt;朋友，你是不是也遇到过这种情况：&lt;/p&gt;
&lt;p&gt;打开 AI 绘画工具，输入&amp;quot;一个漂亮的女孩&amp;quot;，出来的图要么假得吓人，要么根本不是你想要的感觉。&lt;/p&gt;
&lt;p&gt;提示词这东西，真不是写得越长越好。关键是&lt;strong&gt;知道怎么写&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;最近 Google 的 Nano Banana（Gemini 图像生成功能的昵称）火了。GitHub 上有个项目叫 awesome-nano-banana，8.7k stars，收集了 100+ 个高质量案例。我花了一整天，把这些案例的提示词全部拆解、分类、整理成模板。&lt;/p&gt;
&lt;p&gt;你不用研究什么参数、不用学复杂技巧。下面这 100 个提示词，直接复制，把 &lt;code&gt;[括号里的内容]&lt;/code&gt; 换成你想要的，就能出图。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="先说两句怎么用"&gt;先说两句怎么用&lt;/h2&gt;
&lt;p&gt;Nano Banana 不是独立 App，是 Google Gemini 的图像生成功能。入口在 &lt;strong&gt;Google AI Studio&lt;/strong&gt;（aistudio.google.com），注册个账号就能用。&lt;/p&gt;
&lt;p&gt;它有幾個特点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;支持最多 14 张参考图（角色一致性稳了）&lt;/li&gt;
&lt;li&gt;可以对话式修改（&amp;ldquo;把背景换成海边&amp;quot;这种指令直接说）&lt;/li&gt;
&lt;li&gt;能结合 Google 搜索生成实时数据图像（比如&amp;quot;今天的纽约时代广场&amp;rdquo;）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;定价是按张算的，0.045 到 0.24 美元一张，取决于分辨率。免费账号有额度限制，但试试水够了。&lt;/p&gt;
&lt;p&gt;好，废话不多说，上干货。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一人物角色20-个"&gt;一、人物/角色（20 个）&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;1. 电影感肖像&lt;/strong&gt;&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;A cinematic portrait of [SUBJECT], dramatic lighting, shallow depth of field, shot on 35mm film, moody atmosphere, film grain
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;替换示例：&lt;code&gt;[SUBJECT]&lt;/code&gt; → &lt;code&gt;a young woman with red hair&lt;/code&gt;&lt;/p&gt;</description></item><item><title>龙虾代运营月入 45 万？先算完这笔账再决定要不要入局</title><link>https://blog.cpdd.fyi/posts/lobster-ai-agent/</link><pubDate>Tue, 07 Apr 2026 18:30:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/lobster-ai-agent/</guid><description>&lt;blockquote&gt;
&lt;p&gt;核心就一句话：当所有人都在讨论&amp;quot;怎么用 AI 赚钱&amp;quot;时，最先赚到钱的，永远是那群&amp;quot;教人怎么用 AI&amp;quot;的人。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;昨天晚上，有个读者在后台问我：&lt;/p&gt;
&lt;p&gt;&amp;ldquo;Zampo，现在入局龙虾代运营还来得及吗？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;我没直接回答，反问他一个问题：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;&amp;ldquo;你知道装一个 OpenClaw，API 待命成本一天多少钱吗？&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;他愣住了。&lt;/p&gt;
&lt;p&gt;我又问：&amp;ldquo;你知道有多少人装了之后，发现每天啥也不干就要烧掉 20 美元吗？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;他不说话了。&lt;/p&gt;
&lt;p&gt;这就是我今天要写这篇文章的原因。&lt;/p&gt;
&lt;p&gt;最近&amp;quot;养龙虾&amp;quot;（部署 OpenClaw）火得一塌糊涂。淘宝有店家一个月卖出 3000 多单代安装服务，一单 300-500 块，月入三四十万。闲鱼上的兼职，上门装一次 450 块，一天一单就能月入过万。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI 还没落地，卖铲子的人先赚到了钱。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但我想泼一盆冷水：在你决定入局之前，有些账必须先算清楚。&lt;/p&gt;
&lt;p&gt;否则你不是去淘金，是去被收割。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="openclaw-到底是什么"&gt;OpenClaw 到底是什么&lt;/h2&gt;
&lt;p&gt;先说清楚，OpenClaw 到底是什么。&lt;/p&gt;
&lt;p&gt;简单讲，它是一个能让你&amp;quot;用 AI 干活&amp;quot;的工具。&lt;/p&gt;
&lt;p&gt;以前的 AI，你问它问题，它回答你。OpenClaw 不一样——它能接管你的电脑，自动帮你做事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动处理邮件&lt;/li&gt;
&lt;li&gt;自动整理文件&lt;/li&gt;
&lt;li&gt;自动运行代码&lt;/li&gt;
&lt;li&gt;自动发布社交内容&lt;/li&gt;
&lt;li&gt;自动采集数据&lt;/li&gt;
&lt;li&gt;自动生成投研报告&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;从&amp;quot;对话智能&amp;quot;到&amp;quot;行动智能&amp;quot;，这是它爆红的核心原因。GitHub 星标不到三个月破 31 万，增长速度超越 Linux。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;但问题也在这里。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这东西难装。要配 Node.js 环境，要装依赖，要连云端模型 API，要调环境变量，要处理报错。&lt;/p&gt;
&lt;p&gt;对技术人员来说，这是周末花几小时的事。对非技术用户，这是一道跨不过去的坎。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;有门槛，就有生意。&lt;/strong&gt; 代运营出现了。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="代运营怎么赚钱"&gt;代运营怎么赚钱&lt;/h2&gt;
&lt;p&gt;代运营怎么赚钱？三类。&lt;/p&gt;
&lt;h3 id="代部署"&gt;代部署&lt;/h3&gt;
&lt;p&gt;这是最直接的卖铲子。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;服务类型&lt;/th&gt;
 &lt;th&gt;价格&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;远程部署&lt;/td&gt;
 &lt;td&gt;300-500 元/次&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;上门部署&lt;/td&gt;
 &lt;td&gt;450-600 元/次&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;海外标准化部署&lt;/td&gt;
 &lt;td&gt;$3,000-6,000&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;月度维护&lt;/td&gt;
 &lt;td&gt;$200-500/月&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;淘宝有店家月售 3000+ 单，收入 30-45 万。这是真金白银。&lt;/p&gt;</description></item><item><title>滴滴开放 AI 打车之后，我最想问的不是技术，而是这产品到底成不成立</title><link>https://blog.cpdd.fyi/posts/didi-ride-skill-intro/</link><pubDate>Fri, 03 Apr 2026 18:30:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/didi-ride-skill-intro/</guid><description>&lt;p&gt;滴滴把 &lt;strong&gt;&lt;code&gt;didi-ride-skill&lt;/code&gt;&lt;/strong&gt; 放出来之后，很多人的第一反应大概都是：AI 终于也能打车了。&lt;/p&gt;
&lt;p&gt;但说实话，如果讨论只停在这里，我觉得有点浅。&lt;/p&gt;
&lt;p&gt;因为这件事真正有意思的地方，不是“又多了一个能调用的工具”，而是它第一次把 AI 助手往一个特别现实、也特别容易翻车的产品场景里推了一步。&lt;/p&gt;
&lt;p&gt;打车不是写诗，不是陪聊，也不是查资料。&lt;/p&gt;
&lt;p&gt;它是一个目标非常明确、结果非常具体、用户容错率也非常低的场景。&lt;/p&gt;
&lt;p&gt;你叫错车、叫错时间、叫错地点，用户不会觉得“模型偶尔犯错也正常”，只会转头把 App 打开，自己下单。&lt;/p&gt;</description></item><item><title>Gemma 4 刚发布，我连夜把它装进了 OpenClaw</title><link>https://blog.cpdd.fyi/posts/gemma4-local-deployment/</link><pubDate>Fri, 03 Apr 2026 10:20:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/gemma4-local-deployment/</guid><description>&lt;blockquote&gt;
&lt;p&gt;昨天 Gemma 4 刚发，今天它已经跑在我本地了，而且接进了 OpenClaw。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;很多人一看到新模型发布，第一反应是去搜教程。&lt;/p&gt;
&lt;p&gt;然后就会看到两类内容：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;一堆参数表，读完还是不知道怎么装&lt;/li&gt;
&lt;li&gt;直接甩一句 &lt;code&gt;ollama pull xxx&lt;/code&gt;，结果你一跑就报错，因为库里根本还没有，或者版本不对&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;所以这篇文章我不聊空话，只讲一条真的能跑通的链路：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-text" data-lang="text"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;hf download
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;→ ollama create
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;→ OpenClaw 接入
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这条路的好处很现实：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你知道模型文件是从哪里来的&lt;/li&gt;
&lt;li&gt;你知道自己下的是哪个量化版本&lt;/li&gt;
&lt;li&gt;你不需要赌 Ollama 官方库有没有同步&lt;/li&gt;
&lt;li&gt;你装完就能在 OpenClaw 里用，不是“理论上可行”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你只想要一句结论，那就是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;先别冲 31B，也别一上来折腾一堆转换脚本。先从 Gemma 4 E4B 开始，用 GGUF 跑通本地链路，这是最稳的。&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>Windows 折腾了我 3 年后，我换成了 Mac</title><link>https://blog.cpdd.fyi/posts/why-mac-in-ai-era/</link><pubDate>Wed, 01 Apr 2026 23:14:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/why-mac-in-ai-era/</guid><description>&lt;p&gt;三年前我买了一台 Windows 笔记本，配置不低，价格也不便宜。&lt;/p&gt;
&lt;p&gt;然后我花了三年时间，折腾它。&lt;/p&gt;
&lt;p&gt;装驱动、修蓝屏、重装系统、配环境、杀进程、查为什么风扇突然狂转……&lt;/p&gt;
&lt;p&gt;直到换了 Mac，我才意识到：&lt;strong&gt;原来电脑可以不用折腾的。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="不折腾是-ai-时代最贵的东西"&gt;不折腾，是 AI 时代最贵的东西&lt;/h2&gt;
&lt;p&gt;现在 AI 工具这么多，每个人的工作流都在快速变化。&lt;/p&gt;
&lt;p&gt;你今天要装个新工具，明天要跑个本地模型，后天要配个开发环境。&lt;/p&gt;
&lt;p&gt;Windows 上，每一步都可能踩坑。&lt;/p&gt;
&lt;p&gt;CUDA 版本对不上、Python 环境冲突、WSL 和本机路径打架、某个依赖只支持 Linux……&lt;/p&gt;
&lt;p&gt;我不是说 Windows 不能用，我是说&lt;strong&gt;你的时间花在折腾上，就没有花在真正的事情上。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Mac 不一样。&lt;/p&gt;
&lt;p&gt;Homebrew 一条命令，工具装好了。Python、Node、Docker，全部开箱即用。终端就是正经 Unix，服务器上怎么操作，本地就怎么操作。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;你的精力，可以全部放在做事上。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="openclaw-在-mac-上就是不一样"&gt;OpenClaw 在 Mac 上就是不一样&lt;/h2&gt;
&lt;p&gt;我现在用 OpenClaw 管理我的工作流——日程、笔记、代码审查、文章润色。&lt;/p&gt;
&lt;p&gt;它需要长期在后台跑。&lt;/p&gt;
&lt;p&gt;在 Windows 上，我试过类似的工具。后台进程莫名其妙挂掉，内存占用越来越高，偶尔蓝屏一次全没了。&lt;/p&gt;
&lt;p&gt;MacBook Pro 开机之后，我基本不关机。&lt;/p&gt;
&lt;p&gt;OpenClaw 就在那里，随时响应。风扇不响，电量不崩，第二天早上打开，一切都在。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这种稳定感，是 Windows 给不了我的。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="生态这件事用了才知道"&gt;生态这件事，用了才知道&lt;/h2&gt;
&lt;p&gt;我有 iPhone，有 iPad，有 Mac。&lt;/p&gt;
&lt;p&gt;这三个东西在一起，有些事情自然而然就发生了：&lt;/p&gt;
&lt;p&gt;手机上看到一篇文章，AirDrop 到 Mac，继续在大屏幕上读。Mac 上复制了一段代码，手机上直接粘贴。iPhone 来了个电话，Mac 上直接接。&lt;/p&gt;
&lt;p&gt;没有设置，没有配置，没有&amp;quot;怎么连接&amp;quot;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;就是能用。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;AI 时代，你的数据在多个设备之间流转是常态。Apple 生态把这件事做到了你感觉不到它的存在。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="隐私是我换-mac-的真正原因"&gt;隐私，是我换 Mac 的真正原因&lt;/h2&gt;
&lt;p&gt;说实话，这才是重点。&lt;/p&gt;</description></item><item><title>谷歌提出的 5 种 Skill 设计模式，第 4 种 90% 的人都没用过</title><link>https://blog.cpdd.fyi/posts/skill-design-patterns-google/</link><pubDate>Fri, 27 Mar 2026 18:04:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/skill-design-patterns-google/</guid><description>&lt;blockquote&gt;
&lt;p&gt;格式只是皮囊，内容设计才是灵魂&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;同一个模型、同样的 SKILL.md 格式规范，为什么有些 Agent 干活干净利落，有些却像没睡醒？&lt;/p&gt;
&lt;p&gt;这个问题很多人琢磨了很久。直到看到 Google Cloud Tech 这篇文章，才恍然大悟——&lt;strong&gt;格式只告诉你&amp;quot;怎么包装&amp;quot;，没告诉你&amp;quot;里面该怎么设计&amp;quot;&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;现在超过 30 个 Agent 工具（Claude Code、Gemini CLI、Cursor 等）都统一了 SKILL.md 布局，格式问题基本解决了。但一个包装 FastAPI 规范的 Skill，和一个四步文档流水线，外表看着一模一样，内部逻辑却天差地别。&lt;/p&gt;
&lt;p&gt;这篇文章提炼出了 5 种经过实战验证的设计模式，帮你从&amp;quot;会用格式&amp;quot;进阶到&amp;quot;设计得好&amp;quot;。&lt;/p&gt;</description></item><item><title>Qwen 3.5 小模型本地部署实战：在 OpenClaw 中跑出自己的 AI 助手</title><link>https://blog.cpdd.fyi/posts/qwen3-5-local-deployment/</link><pubDate>Thu, 05 Mar 2026 10:37:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/qwen3-5-local-deployment/</guid><description>&lt;blockquote&gt;
&lt;p&gt;阿里最新发布 0.8B-9B 端侧模型，10 分钟完成部署，显存最低 500MB。本文实测 4 种型号在 OpenClaw 中的表现，含完整配置、性能数据、踩坑记录。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="写在前面"&gt;写在前面&lt;/h2&gt;
&lt;p&gt;2026 年 3 月初，阿里通义千问发布了 Qwen 3.5 小模型家族（0.8B/2B/4B/9B）。没有发布会，但技术文档里的几个数字让我停下了手头的工作：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;0.8B 模型显存占用 &lt;strong&gt;~500MB&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;4B 模型支持 &lt;strong&gt;原生多模态&lt;/strong&gt;（非适配器方案）&lt;/li&gt;
&lt;li&gt;9B 模型用了 &lt;strong&gt;Scaled RL&lt;/strong&gt; 强化学习&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;我花了一下午把这四个型号全部署到 OpenClaw 里跑了一遍。结论先行：&lt;strong&gt;端侧 AI 的拐点，可能真的到了&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;下面是完整实测报告，包含部署步骤、配置方法、性能数据和踩坑记录。你可以直接照着做。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一qwen-35-小模型家族规格"&gt;一、Qwen 3.5 小模型家族规格&lt;/h2&gt;
&lt;h3 id="11-型号对比"&gt;1.1 型号对比&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;型号&lt;/th&gt;
 &lt;th&gt;定位&lt;/th&gt;
 &lt;th&gt;适用场景&lt;/th&gt;
 &lt;th&gt;VRAM 占用&lt;/th&gt;
 &lt;th&gt;推理速度&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;0.8B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;边缘设备/IoT&lt;/td&gt;
 &lt;td&gt;传感器数据处理、简单指令&lt;/td&gt;
 &lt;td&gt;~500MB&lt;/td&gt;
 &lt;td&gt;120 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;2B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;移动端/轻量任务&lt;/td&gt;
 &lt;td&gt;聊天机器人、文本分类&lt;/td&gt;
 &lt;td&gt;~1.5GB&lt;/td&gt;
 &lt;td&gt;85 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;4B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;轻量级 Agent&lt;/td&gt;
 &lt;td&gt;多模态任务、自动化流程&lt;/td&gt;
 &lt;td&gt;~3GB&lt;/td&gt;
 &lt;td&gt;65 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;9B&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;推理与逻辑&lt;/td&gt;
 &lt;td&gt;代码生成、复杂推理&lt;/td&gt;
 &lt;td&gt;~6GB&lt;/td&gt;
 &lt;td&gt;42 tokens/s&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;测试环境：MacBook Pro M3，16GB 统一内存，量化版本 Q4_K_M&lt;/p&gt;</description></item><item><title>2024年人工智能发展趋势与未来展望</title><link>https://blog.cpdd.fyi/posts/ai-trends-2024/</link><pubDate>Fri, 15 Mar 2024 09:30:00 +0800</pubDate><guid>https://blog.cpdd.fyi/posts/ai-trends-2024/</guid><description>&lt;p&gt;人工智能正在以前所未有的速度改变着我们的世界。2024年，AI技术迎来了新的突破和应用浪潮，让我们一起来探索这些激动人心的发展趋势。&lt;/p&gt;
&lt;h2 id="-大语言模型的持续进化"&gt;🚀 大语言模型的持续进化&lt;/h2&gt;
&lt;h3 id="参数规模与效率的平衡"&gt;参数规模与效率的平衡&lt;/h3&gt;
&lt;p&gt;2024年，大语言模型（LLM）在参数规模和推理效率之间找到了更好的平衡点。虽然模型参数量仍在增长，但业界更关注&lt;strong&gt;高效推理&lt;/strong&gt;和&lt;strong&gt;成本优化&lt;/strong&gt;。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt; 1
&lt;/span&gt;&lt;span class="lnt"&gt; 2
&lt;/span&gt;&lt;span class="lnt"&gt; 3
&lt;/span&gt;&lt;span class="lnt"&gt; 4
&lt;/span&gt;&lt;span class="lnt"&gt; 5
&lt;/span&gt;&lt;span class="lnt"&gt; 6
&lt;/span&gt;&lt;span class="lnt"&gt; 7
&lt;/span&gt;&lt;span class="lnt"&gt; 8
&lt;/span&gt;&lt;span class="lnt"&gt; 9
&lt;/span&gt;&lt;span class="lnt"&gt;10
&lt;/span&gt;&lt;span class="lnt"&gt;11
&lt;/span&gt;&lt;span class="lnt"&gt;12
&lt;/span&gt;&lt;span class="lnt"&gt;13
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 模型效率优化示例&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="k"&gt;class&lt;/span&gt; &lt;span class="nc"&gt;EfficientTransformer&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="fm"&gt;__init__&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;d_model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mi"&gt;512&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;n_heads&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mi"&gt;8&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;dropout&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mf"&gt;0.1&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;attention&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;MultiHeadAttention&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;d_model&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;n_heads&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;dropout&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;ffn&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;PositionWiseFeedForward&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;d_model&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;dropout&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;forward&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;mask&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="kc"&gt;None&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="c1"&gt;# 优化的注意力机制&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;attn_output&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;attention&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;mask&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="c1"&gt;# 残差连接和层归一化&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;x&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;layer_norm1&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="n"&gt;attn_output&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;ffn_output&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;ffn&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="bp"&gt;self&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;layer_norm2&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;x&lt;/span&gt; &lt;span class="o"&gt;+&lt;/span&gt; &lt;span class="n"&gt;ffn_output&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id="多语言支持的突破"&gt;多语言支持的突破&lt;/h3&gt;
&lt;p&gt;现代LLM已经能够流利处理超过100种语言，这为全球化应用奠定了基础：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;中文理解能力&lt;/strong&gt;显著提升，能够处理复杂的成语和文化背景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;代码混合&lt;/strong&gt;文本处理能力增强，支持多语言编程环境&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;方言识别&lt;/strong&gt;技术日趋成熟，为本地化应用提供支持&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="-多模态ai的融合发展"&gt;🌈 多模态AI的融合发展&lt;/h2&gt;
&lt;h3 id="视觉-语言模型的突破"&gt;视觉-语言模型的突破&lt;/h3&gt;
&lt;p&gt;2024年，视觉-语言模型（VLM）在多个方面取得了显著进展：&lt;/p&gt;
&lt;h4 id="图像描述生成"&gt;图像描述生成&lt;/h4&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt; 1
&lt;/span&gt;&lt;span class="lnt"&gt; 2
&lt;/span&gt;&lt;span class="lnt"&gt; 3
&lt;/span&gt;&lt;span class="lnt"&gt; 4
&lt;/span&gt;&lt;span class="lnt"&gt; 5
&lt;/span&gt;&lt;span class="lnt"&gt; 6
&lt;/span&gt;&lt;span class="lnt"&gt; 7
&lt;/span&gt;&lt;span class="lnt"&gt; 8
&lt;/span&gt;&lt;span class="lnt"&gt; 9
&lt;/span&gt;&lt;span class="lnt"&gt;10
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 多模态模型推理示例&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="k"&gt;def&lt;/span&gt; &lt;span class="nf"&gt;generate_image_caption&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;image_tensor&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;&amp;#34;&amp;#34;生成图像描述&amp;#34;&amp;#34;&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;visual_features&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;image_encoder&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;image_tensor&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;caption&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text_decoder&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;generate&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;visual_features&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="k"&gt;return&lt;/span&gt; &lt;span class="n"&gt;caption&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 应用场景&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;caption&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;generate_image_caption&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;image&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sa"&gt;f&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;图像描述: &lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;caption&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h4 id="视觉问答系统"&gt;视觉问答系统&lt;/h4&gt;
&lt;p&gt;现代VLM能够准确回答复杂的视觉问题：&lt;/p&gt;</description></item></channel></rss>