2026 开年王炸:从 Clawdbot 到 Moltbot,真正的个人 AI 时代来了?(技术细节)
Clawdbot 架构全解:一个“永远在线”的 Agent 系统是如何工作的
如果你想部署或体验 Clawdbot,可以先参考我的博客:
👉 GitHub 两周 100k Star:聊聊最近火出圈的 Moltbot (原 Clawdbot)
这篇文章不讲安装命令,而是从系统设计和工程实现的角度,完整拆解 Clawdbot 是如何构建一个「多 Agent、跨设备、具备长期记忆和主动行为能力」的 AI 系统的。
一、整体架构:Clawdbot 的五大核心组件
Clawdbot 采用了一个非常清晰的分层架构:
- Gateway(中控调度)
- Agent(智能体)
- Skills(技能 / 工具箱)
- Channels(消息通道)
- Nodes(终端 / 传感器)
这种设计的核心目标只有三个词:可扩展、可组合、可控。
1. Gateway:真正的“中控大脑”
在 OpenClaw(早期也叫 Moltbot)的设计中,Gateway 并不是一个简单的 API Server,而是整个系统的控制平面。
它主要负责三件事:
会话管理
创建和维护 Session ID,管理上下文、生命周期和消息归属。请求路由
OpenClaw 是一个多 Agent、多 Channel 的系统。
Gateway 决定:- 消息从哪个 Channel 进来
- 应该交给哪个 Agent
- 是否需要多个 Agent 协作
安全与权限控制
包括:- 本地 / 远程请求隔离
- API 权限管理
- 通道白名单
- 远程连接的安全边界
你可以把 Gateway 理解成一个 “带状态、懂业务的智能路由器”。
2. Agent:真正干活的人
Agent 是执行任务的主体,每个 Agent 都是一个完整的 思考–行动循环(Agent Loop)。
典型流程只有四步:
- 上下文组装
- 模型推理
- 工具(Skill)调用
- 结果分发
Clawdbot 支持 多 Agent 并行:
- 可以彼此完全隔离
- 也可以通过 Gateway 协作
每个 Agent 都有自己的工作区、配置和记忆文件,互不污染。
Pi Agent:一个极其克制的“编程智能体”
Clawdbot 里最有意思的是 Pi Agent。
它不是靠“全能 Prompt”,而是通过极小、极严谨的工具集合,用一套非常精妙的指令设计,被塑造成一个非常可靠的编程与系统操作智能体。
核心工具只有 4 个:
bash:执行 shell 命令read:读取文件write:写文件edit:编辑文件
工具越少,行为越可预测。
这是 Clawdbot 在工程层面非常成熟的一点。
3. Skills:能力的渐进式封装
Skills 是 Agent 能“做什么”的说明书。
在 OpenClaw 中,Skills 遵循 AgentSkills 规范(Anthropic 提出的开放标准),目前已经被:
- Claude Code
- Cursor
- VS Code
- OpenAI Codex
- Gemini CLI
- GitHub Copilot
等大量工具采用。
Skill 本质上是:
- 用 Markdown + 脚本描述能力
- 按需加载
- 渐进式暴露模型能力
这样做的直接收益是:
- 更低的 Token 消耗
- 更稳定的推理路径
更详细的分析我在另一篇博客里写过:
👉 Agent Skills:大模型能力的渐进式封装与按需加载
4. Channels:多平台消息集成
Channels 的职责很单一:
把各种消息平台接到 Gateway 上,并做协议/格式翻译。
目前支持的典型渠道包括:
| 平台 | 协议 / 库 | 特点 |
|---|---|---|
| Baileys | QR 登录、媒体支持 | |
| Telegram | grammY | 流式、Webhook |
| Discord | discord.js | 原生命令 |
| Slack | Bolt | DM 策略、频道白名单 |
| Signal | signal-cli | 本地运行 |
| iMessage | imsg CLI | 仅 macOS |
由于微信没有公开 API,目前暂不支持。未来可能会支持飞书或钉钉。
WhatsApp 示例配置:
1 | |
5. Nodes:远程大脑,本地双手
Nodes 是 Clawdbot 最容易被低估、但极其强大的部分。
它允许你把:
- 旧手机
- 闲置电脑
- 树莓派
接入整个 Agent 网络,作为能力节点。
Node 能提供什么?
| 平台 | 能力 |
|---|---|
| iOS | 摄像头、语音唤醒、屏幕录制 |
| Android | 摄像头、短信、语音 |
| macOS | system.run、通知、摄像头 |
通信方式:
- Gateway WebSocket
- LAN / Tailscale / SSH 隧道
这实现了一个非常优雅的架构:
Gateway 在云端运行,操作在设备本地执行
二、Gateway 的通信协议:为什么它“像活的一样”
1. 为什么选 WebSocket?
Moltbot 的控制平面彻底放弃了 HTTP 轮询,转而使用 WebSocket。
原因很简单:
- 双向
- 低延迟
- 长连接
而且协议有一个硬性规则:
第一帧必须是
connect
如果客户端没在第一时间“对暗号”,服务器直接断开连接。
这是非常典型的防御式设计。
2. 请求 / 响应(RPC)
1 | |
这里的关键是 id。
WebSocket 是并行的,多个请求同时在路上,id 就是 TraceID / Correlation ID,用来保证前后对应。
3. 事件驱动(Pub/Sub)
1 | |
seq:保证事件有序stateVersion:增量同步,避免全量刷新 UI
这套设计本质上就是一套 轻量级流处理协议。
三、记忆系统:文件即真理
这是 Clawdbot 最“反主流”的设计之一。
1. 存储结构
所有记忆都在本地文件系统:
1 | |
你可以直接用 VS Code 打开、修改。
你改了什么,AI 就真的记住了什么。
2. 检索机制:BM25 + 向量混合
- 向量搜索(0.7):语义相似
- BM25(0.3):精确匹配
底层使用 SQLite-vec,无需部署独立向量数据库。
3. 静默刷新(Silent Agent Round)
当上下文快满时:
- AI 不回你
- 先总结
- 写入
memory/*.md
下次通过 RAG 再加载。
这解决了 “长对话一定会忘事” 的老问题。
四、Heartbeat:让 AI 具备时间感
Heartbeat 本质是一个 带推理能力的定时任务系统。
配置在 HEARTBEAT.md 里,而不是代码中。
它可以:
- 定时检查日志
- 主动发现异常
- 在合适的时间联系你(不会半夜骚扰)
这让 AI 从 “被动响应” 进化成 “主动值班”。
五、一个完整工作流示例
场景:用手机分析家里电脑的 Spark 报错
- Telegram 触发任务
- Pi Agent 制定计划
- bash / read / write 循环执行
- 结果写入长期记忆
- 主动反馈给你
你只发一句话,剩下的全是系统在跑。
总结
传统 AI 更像是 “拨号上网”:你点,它才醒。
Clawdbot 更像是 “永久在线”:
- 有心跳
- 有记忆
- 有时间感
- 有设备边界意识
它不是在“陪你聊天”,而是在帮你值班。