博客

  • Clawdbot 产品功能与实现原理 

    产品概述

    Clawdbot 是一个个人 AI 助手平台,将消息渠道(WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等)连接到在您自己设备上运行的 AI 代理。它作为一个本地优先的系统运行,其中 Gateway 控制平面管理渠道连接、代理执行和会话状态,而 Pi 代理运行时 处理与您工作区、浏览器和系统的工具访问的 AI 交互。

    核心功能

    多渠道消息集成

    ● WhatsApp (通过 Baileys WhatsApp Web 协议) 

    ● Telegram (Bot API / grammY) 

    ● Discord (Bot API / discord.js) 

    ● Slack (Bolt) 

    ● SignaliMessage 等更多渠道 

    智能代理系统

    ● Pi 代理运行时:基于 @mariozechner/pi-agent-core 的 RPC 模式集成 

    ● 多代理路由:将不同的渠道/账户/对等方路由到隔离的代理(工作区 + 每代理会话) 

    ● 会话管理:直接聊天折叠到共享的 main 会话;群组会话隔离 

    丰富的工具生态

    ● 浏览器控制:专用的 clawd Chrome/Chromium,支持 CDP 控制

    ● Canvas + A2UI:代理驱动的可视化工作空间 

    ● 节点功能:相机快照、屏幕录制、位置获取、通知 

    ● 语音唤醒 + 对话模式:macOS/iOS/Android 的始终在线语音功能 

    实现原理

    系统架构

    Clawdbot 围绕一个 Gateway 进程组织,该进程作为所有消息渠道、WebSocket 控制平面和代理编排的唯一真实来源。

    graph TB
        %% 外部消息平台子图 - 移除双引号嵌套,兼容所有解析器
        subgraph External 外部消息平台
            WA[WhatsApp]
            TG[Telegram]
            DC[Discord]
            SL[Slack]
        end
    
        %% Gateway进程 - 替换<br/>为空格,移除HTML标签
        subgraph Gateway Gateway进程 ws://127.0.0.1:18789
            GW[WebSocket + HTTP 服务器]
            MON[渠道监控器]
            AUTO[自动回复]
            SESS[会话管理]
        end
    
        %% 代理运行时子图
        subgraph Agent 代理运行时
            PI[Pi 嵌入式运行器]
            TOOLS[工具系统]
            SANDBOX[沙箱隔离]
        end
    
        %% 外部平台 -> 渠道监控器
        WA --> MON
        TG --> MON
        DC --> MON
        SL --> MON
        %% Gateway 内部流转
        MON --> GW
        GW --> AUTO
        AUTO --> SESS
        %% Gateway -> 代理运行时
        SESS --> PI
        %% 代理运行时内部依赖
        PI --> TOOLS
        PI --> SANDBOX

    1. Gateway 控制平面

    Gateway 是一个运行在端口 18789(可配置)上的 WebSocket 服务器,提供:

    ● WebSocket RPC 协议:用于 CLI、UI 和节点发出命令

    ● HTTP 端点:控制 UI、webhook、OpenAI 兼容 API、工具调用

    ● 渠道监控器:从外部平台轮询/流式传输事件并标准化消息

    ● Cron 服务:用于计划的代理运行

    ● 配置热重载:监视配置文件并采用混合重启策略

    2. 代理运行时

    Clawdbot 使用来自 @mariozechner/pi-agent-core 的 Pi 代理运行时,采用 RPC 模式。代理执行生命周期包括:

    1.  认证配置文件选择:轮换认证配置文件并跟踪失败配置文件的冷却时间

    2.  系统提示构建:组装 AGENTS.md、SOUL.md、TOOLS.md、技能快照和运行时上下文

    3.  工具注册:按策略过滤工具并创建 Pi 工具定义

    4.  会话运行:调用带历史记录的 session.prompt(),通过订阅流式传输块

    5.  响应传递:分块大响应、去重消息工具输出,并通过渠道发送

    3. 消息处理管道

    graph TB
    MSG["外部消息"] --> MON["渠道监控器"]
    MON --> CTX["标准化上下文"]
    CTX --> POL{"策略检查"}
    POL --> ROUTE{"代理路由"}
    ROUTE --> RUN["代理运行"]
    RUN --> SEND["渠道发送"]

    ● 策略执行:如果发送者不在允许列表中或提及要求失败,则早期拒绝消息

    ● 命令与自动回复:斜杠命令短路到本机处理程序;正常消息路由到代理

    ● 工具策略过滤:移除在任何级别被拒绝的工具

    ● 响应去重:跟踪工具输出以避免重复代理已通过 message_send 发送的内容

    安全模型

    Clawdbot 实施深度防御,具有多层安全:

    层级默认姿态配置
    DM 访问需要配对dmPolicy: “pairing”
    群组访问需要提及requireMention: true
    工具访问主会话主机执行,群组沙箱sandbox.mode: “non-main”
    Gateway 认证需要令牌(即使是环回)gateway.auth.token
    执行安全基于允许列表tools.exec.security: “allowlist”

    工具策略层次结构(7 个级别,拒绝总是获胜):

    全局 → 提供商 → 代理 → 群组 → 沙箱 → 子代理 → 配置文件

    部署模式

    本地 Gateway(默认)

    大多数用户在主计算机上运行 Gateway,使用 systemd/launchd 守护进程:

    clawdbot onboard --install-daemon
    clawdbot gateway status

    远程 Gateway

    对于 VPS 部署,在服务器上运行 Gateway 并通过 SSH 隧道或 Tailscale 连接本地客户端。

    Notes

    Clawdbot 是一个开源项目,采用 MIT 许可证。核心架构围绕单一 Gateway 进程设计,确保会话状态的一致性和渠道连接的稳定性。系统支持插件扩展,允许第三方渠道、工具和提供商而无需修改核心代码。详细的配置选项和部署场景请参考官方文档。

  • 收藏了100个AI工具你为什么没有赚到钱

    打开浏览器书签,你或许会发现一个“AI工具”文件夹,里面躺着几十甚至上百个从未点开过的链接。这种现象被称为“工具焦虑”——我们疯狂追逐最新的AI应用,生怕错过任何一个潜在的“风口”,结果却在不断的“收藏-遗忘”循环中,耗尽了本应用于主业或副业的精力。

    一、 戳破“收藏癖”的假象

    很多人可能陷入了“工具收集”的陷阱。在社交媒体上,每当看到“2024年必用的10个AI神器”或“效率提升10倍的工具推荐”,手指就会下意识地点击“收藏”。但现实是,90%的工具在被收藏后,生命周期就结束了。

    这种行为的本质,是 用战术上的勤奋掩盖战略上的懒惰 。注册账号、点击收藏只需要3秒钟,大脑会把这种低门槛的动作误认为是“掌握了新技能”或“正在为未来做准备”。这种虚假的成就感,让我们在面对真正需要动手解决的问题时,产生了一种“我已经拥有武器”的错觉,从而推迟了实际的行动。

    二、 心理陷阱:为什么我们停不下来?

    我们沉迷于收集工具,是因为这满足了人类对“掌控感”和“安全感”的基本需求。在快速变化的AI时代,新工具层出不穷,不收藏似乎就意味着落后。这种焦虑驱使我们不断囤积,试图通过拥有工具来对冲不确定性。

    然而, 工具的数量与赚钱的能力之间,并不存在正相关关系 。赚钱的核心在于“交付价值”——无论是提供服务、产品还是解决方案。工具只是实现这一目标的手段,而非目的。

    三、 解决方案:“用完即走,以终为始”

    要打破这种怪圈,必须建立一种极简的工具使用原则: 用完即走,以终为始 。

    1. 以终为始(Start with the End): 在寻找工具之前,先定义你要解决的问题:是写文案、做视频,还是处理数据?明确目标后,再去寻找能直接解决这个问题的工具。不要为了尝试工具而创造需求。
    2. 用完即走(Use and Discard): 工具的终极使命是解决问题。一旦问题解决,工具就应该被“丢弃”(即关闭网页,无需反复查看更新)。除非当前工具无法满足需求,否则不要轻易替换。 不要试图成为工具专家,而要成为 问题解决专家 。

    总结

    收藏100个工具,不如精通1个工具解决10个问题。真正的AI红利,不属于那些拥有最全工具箱的人,而属于那些能利用最简单工具,快速交付结果的人。停止在“寻找工具”上浪费时间,把注意力拉回到“解决问题”上,你离赚钱的距离才会更近。

  • 普通人如何轻资产创业

    轻资产创业的核心逻辑并非“空手套白狼”,而是通过 极低的试错成本 ,快速验证商业假设。对于普通人而言,这意味着将“想法”转化为“现金流”的路径必须极度精简。以下是一套从市场观察到行动起步的实操策略。

    一、 需求验证:寻找“未被满足的痛点”

    不要先做产品,先找需求。很多失败源于“自嗨式”产品开发。

    • 工具: 利用百度指数、淘宝/拼多多的搜索下拉框和销量排序,观察哪些关键词在上升,哪些产品虽然销量高但差评集中。
    • 技巧: 关注“高频刚需”而非“低频高客单价”。例如,“手工护肤品”可能是伪需求(大牌更可信),而“针对敏感肌的平价修复面膜”可能是真需求。通过评论区挖掘用户真实抱怨(如“太黏腻”、“香味刺鼻”),这就是你的切入点。

    二、 最小可行性产品(MVP):先预售,再生产

    轻资产的精髓在于 “零库存” 或 “轻库存” 。不要一上来就租厂房、招员工。

    • 实操: 如果你想卖一款定制T恤,先在朋友圈或社群发布设计图进行“预售”。如果能卖出50件再去下单制作。
    • 逻辑: 用最小的成本(一张图、一段文案)测试用户是否愿意付费。如果预售失败,损失的只是时间;如果成功,再投入资源放大。对于知识付费,则是先做免费直播测试反馈,再打磨课程。

    三、 流量闭环:内容即渠道

    没有资金投广告,就用 内容营销 换取免费流量。

    • 策略: 选择一个垂直平台(小红书/抖音/知乎),输出与产品相关的“解决问题型”内容。
      • 卖宠物用品:做“新手养猫避坑指南”。
      • 做PPT模板:分享“职场汇报PPT技巧”。
    • 转化: 将公域流量导入私域(微信/企业微信)。私域是轻资产创业的护城河,它能降低后续的获客成本,通过朋友圈的信任构建实现复购和裂变(如老带新优惠)。

    四、 迭代优化:数据驱动决策

    创业不是一蹴而就的,是一个不断调整的过程。

    • 关注指标: 重点看 复购率 和 退货率 。如果退货率高,说明产品力不行,必须换品;如果复购率低,说明需求不持久,需要寻找互补产品。
    • 复制放大: 一旦某个内容模板或产品组合跑通了盈利模型,立即将其标准化、模板化,进行批量化复制(如内容脚本化、客服话术标准化)。

    普通人轻资产创业的核心,在于 “低风险试错” 和 “数据驱动” 。不要试图一步到位打造完美的商业帝国,而是先找到那个“微小的闭环”——有人买、有利润、能复制。从这个闭环出发,逐步滚动,才是最稳健的起步方式。

  • Shubhamsaboo/awesome-llm-apps 开源项目全解析

    一、项目概述

    Shubhamsaboo/awesome-llm-apps是由Shubham Saboo创建的GitHub开源仓库,是一个精选的LLM应用集合,专注于展示基于大型语言模型(LLM)构建的各类实用应用,特别是结合了AI Agents、RAG(检索增强生成)、Multi-agent Teams和MCP(模型-计算机交互协议)等前沿技术的项目。该项目在GitHub上已获得15k+星标,拥有50+个分步教程,提供完整的开源代码,100%免费使用。

    二、核心特点

    特点描述
    多模型支持兼容OpenAI、Anthropic、Gemini等商用模型,以及Llama、Qwen、DeepSeek等可本地部署的开源模型
    全技术栈覆盖整合AI Agents、Agent Teams、MCP协议与RAG等主流LLM技术,提供一站式学习资源
    实战导向每个项目都包含详细文档、分步教程和完整代码,可直接部署运行
    跨领域应用覆盖从代码管理到邮件处理、从医疗影像分析到投资顾问等50+个实际场景
    持续更新活跃维护,定期添加新的应用案例和技术教程,最近更新于2026年1月7日
    开源许可采用Apache-2.0许可证,允许开发者自由使用、修改和分发代码

    三、应用分类详解

    1. AI Agents(智能代理)

    ● 入门级代理:AI博客转播客、AI数据分析、AI旅行规划、Gemini多模态代理等

    ● 高级代理:AI深度研究、AI风投尽职调查、AI电影制作、AI自我进化代理等

    ● 游戏代理:AI 3D Pygame、AI国际象棋、AI井字棋等游戏AI实现

    ● 语音代理:AI音频导览、客户支持语音代理、开源语音听写代理等

    ● MCP代理:浏览器MCP、GitHub MCP、Notion MCP等模型-计算机交互应用

    2. Multi-agent Teams(多代理团队)

    ● AI竞争对手情报团队、AI金融团队、AI法律服务团队、AI招聘团队等

    ● 展示如何构建协作式AI系统,模拟真实工作场景中的团队协作

    ● 包括CrewAI实现的AI服务机构、多模态编码团队等复杂应用

    3. RAG(检索增强生成)

    ● Agentic RAG(带推理能力的检索增强生成)、自主RAG、混合搜索RAG等高级实现

    ● 本地RAG方案(Llama 3.1、Deepseek等),支持无API调用的隐私保护应用

    ● 视觉RAG、带数据库路由的RAG等多模态和结构化数据应用

    4. 特色应用系列

    (1)记忆增强型LLM应用

    ● AI旅行代理(带记忆功能)、Llama3状态对话、本地ChatGPT克隆(带记忆)等

    ● 展示如何为LLM添加长期记忆和个性化能力,提升用户体验

    (2)”Chat with X”系列

    ● Chat with GitHub(GPT & Llama3)、Chat with Gmail、Chat with PDF、Chat with YouTube视频等

    ● 提供与各类数据源交互的标准实现,解决信息检索和内容理解问题

    (3)LLM优化与微调

    ● Toonify Token Optimization:通过TOON格式减少LLM API成本30-60%

    ● Gemma 3、Llama 3.2等主流开源模型的微调教程

    四、技术实现与使用方法

    技术栈

    ● 核心框架:LangChain、CrewAI、LlamaIndex等主流LLM开发框架

    ● 前端:Streamlit、Gradio等快速原型开发工具,支持Web界面展示

    ● 数据库:Chroma、FAISS等向量数据库,用于RAG实现中的文档检索

    ● API集成:OpenAI API、Anthropic API、Gemini API及各类第三方服务接口

    快速上手步骤

    1.  克隆仓库

    git clone https://github.com/Shubhamsaboo/awesome-llm-apps.git

    2.  进入项目目录

    cd awesome-llm-apps/starter_ai_agents/ai_travel_agent

    3.  安装依赖

    pip install -r requirements.txt

    4.  配置API密钥(根据项目需求)

    export OPENAI_API_KEY="your_api_key"

    5.  运行应用

    streamlit run app.py

    五、适用人群与价值

    人群价值
    开发者学习LLM应用开发最佳实践,获取可复用代码模块,加速项目开发
    创业者发现LLM商业应用场景,快速原型验证创意,降低技术门槛
    研究人员探索LLM技术边界,对比不同模型和框架的性能,构建实验平台
    学生通过实战项目学习AI技术,掌握热门LLM开发技能,提升就业竞争力
    企业IT团队评估LLM在企业中的应用潜力,寻找适合自身业务的解决方案

    六、社区与贡献

    该项目拥有活跃的开源社区,欢迎各类贡献:

    ● 提交新的LLM应用案例和教程

    ● 改进现有项目的代码质量和文档

    ● 提供bug修复和性能优化

    ● 分享使用经验和最佳实践

    七、总结

    Shubhamsaboo/awesome-llm-apps不仅仅是一个应用集合,更是一个完整的LLM开发学习生态系统。它为开发者提供了从入门到精通的一站式资源,帮助快速掌握AI Agents、RAG等前沿技术的实战应用。无论你是想学习LLM开发、寻找项目灵感,还是需要快速构建LLM原型,这个开源项目都能提供巨大价值。

    项目地址:https://github.com/Shubhamsaboo/awesome-llm-apps

  • 不懂原理难用好AI,三分钟看懂AI的思考逻辑

    如果把生成式AI(AIGC)比作一盏神灯,很多人只学会了“擦灯许愿”,却不知道灯神是如何凭空变出答案的。

    这种“不知其所以然”的使用方式,不仅容易被AI的错误信息误导,更错过了借助AI提升认知的机会。其实,哪怕是最复杂的大模型,其核心逻辑也简单得像一个 “超级接龙游戏” 。

    一、 AI不会思考,它只是在“猜”下一个词

    你可能会惊叹于AI写出的万字论文或代码,但请记住: AI没有意识,它不知道自己在说什么。

    生成式AI的本质是一个 “概率预测机器” 。它的工作原理可以简化为:

    1. 接收你的问题(Prompt)作为“开头”。
    2. 在它训练过的2.5万亿词的庞大数据库中,计算下一个最可能出现的词。
    3. 把这个词接上去,然后以新的句子为开头,继续预测下一个词。

    就像你玩“成语接龙”,看到“一心一意”,大脑会自动联想“意气风发”或“意气相投”。AI做的事情类似,只不过它考虑的不是几个成语,而是万亿级别的文本规律。它通过复杂的数学模型(Transformer)计算每个词在当前语境下出现的概率,然后选择概率最高的那个词输出。

    二、 为什么AI会“一本正经地胡说八道”?

    这就引出了AI的一个著名缺陷—— “幻觉”(Hallucination) 。

    既然是猜概率,AI的首要目标是 “通顺” ,而不是 “真实” 。如果在它的数据库里,某个错误的事实(比如编造一个不存在的参考文献)比正确的事实更符合当前句子的语境逻辑,它就会毫不犹豫地选择错误的那个。

    这就像一只 训练有素的鹦鹉 ,它能完美模仿人类的语调说“早上好”,但它根本不知道“早上”是什么,也不知道“好”代表什么情绪。它只是记住了“在特定时间,发出这几个音节能得到食物”。

    三、 对语言学习的启示

    理解了这个原理,我们就能更好地利用AI,甚至反过来优化我们的学习方法:

    1. 模仿AI的“预测式”学习: 为什么AI能写出流畅的英文?因为它对语法和搭配的概率了如指掌。在学习外语时,我们也应该像AI一样,不仅背单词,更要背“搭配”(Collocations)。比如不要只记“make”,要记“make a decision”、“make money”。
    2. 警惕“流畅的陷阱”: 看到AI输出一大段看似专业的内容时,不要轻信。因为它的逻辑是“为了通顺而生成”,而不是“为了真相而生成”。必须像编辑一样,对AI的输出进行事实核查。

    总结一下: 生成式AI不是无所不知的神,它是一个拥有超级记忆力的概率计算器。它通过预测下一个词来构建世界,而我们,则需要通过理解它的预测逻辑,来构建对这个工具的正确认知。