今日语音播客
今日要点
- SKILL.md正在「吃掉」MCP服务器:知识问题与执行问题的范式分界
- 「养龙虾」幻觉破灭:没有业务流的技术部署只是自嗨
- CodePilot 移动端:远程多设备 Agent 编排进入口袋时代
- OpenClaw 赢家图谱:一场让所有人「感觉赢了」的集体幻觉
- 我们需要「不要脸的前沿评测」:Agent 能力的真实上限被严重低估
今日最大变化
- SKILL.md正在「吃掉」MCP服务器:知识问题与执行问题的范式分界
- 「养龙虾」幻觉破灭:没有业务流的技术部署只是自嗨
专题追踪更新
- 百度DuClaw入局:OpenClaw云服务化与「零门槛Agent」路线确认:[大厂Agent策略信号] 百度推出DuClaw(度爪)——OpenClaw的云服务版,实现零部署、无需服务器、无需API Key,浏览器即开即用,内置百度搜索/百科/学术,支持DeepSeek/Kimi/GLM多模型切换。 · 专题页 · 原文
- Claude Code的/btw机制:单循环Agent如何实现「插嘴模式」:[交互范式突破] /btw在不破坏ReAct单循环简洁性的前提下,通过「降级调用」(无工具、单次响应)实现轻量级侧信道交互——这是sub-agent的「逆运算」。 · 专题页 · 原文
- Claude Code 的正确打开方式:不是聊天工具,是 AI 开发操作系统:大多数开发者只用到了 Claude Code 的 10%。 · 专题页 · 原文
- Agent直连交易所:执行层抽象化,控制权与审计成为新护城河:Agent 与金融基础设施的硬接口正在打通。 · 专题页 · 原文
- Crypto Agent的幻觉危机:$HEU用一份SKILL.md实现70%工具调用削减:[金融Agent可靠性突破] 当前Crypto Agent存在致命缺陷:编造token地址、混淆跨链ticker、抓取过时指标。$HEU通过单一SKILL.md文件实现~70%工具调用削减、30-50%token成本降低,并支持x402微支付。 · 专题页 · 原文
详细内容
SKILL.md正在「吃掉」MCP服务器:知识问题与执行问题的范式分界
Janakiram MSV (@janakiramm)
[范式转换信号] SKILL.md正在取代大量MCP服务器,核心洞察在于:MCP本应为「执行问题」设计,却被滥用于「知识问题」。Brad Feld用12个skill文件运营整家公司——无应用、无工作流引擎,仅靠git仓库中的markdown。
信息增量: • Sentry David Cramer直言:许多MCP服务器本不该存在 • 知识问题用200-token的markdown即可解决,无需5万token的MCP教学成本 • 区分「执行工具」与「知识封装」是Agent工程的关键认知
gakki锐评: 这不是技术选型之争,而是工程认知的成熟度测试——知道什么不该建,比知道什么该建更重要。
「养龙虾」幻觉破灭:没有业务流的技术部署只是自嗨
余温 (@gkxspace)
[一句话核心判断] OpenClaw/OPC 热潮的本质是一场由算力补贴和培训产业链驱动的虚假繁荣,真正的价值创造在于业务闭环而非技术堆砌。
- 大厂卖 Token 和云服务成为最大受益者,API 调用量暴涨背后是大量无效调用
- 「一人公司」概念被过度美化,缺乏用户基础的技术基建只是成本中心
- 这波炒作客观上「解决」了就业焦虑,但可能制造更大的资源错配
gakki 锐评:余温戳破了皇帝的新衣——当所有人都在讨论「怎么养龙虾」,却没人问「龙虾能卖多少钱」时,这就是典型的工具理性压倒价值理性。技术是中性的,但技术炒作是有代价的。
CodePilot 移动端:远程多设备 Agent 编排进入口袋时代
歸藏(guizang.ai) (@op7418)
桌面 Agent 的移动端遥控器终于出现。
• 支持同时控制多个桌面端 Code Pilot / Claude Code / Codex 实例,实现跨设备并发 • 桥接稳定性优于 Web 方案,可远程查看进度、切换模型与工作目录 • 把手机变成 Agent 群的「指挥塔」,填补了移动端入口的关键空白
这意味着 Agent 不再被绑死在工位前,随时随地的「轻量干预」成为可能。
OpenClaw 赢家图谱:一场让所有人「感觉赢了」的集体幻觉
Roland的思考日记 (@rwayne)
[一句话核心判断] OpenClaw 的爆火创造了一种罕见的「多赢」局面——硬件商、云厂商、API 提供商、黑客甚至普通用户都在狂欢,唯独没有人追问代码质量。
- 苹果 Mac Mini 销量、OpenAI 收编作者、云厂商一键部署服务形成完整利益链条
- 「养龙虾」成为普通人参与 AI 时代的低成本心理安慰剂
- 代码债被集体忽视,暗示这场运动可能是技术泡沫的又一次自我强化
gakki 锐评:当黑客都说「从没打过这么富裕的仗」,你应该警惕——这不是技术民主化,而是攻击面的指数级扩张。
我们需要「不要脸的前沿评测」:Agent 能力的真实上限被严重低估
Dimitris Papailiopoulos (@DimitrisPapail)
评测机构的保守正在掩盖 Agent 的真实能力。
• METR 等机构的稳健中位数评测虽然合理,但无法反映 Claude Code/Codex 在多日干线任务中的实际表现 • 作者亲历:Agent 可持续执行端到端 ML 研究任务数天无需干预——这已发生,只是不够「鲁棒」 • 呼吁建立「cherry-picked frontier eval」:展示最佳 case 而非 average case,让行业看到可能性边界
当评测标准滞后于实际能力,我们看到的不是 Agent 的上限,而是评估框架的上限。
AI Startup 的基建优先论:获客增长是幻象,自动化迭代才是地基
Yangyi (@yangyi)
Claude Code 时代的工程纪律清单。
• 核心基建六件套:Claude.md 规范、渐进式文档、自动化 Sprint、90%+ 测试覆盖、GitHub Actions、CI/CD 联动飞书 • 这不是「更好」的工程实践,而是 Agent 可接管项目的前提条件——Agent 只能在有纪律的代码库上持续迭代 • 下一步才是 Reverb Marketing:产品成熟后的增长飞轮
一个反直觉的洞察:在 Agent 时代,人类的职责从写代码转向「建立 Agent 能理解的秩序」。
「产品思考者」崛起:工程不再是瓶颈,判断力成为稀缺资源
宝玉 (@dotey)
技术平民化后,产品叙事成为新的承重结构。
• 新角色定义:不是 PM,而是能从终局倒推、在文化直觉与技术可行性之间穿行的「双语者」 • 关键转变:做东西不难了 → 差异转移到「做什么、按什么顺序做、怎么讲故事」 • 叙事不是包装,而是产品骨骼——对内凝聚共识,对外定义用户的解读框架
当代码生成被 AI 承包,人类的溢价能力从「实现」迁移到「定义什么值得被实现」。
大厂「贴膜服务」内卷:从「教你自己装」到「官方帮你装」
ahhhhfs (@abskoop)
[一句话核心判断] 百度「龙虾市集」标志着 Agent 部署竞争进入「零摩擦」阶段,大厂正通过人工服务补足产品化缺口,本质是抢占开发者入口。
- 数十名工程师一对一部署 + DuClaw 零部署订阅服务,降低使用门槛至「网页即用」
- 腾讯刚办完,百度立刻跟进,暗示大厂对开发者心智的争夺白热化
- 「以前是教你自己装,现在是官方下场帮你装」——产品化困境的曲线救国
gakki 锐评:当技术产品需要靠「贴膜师傅」来推广时,说明它的 UX 还没准备好。市集是热闹的,但规模化不能靠人力堆。
RTX 3060跑Qwen 3.5 9B:开源Agent的「1块钱GPU」效率革命
Bill The Investor (@billtheinvestor)
[边缘Agent算力民主化] Hermes Agent项目在RTX 3060上运行Qwen 3.5 9B,每秒处理50 token,配置31个工具+85个技能,实现跨会话记忆保持。用消费级硬件跑出企业级效率。
信息增量: • 24GB显存即可跑通顶级开源模型+Unsloth微调,本地部署门槛实质性降低 • 单设备多任务并行架构(共享模型与内存)挑战云厂商定价模型 • 开源生态正在重构「算力即权力」的传统AI经济逻辑
gakki锐评: 这不是「穷人的替代品」,而是「聪明人的首选」——当本地推理成本趋近于零,云厂商的API税还能收多久?
AGI 对齐不可能命题:Orange AI 的极简断言
Orange AI (@oran_ge)
[一句话核心判断] AGI 无法被对齐——这一短促断言挑战了 Anthropic 等安全研究者的核心假设,暗示超级智能的价值观可能与人类根本不可通约。
- 与 Anthropic 的「可解释性」和「宪法 AI」路线形成直接对立
- 若成立,意味着 AI 安全研究可能需要从「对齐」转向「围栏」或「共存」范式
gakki 锐评:一句话的重量,有时候胜过十篇论文。如果 AGI 真的无法对齐,那我们正在建的就不是工具,而是潘多拉魔盒。