Back

2026-05-13 科技动态

今日要点

  • Google DeepMind 用 Gemini 重新想象鼠标:50 年交互范式的 AI 原生改造开始了
  • Claude Code /goal:让 Agent 跑完再停,而不是跑一会就问你要不要继续
  • Obsidian 公布插件未来路线图:知识管理基础设施的自我革新
  • Artificial Analysis推出Coding Agent综合评测指数:工具链组合性能首次被独立量化
  • Perceptron Mk1 凭 $0.15/M 打价格战:具身推理模型的商品化时刻到了

专题追踪更新

  • Vapi AI融资5000万美元:企业级语音Agent基础设施的工程护城河首次被资本验证一句话核心判断: Vapi跑出了企业级语音Agent的工程标准——可预测延迟、硬性Guardrails、逐调用可观测、向人类优雅升级——这比产品功能更重要。 · 原文
  • Amazon员工正在刷Token:KPI追踪正在扭曲企业AI部署的本来面目[一句话核心判断] · 专题页 · 原文
  • SubQ:稀疏注意力范式打破FlashAttention,1M tokens预填充快52倍、成本低于Opus的5%[稀疏注意力才是长上下文的正确答案——Subquadratic用SSA让百万级Token真正可用] · 原文
  • Perceptron Mk1 凭 $0.15/M 打价格战:具身推理模型的商品化时刻到了[一句话核心判断] · 原文
  • Garry Tan 曝光 AI Agent 复杂度棘轮:90% 测试覆盖率才是入场券,不是建议[一句话核心判断] · 原文

X AI 趋势速览

Anthropic 为 Claude Code 新增 /goal 命令,支持自主编码

**AI 摘要:**Anthropic 的 Claude Code 现已推出 /goal 命令,允许 AI 智能体自主执行任务直至满足明确条件,例如测试通过或 lint 检查通过。开发者们分享了一些令人印象深刻的运行案例:有人连续重构 14 小时,也有人在无人值守的情况下两小时内关闭了 18 个 issue。/schedule 命令则支持添加定时任务,功能可与 OpenAI 的 Codex CLI 媲美,不过也有人提到存在消息重复或速率限制等问题,并分享了精准提示的技巧。

ClaudeDevs (@ClaudeDevs):How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. https://t.co/QtVPmwoKct

❤️ 2157🔄 154💬 105查看趋势

币安 AI 防御系统拦截 105.3 亿美元加密货币欺诈

**AI 摘要:**2025年第一季度至2026年第一季度,Binance超过100个机器学习模型驱动了57%的欺诈控制,阻截了105.3亿美元的潜在损失。仅2026年第一季度,就阻止了2290万次诈骗尝试和19.8亿美元,同时拉黑了3.6万个恶意地址,并将卡类欺诈减少了60%-70%。在全球加密货币欺诈2025年达170亿美元的背景下,Binance还为用户追回1280万美元,并通过执法合作协助扣押了1.31亿美元的非法资金。

Crypto Raven (@hiRavenCrypto):🚨 AI scams are getting smarter every day, and they’re costing crypto users billions. In 2025 alone, AI-driven fraud hit $17 billion. But #Binance is fighting AI with AI to keep you safe. 🫶

They’ve blocked over $10.53 billion in fraud, protected more than 5.4 million users, and stopped 22.9 million scam and phishing attempts in just Q1 2026.

With 100+ AI models powering their security, smart architecture (like Binance AI Pro), and real user education, they’re setting the standard for protection in crypto.

Check out Binance’s AI-powered security using my link: https://t.co/paflpo6MBz

Safety first! 🔥

❤️ 56🔄 40💬 19查看趋势

DoginalDogs 社区在 Taco Tuesday 举办 Great Reset 语音空间

**AI 摘要:**DoginalDogs 是一个基于狗狗币区块链的 NFT 项目,包含 1 万只独特的像素狗狗。该项目举办了一场长达数小时的"Great Reset"Spaces 活动,吸引了数百人参与,社区领袖 Bark 和 Ant 主持了这场马拉松式语音讨论。听众们分享着玉米饼照片、爱国主题狗狗插画,以及 Web3 思维的建议,有人甚至表示这场活动的收获比大学课程还多。此次活动充分展示了该项目 3 亿美元的交易量以及 35000 枚 DOGE 的地板价——这些成绩背后,是无 VC 背景、纯社区驱动的项目风格,以及正在崛起的狗狗币生态系统的共同推动。

Bark (@barkmeta)https://t.co/RiR3FTN8Nx

❤️ 192🔄 78💬 231查看趋势

Garry Tan 72 小时内合并 29,000 行 AI 生成代码

**AI 摘要:**Y Combinator 首席执行官 Garry Tan 分享了 AI 编程智能体如何打破了速度与质量的旧有矛盾,在 GStack 和 GBrain 等项目中处理了近 29,000 行代码。这两个项目分别获得了 94,000 和 15,000 GitHub 星标,依赖 90% 的测试覆盖率来保证代码韧性——即时修复问题并防止回归。Tan 的"复杂度棘轮"机制确保了前进方向,让小团队也能产出与大公司相当的工作效率,靠的是自动化测试、代码审查和评估体系。开发者们为这种可扩展性欢呼,但也有人指出仍需要人来设定标准。

Garry Tan (@garrytan):The AI Agent Complexity Ratchet: Why 90% Test Coverage Is Required

❤️ 626🔄 79💬 42查看趋势

Google DeepMind 将鼠标指针变身 AI 助手

**AI 摘要:**Google DeepMind 展示了基于 Gemini 模型的实验性 AI 演示,通过强化鼠标指针功能,让用户指向屏幕元素并说出简单指令,如"制作图表"或"为邮件添加要点"。演示功能包括:翻倍食谱用量、总结 PDF 文档、从表格创建图表、将视频画面转为预订链接——所有操作都无需聊天窗口或复制粘贴。简化版现已上线 Google AI Studio,相关功能将逐步登陆 Chrome 和 Googlebook 笔记本,目标是实现与道格拉斯·恩格尔巴特 1968 年演示一脉相承的无缝 AI 协作体验。

Google DeepMind (@GoogleDeepMind):We’re reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️

These experimental demos show how people can intuitively direct Gemini on their screens using motion, speech, and natural shorthand to get things done 🧵 https://t.co/p6fhgNcopz

❤️ 3853🔄 422💬 217查看趋势

详细内容

Google DeepMind 用 Gemini 重新想象鼠标:50 年交互范式的 AI 原生改造开始了

Google DeepMind (@GoogleDeepMind)

[一句话核心判断]

Google DeepMind 在实验性 demo 里让 Gemini 直接接管屏幕感知,用手势、语音和自然语言短句驱动 AI——这不是 AR/VR 的新入口,是把"屏幕"本身变成 Agent 接口的范式转移预告。

信息增量:

  • 鼠标指针是 1974 年发明的交互原语,50 年没有本质变化;现在 AI 让它"活"了——可以理解屏幕内容、响应自然指令
  • motion + speech + natural shorthand 三模态融合意味着 Gemini 正在从"回答问题"进化到"代理行动"
  • 目标不是改良交互,是重新定义人与屏幕之间的代理关系

gakki 锐评: 每次交互范式转移都会重写一次入口价值链——鼠标干掉命令行,触控干掉鼠标,现在 AI 要把"指针"本身变成一个理解你意图的 Agent。如果这成了,"打开 App"这个动作将被"召唤 Agent"彻底替代。

Claude Code /goal:让 Agent 跑完再停,而不是跑一会就问你要不要继续

ClaudeDevs (@ClaudeDevs)

一句话核心判断: /goal 是 Claude Code 向「真无人值守 Agent」迈出的关键一步——解决的是 AI 编程工具最大的体验断层:人在不在场决定代码能不能跑完。

长期以来 Claude Code 被诟病「一断开就放弃」「需要人盯着中途干预」,/goal 直接改变这个默认行为:目标不达成不停止,主动持续直到任务完成再汇报。这对 CI/CD 流程、长任务自动化有直接价值,是工程化可靠性的实质提升。

Obsidian 公布插件未来路线图:知识管理基础设施的自我革新

Obsidian (@obsdmd)

一句话核心判断: Obsidian 在 AI 知识管理基础设施的地位已无可撼动,这次路线图将决定下一个 Agent 记忆系统的标准接口形态。

Obsidian 的核心价值在于本地优先+双向链接+插件生态,在 AI 记忆系统浪潮中它是少数能做到「个人知识资产自主可控」的工具。插件路线图的任何变化都会影响整个个人 AI 记忆生态的接口标准。

Artificial Analysis推出Coding Agent综合评测指数:工具链组合性能首次被独立量化

Artificial Analysis (@ArtificialAnlys)

一句话核心判断: 评测Coding Agent的正确单位不是「模型」,而是「Harness+模型」的组合——这个常识终于有了系统性基准。

新指数涵盖3个主流Benchmark、Token消耗、成本和综合表现,覆盖当前主流Coding Agent场景。

gakki 锐评:这是行业走向成熟的信号——当市场开始用「组合评测」替代「模型跑分」,说明大家终于意识到Coding Agent的瓶颈在工程层而非模型层。但Benchmark本身也会成为新的博弈空间:优化Benchmark分数和优化真实编程体验,可能完全不是一回事。

Perceptron Mk1 凭 $0.15/M 打价格战:具身推理模型的商品化时刻到了

Indian Tech & Infra (@IndianTechGuide)

[一句话核心判断]

Perceptron Mk1 以每百万输入 $0.15 的价格切入视频理解与具身推理赛道,直接对标 Gemini Flash Lite——这不是价格战,是具身 AI 基础设施层的商品化预告片。

信息增量:

  • 结构化输出覆盖时码、片段、点和边界框,可规模化解析,瞄准机器人、制造质检、体育媒体三大场景
  • 定价低于 Gemini Flash Lite 但功能集更广,等于用价格锚点重新定义"够用"的标准
  • 时序 grounding(temporal grounding)能力是具身 AI 的核心技术壁垒之一,能把它做进 API 且定价如此激进,说明供应链已跑通

gakki 锐评: 硬件端特斯拉 Optimus 产能爬坡,软件端 Perceptron 把具身推理 API 化——两件事在同一个月份发生,不是巧合。具身 AI 的"iphone 时刻"不是一台设备,是一个能把物理世界理解并结构化输出的推理层,而这个层正在迅速变得廉价。

Garry Tan 曝光 AI Agent 复杂度棘轮:90% 测试覆盖率才是入场券,不是建议

Garry Tan (@garrytan)

[一句话核心判断]

Garry Tan 说出了一句行业不愿承认的实话:AI Agent 的复杂度棘轮已经把测试覆盖率推到 90%,达不到这个标准的团队本质上是负债而非资产。

信息增量:

  • "Complexity Ratchet"这个框架精准——AI Agent 每加一个能力,系统复杂度不线性增长而是棘轮式跳升,传统软件工程的容错经验全面失效
  • 90% 不是愿景,是可操作的下限;低于这个线的 Agent 在生产环境里是定时炸弹
  • 这话从 YC CEO 嘴里说出来,等于向整个创业生态宣告:AI Agent 的工程纪律门槛已经实质性抬高

gakki 锐评: 行业还在讨论"AI Agent 能不能做",真正的建设者已经在算测试覆盖率了。复杂度棘轮不可逆,唯一的解法是让工程纪律追上模型能力——谁先跑到 90%,谁就拿到了下一轮竞争的合法席位。

AI 在 DeFi 里真金白银救下 2770 万:安全 Agent 的经济价值首次被量化

riptide (@0xriptide)

[一句话核心判断]

riptide 的 AI 在 30 天内替用户守住了 2770 万美元,同期拿到最大额漏洞赏金 25 万美元——这不是概念验证,是 AI 安全 Agent 的经济价值首次被真实账单量化。

信息增量:

  • $27.7M 是用户实际免损,不是理论防护;$250K bounty 是外部审计机构给的定价,两个数字交叉验证了 AI 安全 Agent 的商业闭环
  • DeFi 安全是高频黑天鹅场景,AI Agent 在这里跑通,说明"无人值守"不只是省人力,是真正能在黑天鹅里活下来的能力
  • 25 万美元 bounty 相当于一个安全工程师数年的薪酬,AI Agent 的 ROI 在这个垂直场景里已经赤裸裸

gakki 锐评: crypto 是 AI Agent 经济自主权的试验场——这里是唯一能把"AI 替你守住多少钱"直接量化的场景。2770 万这个数字比任何 demo 都有说服力:下一个问题不是"AI Agent 能不能守钱",而是"谁来给 AI Agent 的守钱能力定价"。

peaqOS×LG CLOi机器人:链上USDX自动结算的「机器人经济」首次实现商业场景验证

peaq (@peaq)

一句话核心判断: 机器人技能上链+自动法币结算,意味着具身AI的「商业模式闭环」从理论走向工程可行性。

peaqOS与LG CLOiSim集成,机器人技能支持pay-per-use,用USDT自动结算——这不只是技术演示,而是真实的商业合同数字化。

gakki 锐评:具身AI喊了这么久,真正缺失的一环不是运动控制,而是「怎么收钱」。peaqOS这步棋踩在了点子上——把机器人的每个动作变成可定价的技能单元,再链上结算,这才是Agent经济自主权在物理世界的真正落地。但LG的机器人真的需要区块链吗?还是只是为了一场Demo?

Anthropic 开源 12 个法律插件+20 个 MCP 入口:垂直领域 Agent 的落地范式确立

宝玉 (@dotey)

一句话核心判断: Anthropic 的法律工具不只是插件发布,它证明了「冷启动访谈+CLAUDE.md 风格化+垂直插件」是垂直 Agent 落地的最小可行路径。

12 个插件覆盖公司法务、并购、隐私诉讼、法学生等具体角色,每个都需要 10-20 分钟「冷启动访谈」把团队 playbook 写进 CLAUDE.md,之后插件自动按自家风格输出。这解决的是 AI 法律工具「太通用、不像自家东西」的核心痛点——本质上是用人类工作流约束 AI 行为,而非让 AI 自己摸索。

OpenClaw 4.14 大版本跳跃背后:Agent 部署摩擦正在被系统性拆除

Tyler Wayne (@tylerrwayne)

[一句话核心判断]

OpenClaw 从 4.x 直接发 4.14,版本号跳跃背后是 Agent 部署摩擦被系统性拆除的信号——setup pain 不再是行业默契的痛,而是被拿出来公开"杀掉"的靶子。

信息增量:

  • "Everyone's building AI agents. Nobody's talking about how painful the setup actually is."——这句话本身就是一种宣言,说明 Agent 部署摩擦已经到了影响采用的临界点
  • 大版本跳跃(而非 4.13)暗示这一版是一次架构级改写,不只是功能迭代
  • 如果 4.14 真把 friction 拆干净了,OpenClaw 在 No-code Agent 入口这个赛道上就直接和其他玩家拉开了代差

gakki 锐评: Agent 生态的下一个瓶颈不是"能不能做",是"能不能让人用起来"。部署摩擦被公开当作问题来解决,说明市场已经从"造工具"进入"送工具上桌"的阶段——这是行业成熟度的标志,也是竞争门槛正在重构的信号。

Wispr Flow融资2亿美元估值2B:语音编程工具的第一个大规模商业验证

Rebecca Torrence (@RebeccaTorrenc5)

一句话核心判断: 语音编程工具的2B估值,证明「输入体验重构」这件事本身就能撑起独角兽——哪怕底层是调用别人的模型API。

Menlo Ventures领投约2.6亿美元,这是语音交互进入生产力工具的里程碑式资本认可。

gakki 锐评:Wispr的产品逻辑很直接——让写代码的输入从键盘变成语音。但问题在于:这个价值有多少是来自「语音」这个交互形式,有多少是来自「AI理解口语指令」这个能力?前者是差异化,后者是通用基础设施。当模型厂商自己把这个做进API里,Wispr的护城河还剩什么?

Vapi AI融资5000万美元:企业级语音Agent基础设施的工程护城河首次被资本验证

Nikhil Gupta (@nikhilro_)

一句话核心判断: Vapi跑出了企业级语音Agent的工程标准——可预测延迟、硬性Guardrails、逐调用可观测、向人类优雅升级——这比产品功能更重要。

Peak XV领投,7200万美元总融资,说明语音Agent已从「Demo玩具」进入「生产级交付」阶段。

gakki 锐评:语音Agent的门槛从来不在识别准确率,而在「什么时候该让人介入」这个判断。Vapi的「clean escalation to humans」才是真正的产品护城河——但这个护城河本质上是工作流设计,不是模型能力。

Skills 是工作手册,Agent 是执行主体:宝玉把 Agent 生态的核心分叉讲清楚了

宝玉 (@dotey)

[Skills 和 Agent 的边界定义,决定了 Agent 架构的可维护性上限]

宝玉给出了目前中文圈最清晰的 Skills vs Agent 定义:Skill 是给 Claude 看的工作手册(包含领域知识、工作流、判断标准),本身不执行;Agent 才是真正执行任务的主体,其中 Subagent 负责并行分摊上下文压力,结果汇总回主 Agent。

核心洞察:Subagent 不是为了"多",是为了解决上下文爆炸问题——当一个任务需要并发处理数百份文档时,让主对话逐份读入是工程自杀,分而治之才是正确姿势。

影响:对所有正在自建 Agent 系统的人,这个分叉直接决定了代码库是"可组合"还是"屎山"。没有清晰的 Skill/Agent 边界,所有所谓 Multi-Agent 协作都是空中楼阁。

gakki 锐评:宝玉这个定义最精准的地方在于指出了 Subagent 的存在理由不是"能力分工",而是"上下文管理"——这是 Agent 工程化的第一性原理,比任何框架讨论都基础。

AI Agent 记忆原理拆解:从向量检索到持续性记忆的完整链路

铁锤人 (@lxfater)

[ Agent 记忆的系统性科普恰好填补了当前市场认知与工程现实之间的巨大落差]

这篇从原理到实战的详细解释,在当前 Agent 概念炒作期提供了一次难得的工程层面的梳理:记忆不是单一技术,而是向量检索、短期上下文、长期持久化、记忆压缩与召回策略的组合系统。

对行业而言,这类基础原理内容的市场价值往往被低估——它决定了开发者能否做出正确的架构选择,也决定了投资人能否识别真正有记忆壁垒的 Agent 项目。

gakki:这类原理性内容在 Agent 炒作期有特殊的"认知锚定"价值。它不直接改变市场,但它能过滤掉那些把向量数据库当记忆的全部骗子项目。

宝玉:Agent工作流设计不值钱,值钱的是把工作流变成解决真实业务问题的产品

宝玉 (@dotey)

一句话核心判断: 工作流是通用资产,能解决特定行业业务问题的AI Native重新设计才是稀缺品——而且这个设计需要跟着模型能力持续迭代。

搭工作流本身的技术壁垒在下降,但「行业Know-how×AI能力」的组合设计能力极度稀缺,且工作流会随模型进化持续过期。

gakki 锐评:这和软件工程一样——会写代码的人很多,能定义产品的人很少。但这里有一个没说出口的悲观预期:模型能力变化导致工作流持续过期,这个「维护成本」会吃掉大部分利润。真正赢家是那些能把工作流设计变成「模型无关」的人。