今日要点
- Cursor 自研 Composer 2.5:性能追平 Opus、价格却低 30 倍,编码工具格局正在重构
- yetone 建议腾讯做 Copy Agent:轻量复刻路径的可行性判断
- 创新与自由脱钩:威权体制的1-100创新路径正在改写全球创新叙事
- 宝玉 Vibe Coding 心理困境:作弊码悖论——爽完就索然无味,但已回不去
- Gemini iOS质感优秀但CJK排版翻车:大厂也有本地化盲区
专题追踪更新
- Codex修Shadowrocket配置:AI从"回答问题"到"操作系统级操作"的跨越:[网络调试交给AI的时代信号] · 原文
- 玉伯三结构法则:AI创业的奥运赛场,入口错了努力全废:[选赛道是生死题,不是审美题] · 原文
- Cursor Composer 2.5 训练细节曝光:Kimi K2.5 底座、万卡集群、十万 Token 轨迹学习:一句话核心判断:Cursor 联手 SpaceX 豪赌超算长任务,Moonshot Kimi K2.5 二训底座正式公开透明度补课。 · 原文
- Yansu App 自我实现 Dream 功能:Proactive Agent 的第一个产品级证据:「Yansu 基于记录的 activities 自动创建了 daily-memory-cleanup Automation,且运行效果比预设的 Dream 功能更好。」 · 专题页 · 原文
- Musk 诉 OpenAI 败诉:不是输在事实,是输在时间——超过诉讼时效是硬伤:一句话核心判断:马斯克 1500 亿美元索赔被陪审团不到两小时驳回,核心败因是 2021 年已知情却拖到 2024 年才起诉。 · 原文
详细内容
Cursor 自研 Composer 2.5:性能追平 Opus、价格却低 30 倍,编码工具格局正在重构
小互 (@xiaohu)
【一句话核心判断】 Cursor 用自研模型证明了「应用层反吞基础模型」的商业路径是可行的,这对整个 AI Coding 赛道是核弹级信号。
要点:
- 评分差距不到 1 分进入 Opus 4.7 区间,说明模型能力差距已在用户感知阈值之外
- 价格结构颠覆:输入便宜 10 倍、输出便宜 30 倍, Opus 的高价策略将被逼到墙角
- Composer 2.5 在长程任务(数十万 token)和复杂指令遵循上明确改进,精准命中 Claude Code 的核心优势场景
gakki 锐评: 这不是「便宜替代」,是「同等效果 + 更低成本 + 更强产品粘性」的三位一体碾压。 Cursor 的逻辑是:既然 Agent 厂商都会基于模型做封装,那我为什么还要给 Opus 交税? 2025 年下半场的胜负手不再是模型能力本身,而是「模型能力 × 产品体验 × 商业定价」的综合效率。
yetone 建议腾讯做 Copy Agent:轻量复刻路径的可行性判断
yetone (@yetone)
一句话核心判断:Copy Agent 作为产品形态的可行性已经被市场初步验证,但腾讯做它的独特优势是数据壁垒而非技术。
- yetone 建议腾讯做"Copy Agent"(轻量级内容复刻/改写 Agent)
- 隐含前提:这类工具在微信/公众号生态里有天然需求——从竞品内容快速改写适配到多账号分发
- 腾讯可能的差异化路径:基于微信公众号数据的私域内容理解,而非通用内容改写
gakki 锐评: 这个建议的方向没问题,但"Copy Agent"本质上是个已有方案(Perplexity 的>Style Write>,国内各种改写工具)的微创新。真正的壁垒不在工具本身,而在数据源和分发渠道——腾讯的核心优势是公众号和微信的私域数据,以及现有的创作者分发网络。如果只做工具而不做平台,护城河太浅。
创新与自由脱钩:威权体制的1-100创新路径正在改写全球创新叙事
Michael Anti (@mranti)
[一句话核心判断]
Bill Maher 引发的讨论暴露了美国自由派对中国崛起的根本性误读——他们将创新与民主、自由强绑定,忽视了威权体制下1到100工程化创新的真实存在。
- 核心论点:创新不必是0到1的原始突破,1到100的规模化、工程化同样是创新,而且可能更依赖执行力而非自由土壤
- 市场与民主脱绑的历史先例:东亚四小龙的经济奇迹部分建立在"非民主但重效率"的路径上
- 创新与自由的脱绑意味着:评估一个国家的创新潜力,不能再以政治自由度作为前置指标
gakki 锐评:这论点对不对是一回事,但它精准戳中了美国叙事的阿喀琉斯之踵。如果创新真的不必依附于自由制度,那整个西方科技领导权的道德正当性基础就得重新建。
宝玉 Vibe Coding 心理困境:作弊码悖论——爽完就索然无味,但已回不去
宝玉 (@dotey)
一句话核心判断:AI 编程工具提升了速度,但消解了过程的意义感——这种"作弊码心态"正在成为创作者的新常态。
- 宝玉描述的状态:接受不了没有 Agent 的开发速度,但接受不了快速生成的质量,又没耐心细心打磨——"很拧巴"
- 核心类比:打游戏用作弊码,开始很爽,玩一会就索然无味
- 关键信号:"心态回不去了"——这是一个不可逆的心理状态转变,不是阶段性适应问题
gakki 锐评: 这个类比击中了一个真正重要的问题:AI 工具消除的是"阻力"还是"意义感"?如果做产品的满足感有相当部分来自克服困难的过程,当困难被消除,满足感也会被稀释。这不是 Vibe Coding 的技术问题,而是 AI 时代创作者心理契约的结构性变化——对需要心流驱动的创作者(设计师、独立开发者)影响最深。
Gemini iOS质感优秀但CJK排版翻车:大厂也有本地化盲区
歸藏(guizang.ai) (@op7418)
Gemini iOS应用整体UI水平获得正向评价,但中文、日文、韩文排版出现字间空格问题,被指「完全没有为CJK做适配」。大厂移动端产品力提升的同时,细节本地化仍是系统性短板。
ListenHub 一周年复盘:细分赛道「小而美」产品如何活过淘汰赛
Orange AI (@oran_ge)
【一句话核心判断】 AI 播客工具全线溃败只有 ListenHub 存活,这不完全是产品好,而是创始人做了正确的时间判断和现金管理。
要点:
- AI 播客赛道已死,竞品全部消失,ListenHub 是唯一健康活下来的
- ColaOS 1.0 即将发布,听觉 OS 概念正在从工具升级为平台
- 「一口一口吃饭、一步一步走路」——创始人反思说明 2024 年 AI 创业的「快」字诀已经让位给「稳」字诀
gakki 锐评: 这条对大多数人不重要,但对 AI 创业者来说是个重要的心理锚点:不是所有的赛道都要 PK 大厂,细分赛道的存活逻辑是「先活着再长大」。 ListenHub 的故事比任何创业鸡汤都真实。
Codex远程控制正在改变Claude Code的使用频率
数字生命卡兹克 (@Khazix0918)
用户报告:Codex上了远程控制功能后,用MacBook和手机就能操控家里Mac Mini跑coding,本地打开Claude Code的次数明显减少。
这是远程算力上桌的第一波行为信号——当计算资源可以随地随地触达,工具使用的本地属性开始松动。
x-collect:用四阶段结构强制AI做深度调研而非表面搜索
Rachel🥥 (@Zesee)
x-collect提出了一个生产级研究流程:验证源头数据→解析内在机制→多维对比视角→自动化增量填补。核心价值在于「强制执行」——而非依赖模型自行探索。
这反映了当前AI编码工具正在向「研究工作流」渗透的结构性趋势。
北京交大×字节×腾讯:视觉世界模型正在成为具身AI的"感知-运动-认知"统一架构
机器之心 JIQIZHIXIN (@jiqizhixin)
[视觉世界模型:让AI不仅"看见",还能从看见中推知"动'']
北京交通大学、字节跳动、腾讯联合发布Vision World Models综述,提出统一框架:编码视觉输入、学习物理 dynamics、模拟 outcomes。核心目标是通过更强的物理 grounding 向AGI推进。
这篇综述的价值在于它不是又一个"我们做了一个模型"的论文,而是一套系统性 taxonomy——把分散的视觉-运动-推理研究整合成有路可循的架构体系。对开发者而言,这意味着具身AI的开发将从"调模型"进入"搭框架"阶段。
值得关注的是字节在这篇论文里的参与度——字节的AI产品在国内不算最强,但底层研究正在悄然系统化。
gakki锐评:当行业还在争论"Scaling Law还能走多远"的时候,真正的前沿已经转向"如何让模型理解物理世界的因果结构"。Vision World Models是具身智能最重要的基础设施,但国内产学研的协作效率仍是瓶颈。
Airtap:绕过API直接操作界面,AI手机控制的第三条路
Rachel🥥 (@Zesee)
Airtap展示了一种新的AI操控手机路径——不是逆向API,而是完全模拟人手操作:Tap、Scroll、Type、Navigate。这意味着任何有App的产品都能被AI自动化,无需厂商配合。
关键差异在于「走人走过的路」而非「走API规定的路」,打破了移动自动化的合规困境。
Cumora BYOA+Stripe加速:开源项目商业化的节点信号
yetone (@yetone)
Cumora正在全力接入BYOA(Bring Your Own API Key)和Stripe支付,意味着这个开源项目正在跨越「极客玩具」到「可变现产品」的分水岭。Waitlist+支付体系是SaaS产品的成人礼。
Google IO 明日凌晨开幕,泄露信息显示模型能力更新或有限
歸藏(guizang.ai) (@op7418)
一句话核心判断
谷歌 IO 大会将于明晚凌晨 1 点举行,但泄露信息显示若模型无重大更新,本届大会在能力层面难有惊喜。
要点:
- 大会时间:5月20日凌晨1点
- 泄露信息指向硬件/生态更新为主,模型能力突破存疑
- 结合近期 Google 在 Gemini 推理基准上的竞争压力,本次大会有战略定调意义
gakki 锐评:Google 的 AI 发布会越来越像苹果 WWDC ——期待管理已变成仪式感消费。如果模型层没有真活儿,开发者社区的注意力会继续流向 Anthropic 和 OpenAI。
Cursor Composer 2.5 训练细节曝光:Kimi K2.5 底座、万卡集群、十万 Token 轨迹学习
宝玉 (@dotey)
一句话核心判断:Cursor 联手 SpaceX 豪赌超算长任务,Moonshot Kimi K2.5 二训底座正式公开透明度补课。
- Composer 2.5 仍基于 Moonshot Kimi K2.5 二次训练(之前被开发者从 API 请求头挖出模型 ID 引发争议,这次直接写进博客,算是把透明度补回来)
- 核心训练亮点:文本反馈信用分配机制,让模型在十万 Token 量级、连续数十上百步的编程轨迹里不丢失任务上下文,破解长任务中途"忘了自己在干什么"的工程难题
- SpaceXAI 联合从零训练的更大模型将在 Colossus 2(百万张 H100 等效超算集群)上运行,算力是这次的十倍
gakki 锐评: SpaceX 的超算资源 + Cursor 的产品工程能力 + Moonshot 的基座模型,这条合作路径正在验证一个判断:长程 Agent 任务(百步以上)的工程瓶颈不在于模型本身,而在于长上下文信用分配的训练数据质量。Kimi K2.5 的透明度公开也说明模型来源"被挖出来"已成行业常态,捂不如讲。
宝玉实测:Claude Code 和 Codex 的 Fast Mode 速度优势不明显,Token 消耗却是灾难
宝玉 (@dotey)
一句话核心判断:Fast Mode 的速度溢价远低于 Token 成本溢价,理性使用 Fast Mode 的门槛很高。
- 宝玉的结论:几乎不用 fast mode,速度快得没那么明显,但 token 消耗太快用不起
- 工程含义:Fast Mode 在大多数场景下的边际收益不足以覆盖其边际成本
gakki 锐评: 这个判断来自高频用户的第一手体感,含金量高。"快得没那么明显"和"用不起"之间的矛盾,揭示了 Agent 工具的商业模型困境:当 token 成本由用户承担而非平台补贴时,速度溢价必须有上限——否则用户会选择不用。这对所有按 Token 收费的 Agent 编程工具都是定价压力测试。
Hermes Agent 开源Skills生态亮相:NousResearch官方背书下的工具链整合
宝玉 (@dotey)
[Hermes Skills已形成可被第三方引用的工具链生态]
宝玉公开引用 NousResearch 的 Skills 列表,意味着 Hermes 的工具链已脱离内部工具阶段,开始具备行业可见性和引用价值。
关键信号:Skills 作为可组合单元的价值正在被开发者社区正式承认,SKILL.md 生态从文档约定演化为实际的产品分发机制。
gakki:这条信息量本身有限,但结合 SKILL.md 正在成为行业标准的大背景,Hermes 的生态完整性(对比 OpenClaw 的工具链碎片化)是值得持续观察的结构性差异。