今日要点
- AI接管编码后,Sublime重回视野:工具选型逻辑正在从「功能堆叠」转向「资源效率」
- Computer Use 大面积翻车:全行业只有两家的实现能后台跑通「开网易云播放今日推荐」
- DeepSeek 正式下场做 Harness:Agent 产品经理招募背后的战略意图
- Anthropic 官方 Claude Code 101 上线:9 节官方课覆盖全链路,沉浸式翻译直接看
- Forward Deployed Engineer:AI 时代最稀缺的新岗位,到底是什么
专题追踪更新
- 本地模型动态分级路由:把 opus 和 gpt 接入 AGI 工具链的工程答案:本地小模型对请求进行极速向量化和任务复杂度判断,将简单/中等/复杂任务分发至对应层级模型。 · 原文
- OpenSquilla 用 Python 重写小龙虾:路由层让 Opus 4.7 成本从 6 美元跌到 6 毛 8:[本地路由器做模型路由层,复杂任务才上 Opus,便宜模型扛简单任务,成本差 10 倍] · 专题页 · 原文
- ChatGPT绑定银行账户:美国金融AI执行时代的序曲:一句话核心判断 · 专题页 · 原文
- OpenAI 官宣:ChatGPT 和 Codex 合并成一个统一体验,Brockman 亲自带队:[OpenAI 内部权力重组,Greg Brockman 正式接管产品,ChatGPT+Codex+API 三线合一,Brockman 主内] · 专题页 · 原文
- DeepSeek 正式下场做 Harness:Agent 产品经理招募背后的战略意图:[一句话核心判断] · 原文
详细内容
AI接管编码后,Sublime重回视野:工具选型逻辑正在从「功能堆叠」转向「资源效率」
宝玉 (@dotey)
核心判断:当AI填补了编辑器的大部分功能缺口,选择标准从「能做什么」转向「消耗多少」。
- 宝玉从VSCode切回Sublime,内存从10GB+降至300MB,核心触发点是「基本不用手写代码」——VSCode那些为手写代码设计的功能(IntelliSense、Debugger、Extension生态)在AI辅助编程时代变成了冗余开销。
- 这不是个案,Zed、Helix等轻量编辑器的活跃增长,本质上都是同一个范式转移的侧影:当模型负责「做什么」,人类只负责「审什么」,编辑器只需要做好文件编辑+语法高亮就够了。
Sublime 300MB vs VSCode 10GB的对比,撕开了AI时代开发者工具选择的一个隐秘逻辑:功能复杂度不再是护城河,资源效率反而成了新竞争优势。
gakki锐评: 这个变化目前还停留在开发者个人偏好层面,但随着AI生成代码的质量继续提升,「轻量编辑器+强AI」会逐步成为主流配置,VSCode的护城河(Extension生态)将被应用商店逻辑反向侵蚀——工具链越长,模型越强,冗余功能越明显。
Computer Use 大面积翻车:全行业只有两家的实现能后台跑通「开网易云播放今日推荐」
yetone (@yetone)
[计算机使用能力评测,只有 Alma 和 Codex 真正跑通了一个日常任务]
yetone 测试了众多产品的 Computer Use 能力,发现绝大部分产品在后台模式下无法完成「打开网易云音乐→播放今日推荐」这个看似简单的任务。目前只有 Alma 的 Computer Use 和 Codex 的 Computer Use 能成功执行。
这个测试结果比任何 benchmark 更有说服力——它测的是「真实任务的端到端完成率」,而不是 token 消耗或评测分数。
gakki:Computer Use 赛道目前是「概念热、落地冷」。大部分实现停留在 Demo 级别,能稳定跑通真实日常任务的只有两家用工成本换质量,Alma 的身份值得关注。
DeepSeek 正式下场做 Harness:Agent 产品经理招募背后的战略意图
宝玉 (@dotey)
[一句话核心判断]
DeepSeek 正在把"Harness"(模型能力与用户之间的工程层)作为 Agent 产品化的核心抓手,其桌面端 Agent 将是行业第一个真正以"Harness"命名并系统性实践的产品。
• Harness 的定义边界:招股说明中明确"模型以外的所有工作都属于 Harness",包括提示词工程、记忆管理、工具编排、多轮对话控制等——这是行业第一次把 Harness 作为独立产品域来招聘。 • 内部落地优先级:明确提出以内部真实任务作为 Harness 产品和模型训练的反馈源,形成模型与工程层的共同进化闭环,而非依赖外部用户反馈。 • 开源社区定位:要求维护开源社区,这意味着 DeepSeek 的 Harness 策略可能走开源路线,与 Anthropic、OpenAI 的封闭模式形成差异化。
HarnessPM 这个职位描述本质上是一份 Agent 产品化的宣言书——它把"模型能力"和"工程层"的关系定义为 1:1 的平等贡献,而不是传统的"模型负责智能,工程负责包装"的从属关系。
Anthropic 官方 Claude Code 101 上线:9 节官方课覆盖全链路,沉浸式翻译直接看
歸藏(guizang.ai) (@op7418)
[Anthropic 出官方教程了,内容覆盖安装、底层原理、提示词、MCP、Hooks、上下文管理]
课程内容:Claude Code 是什么→如何安装→底层工作方式→写第一个高质量提示词→Claude.md 是什么→Explore/Plan/Code 模式→MCP→如何管理上下文→Hooks。
课程地址已公开,搭配沉浸式翻译插件可直接食用。这是 Anthropic 第一次系统性做 Claude Code 官方教育投入。
gakki:Anthropic 正在做 Google 当年对 Android 做的事——用官方教程建立开发者心智。覆盖这么完整,第三方教程作者的空间会被压缩。
Forward Deployed Engineer:AI 时代最稀缺的新岗位,到底是什么
宝玉 (@dotey)
[FDE 成为 AI 时代新宠,核心能力是「在客户现场用 AI 工具解决真实问题」而非纯开发]
Forward Deployed Engineer 这个职位在 AI 时代被重新定义——不再是传统意义的现场部署工程师,而是能在客户真实工作流里快速集成 AI 能力、解决端到端问题的人。
这个岗位的稀缺性在于:既要有工程能力,又要有 AI 产品感知,还要能蹲现场。
gakki:FDE 崛起背后是一个更大的趋势——AI 落地最后一公里的问题不是靠 API 调用解决的,是靠人蹲在现场调出来的。这和「AI 工程纪律瓶颈」是同一枚硬币的两面。
PPT Skills自动化截图美化:工具链内化正在减少对GPT-Image的依赖
歸藏(guizang.ai) (@op7418)
核心判断:垂直工作流的AI工具正在把外部API调用内化为本地逻辑,成本和延迟都在下降。
- 藏师傅PPT Skills更新了截图美化逻辑:自动根据截图尺寸、长宽比、PPT模板类型选择背景模板,并处理裁剪/并排等边界情况——全程无需GPT-Image 2.0 API调用。
- 这是个典型的「工具链工程化」信号:不是等上游模型降价,而是自己把调用路径改掉。相当于在模型层之下又加了一层流程自动化,把AI能力封装成更细粒度的可复用单元。
从PPT Skills的迭代方向看,AI工具正在从「调用大模型」向「编排小流程」演进——这才是技能商品化的真实路径,不是简单地把提示词打包成GPTs。
gakki锐评: 内化调用、减少外部依赖,本质上是在AI能力上叠工程化。这条路走通了的团队,会比纯靠API调用的团队在成本控制和响应稳定性上有显著优势——特别是在高频调用场景里。
Zed获宝玉验证:轻量编辑器的「Token共用」机制正在解决多平台协作的隐性摩擦
宝玉 (@dotey)
核心判断:轻量编辑器的竞争维度正在从「性能」扩展到「账户体系」,多平台Token共享成了新的差异化点。
- 宝玉实测Zed:内存占用小,且能登录OpenAI和GitHub账户体系,共用Token——这解决了一个实际痛点:在多设备/多工具间切换时,不再需要反复管理API Key。
- 这是个产品细节,但指向了一个更大的问题:在AI编程工具爆发之前,账户和计费的割裂是真实存在的摩擦点。能统一这个摩擦的工具会获得更高的日活留存。
gakki锐评: Token共用本质上是账户抽象层的优化,属于「次要摩擦」的消除。这个信号的重要性依赖于AI编程工具的日活规模——规模越大,这类细节体验的分量就越重。目前还是个 niche 的改进。
OpenSquilla 用 Python 重写小龙虾:路由层让 Opus 4.7 成本从 6 美元跌到 6 毛 8
小互 (@xiaohu)
[本地路由器做模型路由层,复杂任务才上 Opus,便宜模型扛简单任务,成本差 10 倍]
同一个测试集跑分 0.9251 vs 0.9255(对标 OpenClaw),但核心思路是把「模型选择权」从 Agent 框架层下放到一个本地路由器:简单任务自动路由到国产便宜模型,Opus 4.7 只处理真正需要它的复杂推理。
四层记忆(手头任务/历史任务/知识规则/原始日志)+ 按需添加工具(16 个自带工具)+ 三档代码沙箱安全隔离,是工程实现层面的关键设计。
gakki:这是第一个把「模型路由」做成生产级开源方案的案例,不是概念演示。如果路由层判断准确率能稳定,10 倍成本差会成为中小团队跑小龙虾的标配架构。
OpenAI 官宣:ChatGPT 和 Codex 合并成一个统一体验,Brockman 亲自带队
宝玉 (@dotey)
[OpenAI 内部权力重组,Greg Brockman 正式接管产品,ChatGPT+Codex+API 三线合一,Brockman 主内]
这是 OpenAI 史上第二次重要产品整合。Tibo(Codex 原负责人)升任核心产品和平台主管,Nick Turley 调岗企业改版。Greg Brockman 从临时接管变为正式执掌,且这次调整据说是和正在病休的 Fidji Simo 共同敲定的。
Codex 是 OpenAI 史上增长最快的产品之一,ChatGPT 是流量入口,两者合并意味着 OpenAI 正在从「产品矩阵」走向「统一超级入口」,编程能力和对话能力不再割裂。
gakki:Brockman 回归产品一线是重要信号——OpenAI 的战略优先级从研究扩散收敛到「产品力变现」,这对所有 AI Coding 工具都是竞争压力。
飛書 CLI 工具正式发布:用命令行直接操作飞书文档和工作流
歸藏(guizang.ai) (@op7418)
[飞书 CLI 工具发布,文档和 Workflow 开始进入命令行可编程时代]
开发者可以通过命令行直接操作飞书文档、管理工作流、自动化日常协作任务。这意味着飞书正在从「协作工具」变成「可编程平台」,对需要自动化飞书操作的团队有直接价值。
gakki:飞书 CLI 和飞书 MCP 是两条不同的路,前者面向 CLI 原住民,后者面向 Agent Native 场景。如果两个都能稳定维护,飞书会成为国内最值得集成的协作平台。
CHAI:卡内基梅隆×哈佛用专业 filmmaker 视觉基元重新定义视频字幕,Gemini 3.1 Pro 被超越
机器之心 JIQIZHIXIN (@jiqizhixin)
CHAI 用结构化视频语言重新定义 AI 视频理解。
数百个由专业 filmmaker 定义的视觉基元(visual primitives)构建了底层描述体系,而非让模型自由发挥。
训练流程引入「专家批判-模型迭代」闭环:专业字幕员反复校正 AI 输出,模型从中学习微妙的叙事语法。
结果:击败 Gemini 3.1 Pro,且能让 Wan 等视频生成模型遵循 400 词 prompt 指令——意味着字幕理解已开始反向驱动生成质量。
gakki:这条容易被归类为「学术论文」,但实质是视频理解-生成闭环的工程实证。当字幕不再是大模型的附庸,而成为可控的描述协议,这才是多模态工业化的真正信号。
yetone 修复 Sub2API Response API 严重漏洞:开源社区正在以代码审查代替平台背书
yetone (@yetone)
一句话核心判断:第三方 API 封装层的漏洞修复,暴露了开源 Agent 工具链的质量信任机制正在从平台认证转向社区代码审查。
- yetone fork Sub2API 后发现并修复多个 bug,其中包括一个严重的 Response API 漏洞,凸显了非官方封装层的安全债务积累速度远超修复速度
- 开源修复路径(fork→修bug→PR)相比平台工单机制的效率差,正在成为 Agent 开发者群体的隐性税
- 严重 bug 的快速暴露与修复,验证了"公开代码 > 闭源审计"的社区假设,但同时也意味着企业级部署风险被低估
gakki 锐评:Sub2API 这类工具的本质是 Agent 生态的神经末梢——量大、脆弱、修复快。真正的危险不是某个 bug 被修复,而是企业用户在不知情的情况下将严重漏洞的修复周期误判为"已解决"。
Laser 论文:「先林后树」视觉推理路径让 token 消耗降低 97%,同时精度还更高
机器之心 JIQIZHIXIN (@jiqizhixin)
[森林先于树木:保持全局感再放大局部,97% 推理 token 降低]
来自 MBZUAI、复旦、人大、哈佛的研究者提出 Laser 方法,核心思路是「先林后树」推理——不是逐步文本推理,而是在放大局部细节前先保持全局图景理解,对齐隐状态与动态未来语义窗口。
在 6 个基准测试上平均超越 Monet 5%,推理 token 降低超过 97%,泛化能力优异。
gakki:97% 这个数字极其激进。如果复现成立,它直接击中了一个行业痛点——长视觉推理的 token 成本。这个方向和「视觉 token 效率优化」这个 subtopic 高度相关,可能是今年 CV 领域最值得跟踪的方法论之一。
NVIDIA Scenethesis:LLM 布局 + 视觉细化的 3D 场景生成,首次在游戏/VR/具身AI 三场景同时超越现有方法
机器之心 JIQIZHIXIN (@jiqizhixin)
[一句话核心判断]
Scenethesis 解决了 LLM 生成 3D 场景时"物体悬浮、穿透、比例失调"的空间物理一致性问题,在游戏、VR、具身AI三个场景同时取得 SOTA,是多模态生成从"能看能用"到"能用且真实"的分水岭。
• 架构亮点:LLM 负责粗粒度场景布局(prompt → 结构),视觉模块负责细化物体位置(图像引导 + 优化),最终由判别器检验空间连贯性——三层分工避免了单模型在几何和语义上的双重失效。 • 具身AI 的数据生产意义:具身智能训练严重缺乏物理真实的 3D 环境数据,Scenethesis 提供了一种可规模化生成高质量仿真场景的路径,直接降低具身机器人的训练数据成本。 • 游戏/VR 商业化先行:在具身AI落地尚早的背景下,游戏和 VR 场景将优先受益,NVIDIA 在生成式 AI 应用层又多了一个可商业化的技术筹码。
Scenethesis 的真正价值不在于"LLM 能生成 3D 场景",而在于它验证了"语义规划 + 视觉修正 + 物理验证"这条多模块协作路径的正确性——这为未来具身AI的仿真数据工厂提供了架构范本。
wx-cli群聊总结工具:CLI正在成为个人AI工作流的「编排中间层」
向阳乔木 (@vista8)
核心判断:CLI工具在AI时代找到了新定位——不是替代GUI,而是成为工作流编排的可编程入口。
- 向阳乔木用wx-cli构建群聊总结工具,实现了每日的热点索引和URL/文件提取。这个用例的实质是:CLI工具在AI辅助下被快速改造为特定场景的自动化管道。
- 关键不在工具本身,而在这个模式的可复制性:当CLI工具的可组合性遇上AI的快速定制能力,个人开发者可以在几天内构建出原本需要团队开发的工作流工具。
gakki锐评: 这个用例印证了一个趋势——CLI正在从「极客专属」变成「个人AI工作流的组装基础件」。但这条推文本身信息增量有限,属于「有趋势印证、无观点突破」的类型。