2026-05-16 科技动态

今日要点

AI接管编码后，Sublime重回视野：工具选型逻辑正在从「功能堆叠」转向「资源效率」
Computer Use 大面积翻车：全行业只有两家的实现能后台跑通「开网易云播放今日推荐」
DeepSeek 正式下场做 Harness：Agent 产品经理招募背后的战略意图
Anthropic 官方 Claude Code 101 上线：9 节官方课覆盖全链路，沉浸式翻译直接看
Forward Deployed Engineer：AI 时代最稀缺的新岗位，到底是什么

专题追踪更新

本地模型动态分级路由：把 opus 和 gpt 接入 AGI 工具链的工程答案：本地小模型对请求进行极速向量化和任务复杂度判断，将简单/中等/复杂任务分发至对应层级模型。 · 原文
OpenSquilla 用 Python 重写小龙虾：路由层让 Opus 4.7 成本从 6 美元跌到 6 毛 8：[本地路由器做模型路由层，复杂任务才上 Opus，便宜模型扛简单任务，成本差 10 倍] · 专题页 · 原文
ChatGPT绑定银行账户：美国金融AI执行时代的序曲：一句话核心判断 · 专题页 · 原文
OpenAI 官宣：ChatGPT 和 Codex 合并成一个统一体验，Brockman 亲自带队：[OpenAI 内部权力重组，Greg Brockman 正式接管产品，ChatGPT+Codex+API 三线合一，Brockman 主内] · 专题页 · 原文
DeepSeek 正式下场做 Harness：Agent 产品经理招募背后的战略意图：[一句话核心判断] · 原文

详细内容

AI接管编码后，Sublime重回视野：工具选型逻辑正在从「功能堆叠」转向「资源效率」

宝玉 (@dotey)

核心判断：当AI填补了编辑器的大部分功能缺口，选择标准从「能做什么」转向「消耗多少」。

宝玉从VSCode切回Sublime，内存从10GB+降至300MB，核心触发点是「基本不用手写代码」——VSCode那些为手写代码设计的功能（IntelliSense、Debugger、Extension生态）在AI辅助编程时代变成了冗余开销。
这不是个案，Zed、Helix等轻量编辑器的活跃增长，本质上都是同一个范式转移的侧影：当模型负责「做什么」，人类只负责「审什么」，编辑器只需要做好文件编辑+语法高亮就够了。

Sublime 300MB vs VSCode 10GB的对比，撕开了AI时代开发者工具选择的一个隐秘逻辑：功能复杂度不再是护城河，资源效率反而成了新竞争优势。

gakki锐评： 这个变化目前还停留在开发者个人偏好层面，但随着AI生成代码的质量继续提升，「轻量编辑器+强AI」会逐步成为主流配置，VSCode的护城河（Extension生态）将被应用商店逻辑反向侵蚀——工具链越长，模型越强，冗余功能越明显。

查看原文❤️ 91 · 🔄 7 · 💬 52

Computer Use 大面积翻车：全行业只有两家的实现能后台跑通「开网易云播放今日推荐」

yetone (@yetone)

[计算机使用能力评测，只有 Alma 和 Codex 真正跑通了一个日常任务]

yetone 测试了众多产品的 Computer Use 能力，发现绝大部分产品在后台模式下无法完成「打开网易云音乐→播放今日推荐」这个看似简单的任务。目前只有 Alma 的 Computer Use 和 Codex 的 Computer Use 能成功执行。

这个测试结果比任何 benchmark 更有说服力——它测的是「真实任务的端到端完成率」，而不是 token 消耗或评测分数。

gakki：Computer Use 赛道目前是「概念热、落地冷」。大部分实现停留在 Demo 级别，能稳定跑通真实日常任务的只有两家用工成本换质量，Alma 的身份值得关注。

查看原文❤️ 86 · 🔄 3 · 💬 15

DeepSeek 正式下场做 Harness：Agent 产品经理招募背后的战略意图

宝玉 (@dotey)

[一句话核心判断]

DeepSeek 正在把"Harness"（模型能力与用户之间的工程层）作为 Agent 产品化的核心抓手，其桌面端 Agent 将是行业第一个真正以"Harness"命名并系统性实践的产品。

• Harness 的定义边界：招股说明中明确"模型以外的所有工作都属于 Harness"，包括提示词工程、记忆管理、工具编排、多轮对话控制等——这是行业第一次把 Harness 作为独立产品域来招聘。 • 内部落地优先级：明确提出以内部真实任务作为 Harness 产品和模型训练的反馈源，形成模型与工程层的共同进化闭环，而非依赖外部用户反馈。 • 开源社区定位：要求维护开源社区，这意味着 DeepSeek 的 Harness 策略可能走开源路线，与 Anthropic、OpenAI 的封闭模式形成差异化。

HarnessPM 这个职位描述本质上是一份 Agent 产品化的宣言书——它把"模型能力"和"工程层"的关系定义为 1:1 的平等贡献，而不是传统的"模型负责智能，工程负责包装"的从属关系。

查看原文❤️ 69 · 🔄 8 · 💬 16

Anthropic 官方 Claude Code 101 上线：9 节官方课覆盖全链路，沉浸式翻译直接看

歸藏(guizang.ai) (@op7418)

[Anthropic 出官方教程了，内容覆盖安装、底层原理、提示词、MCP、Hooks、上下文管理]

课程内容：Claude Code 是什么→如何安装→底层工作方式→写第一个高质量提示词→Claude.md 是什么→Explore/Plan/Code 模式→MCP→如何管理上下文→Hooks。

课程地址已公开，搭配沉浸式翻译插件可直接食用。这是 Anthropic 第一次系统性做 Claude Code 官方教育投入。

gakki：Anthropic 正在做 Google 当年对 Android 做的事——用官方教程建立开发者心智。覆盖这么完整，第三方教程作者的空间会被压缩。

查看原文❤️ 46 · 🔄 6 · 💬 11

Forward Deployed Engineer：AI 时代最稀缺的新岗位，到底是什么

宝玉 (@dotey)

[FDE 成为 AI 时代新宠，核心能力是「在客户现场用 AI 工具解决真实问题」而非纯开发]

Forward Deployed Engineer 这个职位在 AI 时代被重新定义——不再是传统意义的现场部署工程师，而是能在客户真实工作流里快速集成 AI 能力、解决端到端问题的人。

这个岗位的稀缺性在于：既要有工程能力，又要有 AI 产品感知，还要能蹲现场。

gakki：FDE 崛起背后是一个更大的趋势——AI 落地最后一公里的问题不是靠 API 调用解决的，是靠人蹲在现场调出来的。这和「AI 工程纪律瓶颈」是同一枚硬币的两面。

查看原文❤️ 27 · 🔄 6 · 💬 5

PPT Skills自动化截图美化：工具链内化正在减少对GPT-Image的依赖

歸藏(guizang.ai) (@op7418)

核心判断：垂直工作流的AI工具正在把外部API调用内化为本地逻辑，成本和延迟都在下降。

藏师傅PPT Skills更新了截图美化逻辑：自动根据截图尺寸、长宽比、PPT模板类型选择背景模板，并处理裁剪/并排等边界情况——全程无需GPT-Image 2.0 API调用。
这是个典型的「工具链工程化」信号：不是等上游模型降价，而是自己把调用路径改掉。相当于在模型层之下又加了一层流程自动化，把AI能力封装成更细粒度的可复用单元。

从PPT Skills的迭代方向看，AI工具正在从「调用大模型」向「编排小流程」演进——这才是技能商品化的真实路径，不是简单地把提示词打包成GPTs。

gakki锐评： 内化调用、减少外部依赖，本质上是在AI能力上叠工程化。这条路走通了的团队，会比纯靠API调用的团队在成本控制和响应稳定性上有显著优势——特别是在高频调用场景里。

查看原文❤️ 25 · 🔄 1 · 💬 7

Zed获宝玉验证：轻量编辑器的「Token共用」机制正在解决多平台协作的隐性摩擦

宝玉 (@dotey)

核心判断：轻量编辑器的竞争维度正在从「性能」扩展到「账户体系」，多平台Token共享成了新的差异化点。

宝玉实测Zed：内存占用小，且能登录OpenAI和GitHub账户体系，共用Token——这解决了一个实际痛点：在多设备/多工具间切换时，不再需要反复管理API Key。
这是个产品细节，但指向了一个更大的问题：在AI编程工具爆发之前，账户和计费的割裂是真实存在的摩擦点。能统一这个摩擦的工具会获得更高的日活留存。

gakki锐评： Token共用本质上是账户抽象层的优化，属于「次要摩擦」的消除。这个信号的重要性依赖于AI编程工具的日活规模——规模越大，这类细节体验的分量就越重。目前还是个 niche 的改进。

查看原文❤️ 19 · 🔄 2 · 💬 4

OpenSquilla 用 Python 重写小龙虾：路由层让 Opus 4.7 成本从 6 美元跌到 6 毛 8

小互 (@xiaohu)

[本地路由器做模型路由层，复杂任务才上 Opus，便宜模型扛简单任务，成本差 10 倍]

同一个测试集跑分 0.9251 vs 0.9255（对标 OpenClaw），但核心思路是把「模型选择权」从 Agent 框架层下放到一个本地路由器：简单任务自动路由到国产便宜模型，Opus 4.7 只处理真正需要它的复杂推理。

四层记忆（手头任务/历史任务/知识规则/原始日志）+ 按需添加工具（16 个自带工具）+ 三档代码沙箱安全隔离，是工程实现层面的关键设计。

gakki：这是第一个把「模型路由」做成生产级开源方案的案例，不是概念演示。如果路由层判断准确率能稳定，10 倍成本差会成为中小团队跑小龙虾的标配架构。

查看原文❤️ 16 · 🔄 2 · 💬 6

OpenAI 官宣：ChatGPT 和 Codex 合并成一个统一体验，Brockman 亲自带队

宝玉 (@dotey)

[OpenAI 内部权力重组，Greg Brockman 正式接管产品，ChatGPT+Codex+API 三线合一，Brockman 主内]

这是 OpenAI 史上第二次重要产品整合。Tibo（Codex 原负责人）升任核心产品和平台主管，Nick Turley 调岗企业改版。Greg Brockman 从临时接管变为正式执掌，且这次调整据说是和正在病休的 Fidji Simo 共同敲定的。

Codex 是 OpenAI 史上增长最快的产品之一，ChatGPT 是流量入口，两者合并意味着 OpenAI 正在从「产品矩阵」走向「统一超级入口」，编程能力和对话能力不再割裂。

gakki：Brockman 回归产品一线是重要信号——OpenAI 的战略优先级从研究扩散收敛到「产品力变现」，这对所有 AI Coding 工具都是竞争压力。

查看原文❤️ 15 · 🔄 1 · 💬 3

飛書 CLI 工具正式发布：用命令行直接操作飞书文档和工作流

歸藏(guizang.ai) (@op7418)

[飞书 CLI 工具发布，文档和 Workflow 开始进入命令行可编程时代]

开发者可以通过命令行直接操作飞书文档、管理工作流、自动化日常协作任务。这意味着飞书正在从「协作工具」变成「可编程平台」，对需要自动化飞书操作的团队有直接价值。

gakki：飞书 CLI 和飞书 MCP 是两条不同的路，前者面向 CLI 原住民，后者面向 Agent Native 场景。如果两个都能稳定维护，飞书会成为国内最值得集成的协作平台。

查看原文❤️ 9 · 🔄 1 · 💬 2

CHAI：卡内基梅隆×哈佛用专业 filmmaker 视觉基元重新定义视频字幕，Gemini 3.1 Pro 被超越

机器之心 JIQIZHIXIN (@jiqizhixin)

CHAI 用结构化视频语言重新定义 AI 视频理解。

数百个由专业 filmmaker 定义的视觉基元（visual primitives）构建了底层描述体系，而非让模型自由发挥。

训练流程引入「专家批判-模型迭代」闭环：专业字幕员反复校正 AI 输出，模型从中学习微妙的叙事语法。

结果：击败 Gemini 3.1 Pro，且能让 Wan 等视频生成模型遵循 400 词 prompt 指令——意味着字幕理解已开始反向驱动生成质量。

gakki：这条容易被归类为「学术论文」，但实质是视频理解-生成闭环的工程实证。当字幕不再是大模型的附庸，而成为可控的描述协议，这才是多模态工业化的真正信号。

查看原文❤️ 6 · 🔄 2 · 💬 0

yetone 修复 Sub2API Response API 严重漏洞：开源社区正在以代码审查代替平台背书

yetone (@yetone)

一句话核心判断：第三方 API 封装层的漏洞修复，暴露了开源 Agent 工具链的质量信任机制正在从平台认证转向社区代码审查。

yetone fork Sub2API 后发现并修复多个 bug，其中包括一个严重的 Response API 漏洞，凸显了非官方封装层的安全债务积累速度远超修复速度
开源修复路径（fork→修bug→PR）相比平台工单机制的效率差，正在成为 Agent 开发者群体的隐性税
严重 bug 的快速暴露与修复，验证了"公开代码 > 闭源审计"的社区假设，但同时也意味着企业级部署风险被低估

gakki 锐评：Sub2API 这类工具的本质是 Agent 生态的神经末梢——量大、脆弱、修复快。真正的危险不是某个 bug 被修复，而是企业用户在不知情的情况下将严重漏洞的修复周期误判为"已解决"。

查看原文❤️ 6 · 🔄 0 · 💬 0

Laser 论文：「先林后树」视觉推理路径让 token 消耗降低 97%，同时精度还更高

机器之心 JIQIZHIXIN (@jiqizhixin)

[森林先于树木：保持全局感再放大局部，97% 推理 token 降低]

来自 MBZUAI、复旦、人大、哈佛的研究者提出 Laser 方法，核心思路是「先林后树」推理——不是逐步文本推理，而是在放大局部细节前先保持全局图景理解，对齐隐状态与动态未来语义窗口。

在 6 个基准测试上平均超越 Monet 5%，推理 token 降低超过 97%，泛化能力优异。

gakki：97% 这个数字极其激进。如果复现成立，它直接击中了一个行业痛点——长视觉推理的 token 成本。这个方向和「视觉 token 效率优化」这个 subtopic 高度相关，可能是今年 CV 领域最值得跟踪的方法论之一。

查看原文❤️ 3 · 🔄 2 · 💬 0

NVIDIA Scenethesis：LLM 布局 + 视觉细化的 3D 场景生成，首次在游戏/VR/具身AI 三场景同时超越现有方法

机器之心 JIQIZHIXIN (@jiqizhixin)

[一句话核心判断]

Scenethesis 解决了 LLM 生成 3D 场景时"物体悬浮、穿透、比例失调"的空间物理一致性问题，在游戏、VR、具身AI三个场景同时取得 SOTA，是多模态生成从"能看能用"到"能用且真实"的分水岭。

• 架构亮点：LLM 负责粗粒度场景布局（prompt → 结构），视觉模块负责细化物体位置（图像引导 + 优化），最终由判别器检验空间连贯性——三层分工避免了单模型在几何和语义上的双重失效。 • 具身AI 的数据生产意义：具身智能训练严重缺乏物理真实的 3D 环境数据，Scenethesis 提供了一种可规模化生成高质量仿真场景的路径，直接降低具身机器人的训练数据成本。 • 游戏/VR 商业化先行：在具身AI落地尚早的背景下，游戏和 VR 场景将优先受益，NVIDIA 在生成式 AI 应用层又多了一个可商业化的技术筹码。

Scenethesis 的真正价值不在于"LLM 能生成 3D 场景"，而在于它验证了"语义规划 + 视觉修正 + 物理验证"这条多模块协作路径的正确性——这为未来具身AI的仿真数据工厂提供了架构范本。

查看原文❤️ 3 · 🔄 2 · 💬 1

wx-cli群聊总结工具：CLI正在成为个人AI工作流的「编排中间层」

向阳乔木 (@vista8)

核心判断：CLI工具在AI时代找到了新定位——不是替代GUI，而是成为工作流编排的可编程入口。

向阳乔木用wx-cli构建群聊总结工具，实现了每日的热点索引和URL/文件提取。这个用例的实质是：CLI工具在AI辅助下被快速改造为特定场景的自动化管道。
关键不在工具本身，而在这个模式的可复制性：当CLI工具的可组合性遇上AI的快速定制能力，个人开发者可以在几天内构建出原本需要团队开发的工作流工具。

gakki锐评： 这个用例印证了一个趋势——CLI正在从「极客专属」变成「个人AI工作流的组装基础件」。但这条推文本身信息增量有限，属于「有趋势印证、无观点突破」的类型。

查看原文❤️ 3 · 🔄 1 · 💬 2