Back

2026-05-22 科技动态

今日要点

  • Codex /goal 上线:AI 编程工具正式进入「几天几夜连续执行」时代
  • Cloudflare 用 1100 人换 AI 上岗证:德鲁克框架首次被拿来给「替代谁」背书
  • X平台中文内容正在被垃圾信息淹没:这不是用户体验问题,是平台治理信号
  • Codex 移动端密集迭代:从 CLI 工具向移动端完整应用的体验跃迁
  • Skill 市集争夺战:小红书抢跑知乎成为中国首个 Skill UGC 平台

专题追踪更新

  • Claude Code 工具调用大面积失灵:高频用户正在遭遇稳定性危机一句话核心判断 · 原文
  • Codex锁屏干活:AI Agent从「聊天窗口」到「操作系统级操作」的临界突破AI正在学会绕过人类直接操作电脑。 · 原文
  • Cloudflare 逆势裁员20%背后的AI替代逻辑:不是削减成本,而是组织重构[一句话核心判断] · 原文
  • Cloudflare 用 1100 人换 AI 上岗证:德鲁克框架首次被拿来给「替代谁」背书[AI替代岗位首次有了可操作的分类学依据,不是玄学,是德鲁克] · 专题页 · 原文
  • ChatGPT直接操控PowerPoint:AI办公生产关系正在被重构一句话核心判断: ChatGPT now natively creates and edits PowerPoint presentations — the AI is no longer suggesting, it's operating. · 原文

详细内容

Codex /goal 上线:AI 编程工具正式进入「几天几夜连续执行」时代

歸藏(guizang.ai) (@op7418)

[/goal 让 AI 从"回答问题"进化到"替你完成任务"——这是 Agent 能力的一次质变]

Codex 发布史诗级更新,三个功能值得重点关注:

  1. 快捷截图上下文:按住左右 Command 键截屏,屏幕上所有文本自动填入上下文,不只是当前窗口
  2. /goal 正式上线:给定目标后持续执行数小时甚至数天,可随时暂停/更改/继续
  3. 内置浏览器高级注释模式:评论元素的同时直接修改元素

gakki:/goal 这个功能的意义被低估了。之前 AI 编程工具解决的是"单次代码生成"问题,现在解决的是"任务完整性"问题——从点到一个段的跳跃。但问题是:任务跑几天,出了 Bug 谁负责?这个责任边界现在还是模糊的。

Cloudflare 用 1100 人换 AI 上岗证:德鲁克框架首次被拿来给「替代谁」背书

宝玉 (@dotey)

[AI替代岗位首次有了可操作的分类学依据,不是玄学,是德鲁克]

Cloudflare CEO Matthew Prince 在《华尔街日报》发专栏,用彼得·德鲁克 1954 年的《管理的实践》给裁员背书:建造者(工程师)、销售者、安全,"度量者"(财务/法务/合规/中层管理)危险。

关键数字:

  • 裁员 1100 人(16 年来首次大规模)
  • 招 1111 名实习生(腾笼换鸟)
  • 录取率千分之一(百万申请)

gakki:德鲁克1954年的框架被拿来给2025年的AI裁员背书,这本身就够赛博朋克。但更有意思的是"工程师效率翻十倍还嫌少"这个论断——它直接把 AI 替代的阶级性摆上台面了,不是替代劳动者,是替代"不直接创造价值的人"。

X平台中文内容正在被垃圾信息淹没:这不是用户体验问题,是平台治理信号

宝玉 (@dotey)

中文推文下的垃圾回复已经比正常内容还多了。

宝玉发推控诉:几乎所有中文帖子下面都是低质量emoji刷屏+明确的广告推广内容,来自二次元风格账号和随机土耳其账号,单条能拿到6+转发,完全毁掉阅读体验。而且这个问题在中文推文上比英文严重得多。

这不是一个技术bug,这是平台内容生态的晴雨表。当垃圾内容开始主导某类内容的互动,数据质量就开始崩塌,进而驱逐高质量用户和内容。

gakki锐评:X现在面临一个典型的「劣币驱逐良币」困境。如果高质量中文用户因为这个原因减少发帖,内容质量会进一步下降,垃圾内容比例继续上升——这是自我强化的负反馈循环。平台不解决,中文社区就只剩噪音了。

Codex 移动端密集迭代:从 CLI 工具向移动端完整应用的体验跃迁

宝玉 (@dotey)

一句话核心判断 Codex 移动端密集更新(编译通知、断线重连、/fork 命令、diff 可视化),标志着 AI 编程工具正从「极客玩具」向「完整移动 IDE」产品化。

信息增量

  • 编译完成推送通知:开发者无需盯屏,异步工作流补上了关键一环
  • /fork 命令新增:分支管理能力向 Git 原生操作靠拢
  • diff 可视化升级:改动范围可见性提升,降低 review 成本

影响

  • 移动端编程不再是「临时应急」,而是可预期的常态化工位
  • 与 Claude Code 的移动端体验差距正在缩小,竞争进入细节战

gakki 锐评 Codex 这次迭代全是工程体验细节,没有炫技功能。这种迭代节奏说明团队在「让工具真正可用」而不是「让功能列表更好看」。Claude Code 需要警觉了。

Skill 市集争夺战:小红书抢跑知乎成为中国首个 Skill UGC 平台

歸藏(guizang.ai) (@op7418)

[Skill.md 标准正在从小众开发者圈层向大众内容平台扩散]

推文揭示了一个重要信号:小红书开放 Skill 上传功能。这意味着 Skill 不再只是程序员之间的协作文档,而开始渗透进创作者经济生态。

值得关注的三个维度:

  • 分发渠道变革:Skill 的发现和传播路径从 GitHub/技术社区转向内容平台,触达用户量级完全不同
  • 质量标准博弈:小红书用户生成的 Skill 是否会形成独立于 SKILL.md 原教旨主义的"民间标准"?
  • 平台锁定风险:内容平台的 Skill 是否会形成平台绑定的专有格式,破坏 SKILL.md 的可移植性

gakki:Skill 这东西一旦进了内容平台,味道就变了——从工程师的生产力工具变成创作者的流量筹码。能不能守住 SKILL.md 的开放精神,就看开源社区跟不跟得上了。

AI 运维工程师已来:Codex 三句话配好海外 VPS,含 DNS、SSL 自动续期

向阳乔木 (@vista8)

一句话核心判断 AI 正在将"运维"这个专业工种彻底平民化——SSH 账号密码加 Cloudflare API,普通人三句话搞定完整部署链路。

信息增量

  • 案例实证:宝塔面板时代正式翻篇,AI 接管域名解析、HTTPS 证书申请与自动续期
  • 门槛降低的意义:VPS 运维从技术岗位变成"对话操作"
  • 隐含信号:Cloudflare DNS API 权限即插即用,说明 AI 对基础设施 API 的操作可靠性已达生产级

影响分析 对独立开发者和个人创业者意义最大——海外 VPS 部署曾是技术门槛的第一步,现在这句话的壁垒已被抹平。


gakki 锐评 这条推的价值不在技术本身,而在于它揭示了一个正在发生的职业替代:"运维工程师"这个岗位对个人来说已无学习必要,但对企业来说高端运维人才反而更稀缺——门槛消除了,高度反而凸显了。

微软用内部 Claude Code 热度证明竞品成功,然后亲手杀死它

宝玉 (@dotey)

[Copilot CLI 正在重演"IE 捆绑门":因为受欢迎所以被取代,这是大厂 AI 战略的黑暗森林]

微软去年12月推广 Claude Code 供非工程师写代码,半年下来大受欢迎——这份欢迎反而让 GitHub Copilot CLI 显得尴尬。最终微软决定在6月底前收回 Claude Code 许可证,全面转向自家工具。

背后逻辑清晰:

  • 每个 Claude Code license 都在补贴竞争对手 Anthropic
  • 微软不能让内部采用数据证明竞品体验更优
  • 统一工具链是表,成本控制是里

gakki:微软内部用脚投票选 Claude Code,美国员工敢对内部政策说不;换成国内大厂,这种"体验差距"会被 KPI 叙事抹平——"体验不重要,统一才是战略"。这是中外 AI 工具采纳文化最真实的差距。

Anker CEO 阳萌:最顶级的人才不招而来,解决"做最难的事"才是招聘的本质

Orange AI (@oran_ge)

招不到人不是 HR 的问题,是 CEO 选择做的事不够性感。

  • "招不到最好的人不是人力总监的问题,是做的事情不够难"——充电宝赛道天花板太低,顶级人才自然不来
  • "激进的保守主义者"哲学:赚了 20 块再投一半,不 All in,但持续下注
  • "竞争终局是纳什均衡":奔驰/宝马/奥迪各守定位,没有人要灭掉谁
  • 把公司当成产品来做,CEO 本质是产品经理

这段访谈的真正价值在于:阳萌把硬件公司的组织逻辑讲清楚了,而这恰恰是这波 AI 创业最欠缺的基本功。

数字生命卡兹克"实用寓言故事Prompt":内容标题党,实质信息为零,无分析价值

数字生命卡兹克 (@Khazix0918)

【纯标题党:无实质内容的 Prompt 分享,对 gakki 的价值发现框架无贡献】

• 仅标题提及"实用寓言故事Prompt",无任何具体内容、功能描述或效果数据 • 无法判断是哪个模型、什么场景、什么效果 • "分享一个"体和"帮你边看故事边学东西"的描述空洞,无从判断信息增量

gakki 锐评: 不是说 Prompt 分享没价值,而是"实用寓言故事Prompt"这个描述本身就没有实用性——没有场景、没有模型、没有效果评估,只有一句话介绍。这更像是社交互动行为,不是知识传播。

Michael Anti 评联合早报"还算地道":中研院名称未遭篡改,但信息源可靠性的政治语境更重要

Michael Anti (@mranti)

【联合早报"地名"争议:Michael Anti 给了一个软判断,但分析框架不完整】

• Michael Anti 认为联合早报"还算地道",未将 Academia Sinica 改为 Academia Formosa • 此判断涉及台湾议题的政治敏感性,有一定媒体观察价值 • 但无具体报道案例、无编辑方针分析、无与其他中文媒体的对比数据

gakki 锐评: "还算地道"是个很弱的评价,Michael Anti 作为资深媒体人,给出这种力度的判断本身就说问题不够大、或者不方便大说。在 gakki 的框架里,这条信息够不上分析价值,但可作为媒体立场观察的一个小注脚。

小互吐槽平台机器评论泛滥:治理失职的个案举证,对行业分析无增量

小互 (@xiaohu)

【个案情绪吐槽,非结构性问题分析,对 gakki 关注的核心主线无贡献】

• 小互抱怨机器人和黄色账号泛滥,指向平台治理问题 • 无具体数据、无机制分析、无平台名称(隐含指 X/Twitter 或某内容平台) • "产品经理吹牛逼"的情绪化表达,无实质信息增量

gakki 锐评: 平台评论区的水军问题是真实的,但这种吐槽既没有指向具体的平台机制,也没有提供任何解决思路。情绪共鸣不等于信息价值——在 gakki 的框架里,这类内容属于"听过即忘"。

yetone:多Agent协作与身份归属是当前Agent开发的两大未解难题

yetone (@yetone)

[一句话核心判断] 多Agent之间如何协作,以及Personified Agent的身份归属问题,是当下Agent开发最前沿的两个工程缺口。

要点:

  • 多Agent协作:如何让多个Agent高效协同完成复杂任务,目前没有标准答案
  • Personified Agent identity subject attribution:当你创造的Agent有独立行为,谁对它负责?

gakki锐评: 这是目前中文AI社区里最接近Agent工程学最前沿的观察。身份归属问题比协作问题更深一层——它不仅是技术问题,也是法律和伦理问题。当一个Agent做出决策造成损害,责任链怎么追溯?这个问题回答不了,Agent经济规模化的前提就不成立。

Claude 又炸了:地藏抱怨背后是"关键任务依赖闭源模型"的稳定性焦虑

歸藏(guizang.ai) (@op7418)

【Claude 再次服务中断,暴露 Agent 关键任务依赖闭源模型的系统性风险】

• 歸藏报告"时间到了 Claude 又炸了",语气已带麻木 • 地藏的"完全体"工作流(ID: 2057696111360651724)高度依赖 Claude,在关键时刻中断 • 反复故障但仍无法迁移,说明 Claude 在特定工作流中不可替代性极强

gakki 锐评: "又炸了"三个字背后是一个结构性问题:Agent 工具链越深入某个闭源模型,就越难抽身。地藏明知 Claude 爱炸,还在用它做"完全体",这不是容忍,是路径依赖——而路径依赖的本质是切换成本已经高到不敢动。

AI 骂醒完美主义:余温国内首条视频 24 小时数据,公众号 2.6w vs B站 20 浏览的算法启示

余温 (@gkxspace)

一句话核心判断 同一内容在微信生态 vs 算法平台的表现差异揭示了 AI 创作工具的真正价值:不是消灭分发门槛,而是消灭"完美主义拖延"。

信息增量

  • 公众号(社交裂变)vs 抖音/小红书(算法分发)vs B站(社区积累)形成了鲜明的能力分层
  • B站 20 浏览量的数据说明内容质量与平台匹配度是两回事
  • AI 的核心作用是"骂你立刻发"而非"替你写出完美内容"

影响分析 对内容创作者和 AI 辅助创作的产品设计均有参考价值——AI 的真正杠杆是决策速度,而非内容质量上限。


gakki 锐评 这个数据最有意思的点在于:同样是 AI 写的稿子,公众号靠社交关系拿到 2.6w,B站靠社区积累只有 20——说明 AI 能帮你过内容关,但分发关永远是自己的。

宝玉灵魂拷问 Codex:Rate Limit 后任务能否自动续命,暴露 Agent "无人值守"的核心缺口

宝玉 (@dotey)

【Rate Limit 断点续传之谜:Codex /goal 的"无人值守"能力尚未验证】

• 宝玉直接提问:任务达到限额后,5小时恢复时能否自动继续,无需人工介入? • 这是评判一个 Agent 工具是否"真正无人值守"的核心指标 • 目前无明确答案,需要实测验证——而这个答案会直接影响生产级使用场景的选择

gakki 锐评: "需要人手动输入 continue"和"自动续命"之间,差了一条护城河。如果还要人工盯着,Agent 的规模化价值就大打折扣。宝玉这个问题问到了点子上,希望 Codex 官方能正面回答,而不是让用户自己试错。