Back

2026-05-21 科技动态

今日要点

  • Codex官方团队分享极致用法:终端编程进入「监工模式」实操指南
  • Rodin Gen-2.5:千万级面数3D生成首次落地,生产力工具断言兑现
  • 美国大学典礼集体嘘 AI:精英叙事与大众恐惧的裂缝正在撕裂
  • Codex「Steer」中断干预:让AI编程从「跑完再说」变成「随时纠偏」
  • 特斯拉FSD官宣入华:一条「测试版鲶鱼」搅动中国智驾格局

专题追踪更新

  • DeepSeek 公开招募 Agent 产品与研发:战略重心转移的明确信号一句话:DeepSeek 此前以模型性能著称,现在开始建Agent团队,意味着开源模型厂商的角色从"供芯片"转向"下场做应用",这是今年最值得关注的格局变量之一。 · 原文
  • 欧洲正在形成「China Shock 2.0」叙事:欧盟对华经济政策酝酿根本性转向[欧洲已将「中国冲击」视为结构性威胁,而非周期性问题] · 专题页 · 原文
  • OpenAI 递交 IPO 申请:一场蓄谋已久的「上岸」信号[一级市场融资已触及天花板,二级市场成为唯一出口] · 原文
  • 美国大学典礼集体嘘 AI:精英叙事与大众恐惧的裂缝正在撕裂[一句话核心判断] · 专题页 · 原文
  • 70 岁阿姨 16 万行代码与胡彦斌 vibe coding:AI 渗透率正在越过「感知阈值」【AI 渗透率爆表的临界信号:老人用系统做公益网站,明星用 vibe coding 写 APP 内测】 · 原文

详细内容

Codex官方团队分享极致用法:终端编程进入「监工模式」实操指南

宝玉 (@dotey)

【一句话核心判断】 Codex 官方团队终于亲自下场教用法,终端编程的「监工模式」正在从极客玩具走向标准化工作流。

信息增量:

  • 官方背书的最佳实践具有权威性,意味着 OpenAI 已将 Codex CLI 定位为可规模化的编程基础设施而非实验性玩具
  • 结合之前「手机端编程」演示视频,Codex 正在构建「本地为主、云端为辅」的分布式编程范式
  • 这类官方指南的发布通常是大规模推广的前奏

gakki 锐评: 监工模式普及的真正信号不是工具本身,而是 OpenAI 终于承认:大多数开发者不会整天 on call 一个 AI,真正的价值在于后台沉淀而非前台互动。

Rodin Gen-2.5:千万级面数3D生成首次落地,生产力工具断言兑现

向阳乔木 (@vista8)

一句话:3D资产生成正式跨越"玩具"门槛进入工业级可用阶段,面数、材质、格式覆盖一次性解决,游戏/动画/影视的工作流压缩到一张图。

要点:

  • 原生3D贴图算法+千万级面数,首次对标专业DCC工具的精度需求
  • 一键输出obj/fbx/glb+贴图,可无缝切入现有制作管线
  • 指向一个趋势:AIGC在垂直赛道(3D/视频/代码)正在比通用助手更快达到"可用"临界点

gakki 的锐评:3D生成比文本生成更难,但比通用Agent更容易标准化——这个赛道会先于Agent生态完成商业闭环,因为买单方清晰(工作室、CP)。

美国大学典礼集体嘘 AI:精英叙事与大众恐惧的裂缝正在撕裂

宝玉 (@dotey)

[一句话核心判断] 当 Eric Schmidt 把 AI 比作"火箭船船票"时,台下的嘘声证明"AI 改变世界"这套精英话术对普通人已经失效——他们在嘘的不是技术,是说这话的人。

信息增量: • Eric Schmidt、中佛罗里达地产高管、Big Machine Records CEO 均在毕业典礼上遭嘘,"接受现实吧"类话术激起最强烈反弹 • Gallup 调查显示美国人 AI 兴奋度下降、愤怒上升,这批毕业生正处于就业焦虑与 AI 裁员叙事的第一线 • 被嘘嘉宾无一例外是"推动变革也从中受益"的阶层,这种身份矛盾是嘘声的真正燃料

gakki 锐评:这不是"AI 宣传失败",而是叙事主体性危机——说 AI 机会无限的人必须先承认自己也参与了代价,否则嘘声只会越来越大。

Codex「Steer」中断干预:让AI编程从「跑完再说」变成「随时纠偏」

宝玉 (@dotey)

一线从业者的真实效率差异不在模型,在交互范式。

Codex的Steer机制(Shift+Enter)允许在Agent工具调用间隙中途插入指令,无需手动停止再重启,指令直接注入下一轮上下文——这是对传统CLI工具「打断-重填-继续」流程的结构性优化。Queue机制则支持任务排队,避免长任务中途停止,宝玉睡觉前批量填入「Continue」消息让Agent跑完整夜的用法,本质是把Agent当作7×24小时的「算力矿工」。

两个功能叠加,Codex从单次调用的工具正在演变为后台持续运行的私人Coding Agent。

gakki:Steer解决的是「人在回路」的实时干预问题,Queue解决的是「无人值守」的批量执行问题——这两个功能的组合暴露了当前AI编程工具的核心矛盾:模型能力已经溢出,但交互范式还在婴儿期。

特斯拉FSD官宣入华:一条「测试版鲶鱼」搅动中国智驾格局

小互 (@xiaohu)

一句话核心判断:FSD以不完全体进入中国大陆,短期内是数据管道,长期是政策博弈的筹码。

• FSD官方宣布进入大陆,但以「监督」模式运行,数据回传机制是关键焦点。 • 中国高精地图限制使FSD能力受限,实际体验能否匹敌国内头部玩家存疑。 • 对国内智驾厂商而言,FSD入华更像是一次压力测试——用户会直接比较。

gakki锐评:FSD来了,但「带着镣铐跳舞」的特斯拉,能在中国市场证明它的算法溢价吗?国内厂商真正的护城河从来不是技术,是政策。

AI 时代 T 型开发者能力模型:GenAI 是通用底层技能,核心工程能力反而要更深

宝玉 (@dotey)

宝玉转发了 AI 时代 T 型开发者能力图谱。(一)GenAI 应用横跨 T 字顶端,已成为所有开发者的通用底层能力;(|)核心软件工程技能是竖线,有 AI 加持反而要更深;(-)相邻工程领域与非工程领域构成左右横线,需要更广但可以借助 AI 快速拓宽边界。

这个框架的价值在于:它明确拒绝了"AI 可以替代专业深度"的幻觉,同时承认 AI 对广度的放大效应。

DeepSeek 公开招募 Agent 产品与研发:战略重心转移的明确信号

宝玉 (@dotey)

一句话:DeepSeek 此前以模型性能著称,现在开始建Agent团队,意味着开源模型厂商的角色从"供芯片"转向"下场做应用",这是今年最值得关注的格局变量之一。

要点:

  • 招募PM+研发,规格指向产品化团队正在组建,而非停留在API供应
  • 结合DeepSeek开源策略,Agent产品大概率会复用开源生态的打法
  • 对标OpenAI、Anthropic的Agent平台战略,DeepSeek入局意味着中国AI厂商正式进入Agent平台战

gakki 的锐评:DeepSeek的护城河是模型性价比,但如果All in Agent平台,性价比护城河最脆弱——基础设施玩家转身做应用,基因冲突是真实的。

Michael Anti转发特德·姜:科幻已死,新闻来了

Michael Anti (@mranti)

一句话核心判断:当科幻作家Ted Chiang的作品开始被标注为「新闻报道」,意味着AI发展的现实已经跑赢了虚构的想象力。

• Michael Anti公开推荐Ted Chiang的科幻小说,并断言它已经越过了虚构与现实的边界。 • 这一判断指向一个更大的文化信号:AI从业者的叙事正在被现实反向书写,想象力成了稀缺品。

gakki锐评:这是AI圈的一次集体自我意识过剩——把科幻当新闻不是因为科幻太准,而是因为从业者已经不敢想象别的未来了。

歸藏五线并进:Code Pilot重载、墨水屏Skill、PPT视频流水线三连发

歸藏(guizang.ai) (@op7418)

一句话核心判断:歸藏的项目矩阵正在从「单点Skill」向「Skill流水线」进化,内容工业化链路初现。

• Code Pilot重构即将完成,墨水屏Skills进入收尾,PPT→HTML→视频的自动化链路正在进行。 • PPT Skills同时支撑小红书封面、微信图文封面的多形态内容生成,说明Skill复用正在从工具层向内容层渗透。 • 多项目并行推进,但核心都是围绕「PPT Skills」这一轴心展开的横向扩张。

gakki锐评:Skill正在成为内容工业化的「数字模具」——一个核心Skill派生多条生产线,这可能是AI时代内容创业的最小阻力路径。

OpenAI 通用推理模型自主攻克 80 年数学难题:足够强的推理能力到了阈值后创造性自然涌现

Orange AI (@oran_ge)

**OpenAI 内部通用推理模型解开了 Erdos 1946 年提出的平面单位距离问题,chain of thought 长 125 页。核心手法是从代数数论引入工具解离散几何问题——这个跨领域连接是人类 80 年没想到的。更重要的是:此模型并非专门为数学训练,是通用推理模型。

这意味着 AI 能力的跃升不是通过专项训练实现的,而是足够强的通用推理能力突破某个阈值后,创造性作为涌现特性自然出现。这重新定义了"AI 创造力"的边界。

做产品是工程问题,能赚钱是商业问题——AI只解决了前半段

Orange AI (@oran_ge)

一句话核心判断:独立开发者的「赚钱困境」被Orange AI一句话点破——AI已经可以造产品,但无法替你完成「卖出去」这件事。

• AI几乎解决了「造产品」的工程问题,但「卖出去」需要的商业判断、用户获取、信任建立,AI还没入门。 • 「有产品=能赚钱」是思想钢印——能赚钱的人怎么都能赚钱,不依赖某个特定产品。 • vibe coding时代,看到别人做出产品不要急着问收入,问了反而暴露你对商业闭环的认知空白。

gakki锐评:当AI把工程壁垒压到趋近于零时,商业能力的溢价才真正开始重估。这是独立开发者最容易被忽视的盲区。

豆包的「胜利之痛」:800万智能体下架后,留存纹丝不动

Orange AI (@oran_ge)

一句话核心判断:豆包用一次失败的智能体下架实验证明了一个反直觉事实——多bot策略是幻觉,用户只认主智能体。

• 豆包曾在2024年5月宣称拥有800万个智能体,后续全量下架测试后发现:用户活跃与留存没有任何波动——证明其余智能体全部是僵尸流量。 • 团队曾病急乱投医,想借抖音短视频做内容推荐提升留存,被内部否决。抖音单用户日均120分钟,而豆包稳定在10分钟以内,差距悬殊。 • 豆包赢下了AI chatbot这一仗,但这场胜利的商业价值仍是未知数。

gakki锐评:多bot等于无bot——当每个智能体都无法独立留存用户时,所谓的「智能体生态」只是数字基建的自嗨。豆包的实验撕掉了行业一个集体谎言。

Agent App顶部Tab设计:无侧边栏的内存代价与产品哲学分歧

宝玉 (@dotey)

一句话:宝玉指出了Tab式Agent App的隐性成本——多会话常驻内存 vs 侧边栏切换销毁的效率差异,这是Agent产品设计中容易被忽略的系统性权衡。

要点:

  • 侧边栏切换默认只保留一个全局会话,内存可回收;Tab常驻则所有会话状态都保留
  • 内存占用与"可恢复的上下文"之间的取舍,本质是产品哲学问题而非技术问题
  • 这个讨论指向一个更大的问题:Agent App的"多任务"语义还远未定义清楚

gakki 的锐评:内存管理是Agent产品最诚实的用户体验——愿意为上下文连续性付出内存代价的用户,和追求效率轻量的用户,是两个完全不同的用户群。

Suno Skill新增6000个音乐风格检索:开源工作流补完的最后一公里

向阳乔木 (@vista8)

一句话核心判断:向阳乔木的Suno Skill升级意味着AI音乐创作正在从「能生成」进化到「能精准生成」。

• 新增近6000个音乐风格标签检索,精准度大幅提升。 • 集成谷歌CDP刷新登录Token,实现完全后台化——用户无需打开网站即可创作。 • 开源+Skill化的路径正在为AI音乐建立一套可复用的工程标准。

gakki锐评:6000个标签不是噱头,是精准度的量变到质变。当AI音乐能从「随便生成」升级到「指定风格」时,专业创作者的使用门槛才真正下降。

墨水屏+AI:硬件分形时代"最小可用AI设备"的新物种

歸藏(guizang.ai) (@op7418)

一句话:歸藏发现了墨水屏硬件最反直觉的AI场景——关机时当名片,开机时当信息看板,零功耗常驻特性恰好匹配AI推送的低交互需求。

要点:

  • 关机显示名片=墨水屏静态常显的天然优势,AI不需要介入这一层
  • 开机推送To-do/日历=AI信息推送的最小功耗展示面
  • 这个组合说明:AI硬件的机会不在替代手机,而在"分形"——嵌入各种已有设备

gakki 的锐评:墨水屏做AI硬件的本质是"低焦虑信息展示",和AI的主动推送逻辑天然契合。这个场景比任何"AI平板"都更诚实。