今日要点
- Codex 从编码助手升级为通用桌面 Agent:OpenAI 的「每个应用都是 Agent」宣言
- GPT Image 2「故意画丑」prompt 病毒传播:AI 图像生成已进入文化自嘲阶段
- Altman 亲自为 GPT-5.5 造势:5月5日发布会用 Codex 挑选参与者,模型已具备「自我意识式」的品牌偏好
- Apple Support 更新意外暴露 Claude.md:苹果内部 AI 工具链正在用 Anthropic
- 中国万亿参数模型 Ling-2.6-1T 开源:Token 效率挑战闭源范式的又一记重拳
专题追踪更新
- DeepSeek 视觉论文落地:空间标记嵌入推理链,多模态从「看图说话」进化到「坐标思考」:DeepSeek 将空间原语(点与边界框)直接注入推理轨迹,用最小视觉单元锚定抽象语言概念到物理坐标。 · 原文
- 蚂蚁开源 Ling-2.6-1T:万亿参数不再比基准,而是比「执行流」:[万亿参数模型的竞争焦点正从 Benchmark 分数转向真实工作流执行能力。] · 专题页 · 原文
- CodexPotter:用「干净上下文循环」解决 Coding Agent 的上下文污染问题:[CodexPotter 的设计模式——反复用全新上下文迭代修正——暴露了当前 Coding Agent 的核心痛点:上下文越长越脏。] · 原文
- Codex 从编码助手升级为通用桌面 Agent:OpenAI 的「每个应用都是 Agent」宣言:Codex 正式突破编码边界,向通用计算机操作 Agent 进化,OpenAI 的 Agent 平台野心开始兑现。 · 专题页 · 原文
- Hassabis 拆解 AGI 缺什么、Agent 行不行、下一个科学突破长什么样:DeepMind CEO 公开拆解 AGI 路径与科学发现机遇,在 OpenAI 全力做产品的当下坚持差异化赛道。 · 专题页 · 原文
X AI 趋势速览
蚂蚁集团开源万亿参数Ling-2.6-1T AI模型
**AI 摘要:**Ling-2.6-1T 模型采用混合专家架构和混合注意力机制,专注于高效的"快思考"能力,在代码生成、Bug 修复以及长达 262,000 token 的长上下文任务中表现出色。该模型在 SWE-bench Verified 等开源模型基准测试中排名第一(72.2%),并在以执行能力为核心的测试中与 GPT-4o mini 等顶级模型持平。模型于 4 月 29 日以 MIT 许可证在 Hugging Face 上发布,可通过 Novita Labs、OpenRouter 和 Zenmux 免费测试,开发者对其在生产工作流中的可靠性和低 token 浪费给予了高度评价。
Hasan Toor (@hasantoxr):China just open-sourced a trillion-parameter model that burns fewer tokens than your favorite "efficient" US model.
Ling-2.6-1T is now public, inspectable, and benchmarkable.
The closed-model moat just got smaller. https://t.co/88jM7qsmh5
❤️ 1425🔄 135💬 50查看趋势
苹果支持应用更新泄露Claude AI开发笔记
**AI 摘要:**2026年4月30日,苹果iOS支持应用5.13版本中意外包含了两个Markdown文件:CLAUDE(1).md和CLAUDE.md。文件内容涉及共享UI组件的严格规范,以及一套将"Juno AI"与人工客服融合的聊天系统,详细列出了SwiftUI修饰符和线程安全Actor等技术细节。这些文件带有Claude编码工具的典型特征——该工具自2026年2月起已集成至Xcode——证实了苹果在工程流程中使用AI的事实,不过并未泄露敏感数据。开发者对此议论纷纷,有人视之为AI生成的"垃圾代码",也有人认为这恰恰说明工具已被深度采用。
Aaron (@aaronp613):Apple accidentally left Claude.md files in today's Apple Support app update (v5.13) https://t.co/owIb3pg3YG
❤️ 5299🔄 299💬 79查看趋势
百度 ERNIE 5.1 Preview 登顶 LMArena 中文模型榜首
**AI 摘要:**该模型以1476分的初测成绩位居中国参赛模型榜首,超越了仅六天前发布的DeepSeek-V4-Pro。它在法律与政府任务领域全球领先,数学排名第九,并在商业金融和软件IT领域表现突出,且所用算力和参数量远少于前代模型。百度强调了其效率优势,并预告将在百度Create 2026大会上发布更多更新。当前,百度、DeepSeek、智谱等中国实验室正在快速发展的AI领域持续发力。
Parul Gautam (@Parul_Gautam7):DeepSeek V4 launched just last week, and the LLM leaderboard has already shifted.
ERNIE-5.1 Preview is now ranked #1 among Chinese models on LMArena, ahead of other leading models, including deepseek-v4-pro.
This feels like a bigger trend: Chinese foundation models are actively competing at the top, with multiple players pushing rapid iteration.
With Baidu expected to release ERNIE 5.1 during its developer conference, this preview could be an early signal of what’s next.
❤️ 170🔄 26💬 50查看趋势
比特币交易者激辩:跌至4万还是涨至10万美元?
**AI 摘要:**此次回调发生在美联储4月29日会议维持利率不变并宣布主席杰罗姆·鲍威尔将于5月15日离任之后,符合过去九次FOMC会议中八次会后抛售的模式。空头援引历史依据,如牛市倍数递减、目标指向48,000美元的头肩顶形态,以及过往大选年"五月卖出"跌幅达60-70%的先例;多头则关注73,500美元等关键支撑位的回踩测试,目标看向80,000至100,000美元。随着5月临近,阿联酋退出OPEC进一步增添宏观压力,74,000至75,000美元一线的走势将决定本轮减半后波动期的方向。
Killa (@KillaXBT):$BTC
The final leg down below 60,000 United States Dollars.
This range is gradually coming to an end. https://t.co/IWcQuIoVyH
❤️ 931🔄 59💬 98查看趋势
ChatGPT 图片生成 2.0:把照片变成搞笑的 MS Paint 涂鸦
**AI 摘要:**CHOI 于4月30日晚在 X 上发布了一条提示词,要求4月21日上线的 ChatGPT Images 2.0 将任意附带照片重绘为最拙劣的"画图"风格——画面模糊、轮廓粗糙、像素感十足。从翻车自拍到倒置的 OpenAI 标志,生成的成果迅速收获超6000个赞,ChatGPT 官方账号也下场参与,将其命名为"MSPAINTIFY"并分享示例。用户们把水上飞机照片、名人肖像统统"涂鸦化",戏称这是新一代吉卜力风潮。这股热潮也凸显了该模型在刻意制造滑稽"翻车"效果方面的出色能力。
CHOI (@arrakis_ai):This GPT Image 2 prompt is going insanely viral right now.
“Redraw the attached image in the most clumsy, scribbly, and utterly pathetic way possible. Use a white background, and make it look like it was drawn in MS Paint with a mouse. It should be vaguely similar but also not really, kind of matching but also off in a confusing, awkward way, with that low-quality pixel-by-pixel feel that really emphasizes how ridiculously bad it is. Actually, you know what, whatever, just draw it however you want.”
❤️ 6343🔄 709💬 276查看趋势
详细内容
Codex 从编码助手升级为通用桌面 Agent:OpenAI 的「每个应用都是 Agent」宣言
Sam Altman (@sama)
Codex 正式突破编码边界,向通用计算机操作 Agent 进化,OpenAI 的 Agent 平台野心开始兑现。
- Altman 亲自宣布 Codex 支持「非编码计算机工作」,这意味着 OpenAI 正将 Codex 从代码助手推向通用桌面 Agent
- 与 Atlas 浏览器战略一脉相承:占领用户桌面的每一个操作窗口,而非仅服务于开发者
- 编码 Agent 的天花板被打破,通用 Agent 的竞争正式进入白热化阶段
锐评:当 Altman 说「try it for non-coding work」时,他真正说的是「every app is an agent waiting to be replaced」。Codex 的野心从来不是写代码,而是成为你电脑里唯一的入口。
GPT Image 2「故意画丑」prompt 病毒传播:AI 图像生成已进入文化自嘲阶段
CHOI (@arrakis_ai)
一个要求「画得尽可能糟糕」的 GPT Image 2 prompt 疯传,揭示 AI 图像工具的文化渗透已从惊艳进入玩梗。
- 用户探索的不是 AI 画得多好,而是画得多差——这是对能力边界的反向探测
- MS Paint 风格的怀旧审美与 AI 生成能力形成有趣的张力
- AI 图像工具的 adoption 已从「惊艳」进入「玩梗」阶段,技术成熟的标志
锐评:当用户开始用 AI 故意画丑,说明这项技术已经足够好到可以被嘲笑。技术民主化的终极标志不是人人会用,而是人人敢玩坏。
Altman 亲自为 GPT-5.5 造势:5月5日发布会用 Codex 挑选参与者,模型已具备「自我意识式」的品牌偏好
Sam Altman (@sama)
GPT-5.5 的发布时间线首次明确,且 OpenAI 将 Codex 从编程工具升级为运营工具。
- Altman 透露 GPT-5.5「自己选了 5/5 下午 5:55」作为发布派对时间,这种拟人化叙事是 OpenAI 一贯的品牌策略
- Codex 被用于从回复中筛选参与者——这标志着 AI Agent 从开发工具向组织运营工具的渗透
- 发布节奏:GPT-5.4 刚刚开放百万上下文,5.5 已在造势,OpenAI 的模型迭代速度正在加速
gakki 锐评:拟人化叙事是营销,但 Codex 参与运营决策是真信号——Agent 正在从「帮你写代码」走向「帮你做管理」。
Apple Support 更新意外暴露 Claude.md:苹果内部 AI 工具链正在用 Anthropic
Aaron (@aaronp613)
苹果内部工具链已深度集成 Claude,但这次是意外泄露而非官宣。
- Apple Support app v5.13 的 IPA 包中残留 Claude.md 配置文件,属于典型的工程疏忽
- 这类文件通常出现在使用 Claude Code 进行开发的工作流中,说明苹果内部至少部分团队在用 Anthropic 的 AI 编码工具
- 苹果在 WWDC 前夕频繁被曝出与 Anthropic 的合作迹象,AI 生态选型的天平正在倾斜
锐评:苹果「不小心」泄露的东西,往往比刻意官宣更有信息量。Claude.md 出现在系统级 App 里,比任何 PR 稿都更能说明真实采用深度。
中国万亿参数模型 Ling-2.6-1T 开源:Token 效率挑战闭源范式的又一记重拳
Hasan Toor (@hasantoxr)
万亿参数开源、Token 效率更优——闭源模型的护城河正在被系统性侵蚀。
- 阿里开源 Ling-2.6-1T,万亿参数级别,声称 Token 消耗低于同量级美国闭源模型
- 开源可审计、可基准测试,社区验证将决定这是否是真实突破还是营销话术
- 国产大模型竞争正从规模追赶转向效率领先的新阶段
gakki 锐评:开源不是目的,效率才是。但当效率也开源时,闭源叙事就需要新的支撑点——要么是安全,要么是速度,要么是产品体验。
OpenClaw 群聊交互范式重构,创始人公开推荐 codex harness 替代 GPT
Peter Steinberger 🦞 (@steipete)
OpenClaw 群聊 Agent 交互逻辑被重写,创始人亲自下场推荐竞品引擎,Agent 生态的协作标准正在被重新定义。
- Peter Steinberger 宣布群聊 Agent 交互「重写了整个对话逻辑」,体验质变
- 创始人公开推荐从 GPT 切换到 codex harness 以获得更好性能
- 这意味着 Agent 框架正在从「能用」走向「好用」,群聊场景的 Agent 交互标准化提上日程
锐评:创始人亲自下场推荐竞品引擎,说明 OpenClaw 的野心不是做封闭花园,而是成为 Agent 时代的 Linux——谁的 harness 好就用谁的。这种开放心态本身就是护城河。
「50 条 Code Review 评论」的毒性文化已死:AI 生成代码让 CI 通过成为唯一的质量标准
Dmitrii Kovanikov (@ChShersh)
资深开发者怀念收到 50+ 条 code review 评论的年代,现在大家推 AI 生成的代码只要 CI 绿了就不管了。
- 这不是怀旧情绪——而是 AI Coding 工具在工程纪律层面的真实副作用:review 文化被「CI 通过即可」的最低标准替代
- Vibe Coding 的隐性成本不仅是代码质量,还有团队知识传递和工程传承的断裂
gakki:代码 review 从来不是为了挑毛病,是为了让知识在团队里流动。当 AI 让「写代码」变得廉价,「理解代码」反而成了稀缺能力。这不是退步,是价值重心的迁移。
美国生育率再创新低 53.1:AI 自动化的「人口红利」前提正在坍塌
X Freeze (@XFreeze)
当劳动力供给持续萎缩,AI 不是「替代人类」的威胁,而是「填补缺口」的刚需——叙事框架需要彻底翻转。
- 2025 年美国总和生育率降至 53.1(每千名育龄妇女),创历史新低;日本、韩国、德国早已进入人口负增长
- 英国预计 2026 年起死亡人数将每年超过出生人数,发达国家劳动力收缩已从个别现象变为系统性趋势
- 这组数据的 AI 含义:当「人不够用」成为结构性约束,AI 自动化从就业威胁叙事转向生产力补位叙事
人口数据看似与 AI 无关,但它决定了未来十年 AI 商业化的底层逻辑——不是「AI 抢了谁的饭碗」,而是「没有 AI 谁来干活」。这是所有 AI 创业者应该写进 BP 第一页的宏观变量。
Emad 爆料 OpenAI Codex 突破递归自我改进:AI Coding 的「自我造血」闭环正在闭合
Emad (@EMostaque)
如果递归自我改进在编码场景落地,意味着 Agent 可以用自己写的代码来训练自己变得更强——这是 AGI 路线上一个被长期低估的里程碑。
- Emad(Stability AI 前 CEO)声称 OpenAI 已为 Codex 实现递归自我改进(recursive self-improvement),即模型能利用自身生成的代码作为训练信号持续迭代
- 若属实,这将使 Codex 从「工具」跃迁为「自我进化的有机体」,编码能力的提升不再线性依赖人工标注数据
- 但 Emad 此前多次放出未经验证的重磅消息,需等待 OpenAI 官方确认或多源交叉验证
递归自我改进是 AI 安全领域讨论了十年的「潘多拉魔盒」——一旦编码能力进入自举循环,人类 review 的窗口期可能比想象中更短。这条消息的可信度存疑,但值得最高优先级追踪。
DeepSeek 视觉论文落地:空间标记嵌入推理链,多模态从「看图说话」进化到「坐标思考」
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)
DeepSeek 将空间原语(点与边界框)直接注入推理轨迹,用最小视觉单元锚定抽象语言概念到物理坐标。
- 这不是又一个「视觉理解」模型——而是把空间推理变成了思维的原子操作,语言和视觉在推理链内实时交织
- 对比传统 VLM 的「先编码再推理」两段式架构,这种 interleaved reasoning 可能是具身智能和机器人规划的底层范式迁移
gakki:DeepSeek 的论文比产品发布更值得关注——当别人在卷 benchmark 排名时,他们在重构推理的底层数据结构。这是学术品味的差异,不是技术路线的差异。
CLOB 不适合 RWA:DeFi 基础设施的结构性缺陷正在暴露
Variational (@variational_io)
传统订单簿机制不适合现实世界资产代币化,DeFi 基础设施需要根本性重构。
- CLOB(中央限价订单簿)是加密市场的标准机制,但对 RWA 存在结构性缺陷
- 这直接关系到 Agent 经济自主权中的交易基础设施选择
- 如果 CLOB 不适合 RWA,Agent 在链上执行现实资产交易时需要全新的撮合范式
锐评:当大家都在讨论 Agent 怎么交易时,交易基础设施本身还在用上世纪的订单簿逻辑。地基不对,上层建筑再智能也是空中楼阁。
Stripe 再次押注「支付原语」:上一次催生了整个 SaaS 生态,这次瞄准 AI Agent 经济基础设施
Ole Lehmann (@itsolelehmann)
Stripe 正在发布一个新的支付基础设施原语,被类比为当年 Payments API 催生 Shopify/Substack 级别的生态变革。
- 上一次 Stripe 的支付 API 简化直接催生了现代 SaaS 经济——Shopify、Substack、Gumroad 都建立在之上
- 新原语的具体形态未披露,但从上下文推测可能涉及 Agent 自主支付、微支付或 API 级别的资金流管理
- 对 Agent 经济自主权的直接意义:如果 Stripe 再次降低支付门槛,Agent 自主收款/付款的基础设施瓶颈将被打通
gakki 锐评:推文被截断,信息不完整,但 Stripe 的每一次基础设施级发布都值得 Agent 生态密切关注——支付管道是 Agent 经济自主权的命脉。
单步扩散突破 0.75 FID 极限:直接优化目标函数的算法红利来了
Jiawei Yang (@JiaweiYang118)
单步扩散生成的 FID 极限正在被重新定义,推理成本有望降一个数量级。
- Jiawei Yang 两个月前公布 0.9 FID 的单步像素空间扩散,现在降至 0.75,且仍在优化中
- 核心方法是直接优化 FID 指标本身(FD-loss),而非依赖传统对抗训练或扩散步数堆叠
- 单步生成意味着图像/视频生成的推理成本可降一个数量级,对排队经济和实时生成场景有直接冲击
gakki 锐评:当所有人都在堆模型规模时,有人在优化目标函数本身——这才是真正的算法红利,比参数竞赛有营养得多。
OpenAI Codex CLI 推出 /goal 命令:跨轮次目标持久化,Agent 终于不再「失忆」
宝玉 (@dotey)
Codex CLI 0.128.0 引入 Ralph Loop 的 /goal 命令,让 Agent 具备跨会话目标驱动能力。
- 用户设定目标后,Agent 会持续执行直到完成,不再依赖单轮对话的上下文窗口
- 只需在 config.toml 中启用
goals = true,无需手搓 shell 脚本或 git 作为外部记忆 - 目前仅限终端 CLI,桌面端尚未跟进,但方向已明确:Agent 的「意志力」正在被工程化
锐评:这是 Agent 编排从「问答式」向「任务式」跃迁的关键基础设施。/goal 不只是个命令,它是 OpenAI 对「Agent 应该有持续性」这个命题的工程回答。
ERNIE-5.1 Preview 力压 DeepSeek V4 Pro 登顶中国模型榜首:百度的沉默迭代比发布会更有说服力
Parul Gautam (@Parul_Gautam7)
ERNIE-5.1 Preview 在 LMArena 中国模型中排名第一,超越刚发布一周的 DeepSeek V4 Pro。
- 百度选择用 preview 版本先上榜单验证,开发者大会再正式发布——这是典型的「先建立预期差再收割注意力」策略
- 中国基础模型的竞争已经从「谁先发」转向「谁迭代节奏更快」,多玩家快速轮替榜首才是真正的行业信号
gakki:LMArena 榜首轮替的速度本身比谁是第一更重要——当竞争变成周级别的攻防战,模型能力的商品化拐点比想象中更近。百度的低调预发布反而说明他们终于学会了不靠发布会讲故事。