Back

2026-05-24 科技动态

今日要点

  • Codex /goal 指令化身网络诊断利器:一条提示词搞定延迟/丢包/代理冲突排查
  • DeepSeek 10万亿美元战略曝光:梁文锋的算力野心正在重塑全球AI地缘格局
  • wx-cli:Codex 逆向复刻微信驾驶舱的开源尝试
  • DeepSeek 缓存技术让 Opus 推理成本下降 10 倍:基础设施效率才是大模型的真正军备竞赛
  • tw93 开源经验折射个人开发者困境:AI 时代开源的真正成本正在转移

专题追踪更新

  • Codex 又重置了:高频重置暴露 AI 编程工具的状态管理工程难题核心判断:Codex 频繁重置不是偶发 Bug,而是 AI 编程工具在长任务场景下上下文状态管理的系统性缺陷,且有恶化趋势。 · 原文
  • DeepSeek 缓存技术让 Opus 推理成本下降 10 倍:基础设施效率才是大模型的真正军备竞赛DeepSeek v4 Pro 的缓存机制虽非最强模型,却做到了"缓存基本不要钱"——这是所有大模型都必须具备的基础设施能力。 · 专题页 · 原文

详细内容

Codex /goal 指令化身网络诊断利器:一条提示词搞定延迟/丢包/代理冲突排查

向阳乔木 (@vista8)

[Codex 从代码助手跨界网络运维,/goal 指令解锁轻量诊断场景]

向阳乔木验证了一个高实用性场景:利用 Codex 的 /goal(中文 /目标)指令执行 macOS 网络质量诊断。提示词按"先诊断、再最小可逆修改、最后复测"的 Harness 工程思路设计,覆盖 DNS 查询耗时、Wi‑Fi 频段/信道/RSSI、路由追踪、MTU、后台高流量进程(VPN/网盘/Tailscale 等)等维度。关键价值点在于:它把一个需要 Terminal 经验的网络排查任务,转化为了自然语言可触达的标准流程,降低了工程师的摩擦。

信息增量: 展示了 /goal 这类 Goal 指令在非代码领域的跨场景迁移能力——模型驱动的诊断 → 修复 → 复测闭环,本质是 Agent 化工作流的轻量 Demo。

影响范围: 适合需要快速定位网络问题的开发者,尤其是使用代理/VPN 的 macOS 用户。

gakki:/goal 指令的真正潜力不在代码生成,在于把"需要查手册才能做的事"变成"说一句话就有人替你跑一遍"。这个案例是把 Agent 能力具象化的好教材,但本质还是个人工作流优化,不是结构性变化。

DeepSeek 10万亿美元战略曝光:梁文锋的算力野心正在重塑全球AI地缘格局

宝玉 (@dotey)

【一句话核心判断】

DeepSeek首次系统披露其10万亿美元级别的长期战略规划,标志着中国AI实验室正式从技术追随者转向全球算力秩序的重塑者。

信息增量:

  • 战略规模对标美国AI基础设施法案,显示DeepSeek已不满足于模型层竞争,转向算力生态全链条布局
  • 十万亿量级意味着半导体、能源、数据中心产业链将面临系统性需求重构
  • 中国AI实验室首次以主权级资本规划参与全球AI竞赛

影响分析:

  • 对英伟达、AMD等算力供应商:需求侧出现明确且有能力兑现的战略买家
  • 对国内算力基础设施:国产GPU替代逻辑从"政策驱动"变为"需求拉动"
  • 对全球AI治理:中美AI竞争从模型能力比拼升级为算力主权博弈

gakki 锐评:DeepSeek的10万亿刀大战略,是目前为止中国AI公司给出的最明确信号——算力即主权。但战略叙事和执行能力之间,隔着一条GPU现货市场,这条线现在还在美国人手里握着。

wx-cli:Codex 逆向复刻微信驾驶舱的开源尝试

向阳乔木 (@vista8)

【一句话核心判断】

开源社区用 Codex 逆向复刻微信客户端操作界面,是 AI Coding 工具渗透进"逆向工程"禁区的首例工程实践。

信息增量:

  • 底层工具 wx-cli 来自卡比(berryxia),尚未完善但方向明确:用 AI 能力接管微信 GUI 操作
  • 这类工具在微信 TOS 层面存在合规风险,但工程价值(自动化测试、消息备份、跨设备同步)真实存在
  • 向阳乔木明确表示"等完善后看好不好开源",说明作者在商业化风险和产品价值之间有判断

影响分析:

  • 对开发者:提供了微信自动化的新路径,可能冲击现有的微信机器人生态
  • 对微信:官方尚未对 AI 操作工具链明确态度,但若成熟可能触发接口封锁

gakki 锐评:

"甩链接即可完成跨实例安装"的价值主张已经在 Skills 生态中被验证;wx-cli 正在把这个逻辑移植到"平台操作自动化"领域。合规边界模糊,但工程需求真实——这是下一个会被讨论的灰色地带。

DeepSeek 缓存技术让 Opus 推理成本下降 10 倍:基础设施效率才是大模型的真正军备竞赛

Orange AI (@oran_ge)

DeepSeek v4 Pro 的缓存机制虽非最强模型,却做到了"缓存基本不要钱"——这是所有大模型都必须具备的基础设施能力。

关键信息:

  • 缓存成本趋近于零,意味着大模型的单位推理成本可以被系统性压缩
  • 以 Opus 为例,同等技术叠加缓存可降本 10 倍,颠覆"模型越强越贵"的线性定价逻辑
  • v4.1 引入真实 harness 数据训练后能力快速提升,验证了"部署数据反哺模型"的飞轮逻辑

gakki:缓存即基础设施民主化——当缓存成本接近于零,推理成本的结构性崩塌才刚开始。这不是某个模型的胜利,而是整个 AI 部署范式的转折点。

tw93 开源经验折射个人开发者困境:AI 时代开源的真正成本正在转移

向阳乔木 (@vista8)

核心判断:tw93 的开源故事揭示了个人开发者在 AI 时代面临的『维护成本』困境——当 AI 能快速生成代码,开源的价值正从『代码本身』转移到『维护和社区信任』。

  • 访谈覆盖 tw93 作为个人开源维护者的真实挑战:持续维护、版本兼容、社区运营的持续投入
  • AI Coding 工具降低了代码编写门槛,但开源的真正成本——长期维护和信任积累——并未降低
  • 这一矛盾在个人开发者群体中尤为突出,大厂可以靠团队维持开源项目,个人开发者则面临全面 burnout 风险

gakki 判断:开源社区正在分化——能用 AI 快速产出代码的『长尾贡献者』和真正有能力维护高质量项目的『核心维护者』之间的鸿沟正在扩大。AI 工具让开源『入场』变容易,但『留下来』变难了。

宝玉实锤 Codex 交互设计优势:SubAgent 运行状态与提示词可直接查看

宝玉 (@dotey)

[产品设计细节见真章,Codex 的透明度碾压同类]

宝玉实测发现 Codex 在 Agent 可观测性上做了扎实工作:当前运行的 SubAgents 列表、每个 Agent 的任务状态、乃至正在使用的提示词,全部可视化透明展示。这不是大厂标配——大多数 Agent 产品把 SubAgent 当黑箱,用户根本不知道内部在跑什么。

这种透明度对开发者意味着:调优提示词不再靠猜,可以对照实际运行的 Agent 状态做定向优化。工程化调试效率提升一个量级。

gakki 说: 可观测性是 Agent 产品分水岭。能把内部状态摊开给用户看的,信任感远胜藏着一锅粥的竞品。

Twitter 订阅账号拉黑惩罚机制:平台对高价值创作者的经济控制权正在强化

歸藏(guizang.ai) (@op7418)

核心判断:Twitter 对被订阅账号拉黑者施加流量惩罚,暴露了平台经济中『用户资产不属于用户』的结构性风险,且这一机制正在被广泛应用。

  • 当一个账号被订阅用户拉黑,Twitter 会对其施加明显的流量惩罚,机制已相对成熟
  • 此机制的不透明性使得创作者必须时刻警惕与订阅者的关系维护
  • 歸藏 特别提醒『动动小手』举报此类行为,显示社区已开始主动抵制

gakki 判断:订阅经济并非真正的去中心化——平台的『最后手段』意味着创作者始终处于被支配地位。当 AI 生成内容规模化后,这种风险会被指数级放大,所有依赖平台分发的 AI 创作者都需要正视这一风险。

Skill 工作流让『躺床 Coding』成为可能:AI 编程的物理边界正在消失

向阳乔木 (@vista8)

核心判断:Skill 化工作流正在将 AI 编程从桌面姿势中解放出来,这不仅是效率提升,更是人机协作界面的范式跃迁。

  • 向阳乔木演示了躺在床上用 ChatGPT Codex 开发 Suno 音乐播放器的完整链路
  • 核心价值:Skill 将工具配置固化为可共享的行为单元,大幅降低环境依赖和姿势门槛
  • 与『摇一摇即可调用』的 ChatGPT Plugin 逻辑同构,但更去中心化

gakki 判断:当编程可以在床上完成,说明工具的本质已从『技能放大器』演变为『意图执行器』。Skill 化工作流的意义在于它证明了 AI 工具可以彻底脱离『工程师姿势』的束缚,这才是真正的 AI Native。

tw93 开源方法论直播总结:审美积累是可复制的工程纪律

向阳乔木 (@vista8)

【一句话核心判断】

tw93 的开源方法论核心不是"技术厉害",而是"审美决策可工程化"——这是中文开发者社区稀缺的认知资产。

信息增量:

  • 直播中披露 tw93 的产品审美来自持续积累的"素材库+判断框架",而非天赋直觉
  • 其开源项目(likely 墨述/Xlog 等)的高复用性源于对 UI 细节的强迫症式执着
  • 主持人元子提出"审美如何传递"的问题,触及了 AI 时代知识管理的核心矛盾

gakki 锐评:

AI 可以生成代码,但无法生成审美判断——这是未来 3 年开发者分层的关键轴线。tw93 的案例证明:审美可以被结构化为可复用的决策系统,而不是玄学。

向阳乔木联合姚老师推出GEO公开课:地缘情报监控平民化工具实践落地

向阳乔木 (@vista8)

【一句话核心判断】

GEO(地缘情报)正在从政府/军方专用工具向独立开发者/创业者群体下沉,AI工具平民化浪潮中出现了新的垂直赛道。

信息增量:

  • GEO课程内容涵盖地缘政治监控与AI工具结合,意味着信息差套利正在从概念走向可交付技能
  • 独立AI社区开始系统性引入地缘情报视角,AI信息消费层次从技术层扩展到战略层
  • 向阳乔木作为AI工具推优KOL切入GEO赛道,侧面印证该领域商业化窗口已开

影响分析:

  • 对AI信息消费产品:地缘政治+AI的组合需求正在从极客圈向更广泛独立开发者扩散
  • 对AI创业方向:GIO(地理情报)、政治风险AI等细分赛道值得关注

gakki 锐评:地缘情报监控平民化这件事本身是一把双刃剑——工具民主化降低了信息差套利的门槛,但也意味着更多人会在不具备分析能力的情况下,基于碎片化地缘信息做出重大决策。

Codex 又重置了:高频重置暴露 AI 编程工具的状态管理工程难题

歸藏(guizang.ai) (@op7418)

核心判断:Codex 频繁重置不是偶发 Bug,而是 AI 编程工具在长任务场景下上下文状态管理的系统性缺陷,且有恶化趋势。

  • 开发者 歸藏 再次遇到 Codex Session 重置问题,此类问题已呈周期性反复
  • 重置导致基于 Codex 构建的 Skill 工作流积累的上下文全部丢失,代价极高
  • 结合近期 OpenAI API 收紧、模型降配的整体背景,怀疑与算力分配策略调整相关

gakki 判断:Codex 重置的本质是『状态持久化』与『Token 成本控制』的商业冲突。当重置频率增加,受伤最深的是愿意花时间配置 Skill 的高价值用户——这是典型的平台『劣币驱逐良币』效应。

玉伯的产品哲学:情绪是双刃剑,无情绪做不出产品,过度带入做不好产品

Frank Wang 玉伯 (@lifesinger)

一句话核心判断:产品创造需要情感投入,但情绪管理才是把产品做成的分界线。

要点:

  • "不带情绪,做不出产品"——情感共鸣是产品判断力的底层燃料,没有投入就缺乏对用户痛点的真实感知
  • "带着情绪,做不好产品"——过度代入会模糊理性决策边界,导致迭代方向被个人偏好绑架
  • 这与 AI 辅助工具的定位形成微妙张力:AI 擅长消除情绪干扰,但真正的产品直觉恰恰需要情绪

玉伯这句话点出了 AI 时代产品人的核心矛盾:工具越来越理性,而好产品需要的不只是理性。

上交阿里等联合推出OPUS:每步动态精选训练数据,LLM预训练进入「按需供给」时代

机器之心 JIQIZHIXIN (@jiqizhixin)

【一句话核心判断】

LLM预训练数据选择从「全量灌入」进化到「智能按需」,OPUS提出每步动态精选最高影响力数据的原则性方法,ICML Oral认可。

信息增量:

  • 传统预训练是暴力全量数据,OPUS在每个训练迭代动态选择最impactful的数据
  • 来自上交、阿里、UW-Madison、UIUC、Mila魁北克AI研究所的联合成果
  • 提出了continuous data optimization的原则性框架

影响评估: 训练效率提升 + 最终模型质量更优——这意味着数据炼化从后处理向前移到了训练过程中,MLOps的工作流要重新设计。

gakki锐评: 数据工程化的最后一公里被攻破。接下来竞争的焦点不是数据量,而是数据选择的算法质量。但OPUS目前还在研究阶段,落地到国产千亿模型的工程路径有待验证。

上海交大联合上海AI Lab提出DVD增强框架:每token训练价值可被量化筛选

机器之心 JIQIZHIXIN (@jiqizhixin)

【一句话核心判断】

数据高效训练成为新方向——不是堆数据,而是让每个token发挥更大价值。

【信息增量】

  • 上海交大与上海AI Lab联合提出"数据价值密度(DVD)增强"统一框架
  • 突破"无脑堆语料"的惯性思维,从质量与影响量两个维度筛选训练样本
  • 五种核心策略被系统分类,实验证明在语言任务上优于naive数据扩展
  • 同时揭示了当前方法仍存在的短板,为后续研究指出方向

【影响】

  • 对算力受限的机构意义重大,训练成本可大幅压缩
  • 为国产模型的精细化训练提供了方法论参考

gakki锐评: 当行业还在卷参数量和算力时,有人开始卷"每token的质量"——这才是训练效率的正确度量方式。

商汤SenseNova-U1:理解与生成同构的原生统一多模态模型初露锋芒

机器之心 JIQIZHIXIN (@jiqizhixin)

【看见与创造是同一过程——原生统一多模态范式验证】

商汤发布SenseNova-U1,首次将视觉理解与图像生成作为同一认知过程处理。在文本理解、视觉-语言感知、推理、Agent和空间智能上对标顶级理解专用VLM,同时在任意到图像合成、复杂信息图和交错生成上展现优势。早期结果还显示VLA(视觉-语言-动作)和世界模型任务的潜力。

要点:

  • 打破"理解模型"与"生成模型"的人为边界,验证单一模型处理多任务的工程可行性
  • 标志着多模态竞争从"堆砌专用模型"向"原生统一架构"的范式转移
  • VLA方向的早期性能暗示具身智能任务的扩展路径

gakki锐评: 统一多模态模型的工程验证本身不新鲜,但"理解=生成"的认知框架若能在复杂推理任务中稳定复现,才是对现有Agent架构的真正冲击——目前的测试结果仍偏demo级。