2026-03-06 科技动态

今日语音播客

今日要点

GPT-5.4：长上下文+极限推理的「OpenClaw 天选模型」
Skill 撰写的反直觉真相：AI 自举无效，原型赛马才有效
GPT-5.4 API 定价策略：超出 272K 才双倍计费，Claude 被贴脸开大
Qwen 3.5 Small：9B 掀翻 120B 的「边缘 Agent 拐点」已至
CLI-Gym：用「健康系统反演」自动生成终端训练数据

今日最大变化

GPT-5.4：长上下文+极限推理的「OpenClaw 天选模型」
Skill 撰写的反直觉真相：AI 自举无效，原型赛马才有效

专题追踪更新

GPT-5.4 百万上下文登陆：Claude 的护城河正在被填平：[OpenAI 以「context + reasoning」双升级反击，Agent 基建格局生变] · 专题页 · 原文
Claude Agent SDK 生态爆发：从开发框架到产品基础设施的跃迁：Anthropic 的工具链正在成为创业公司的默认基建。 · 专题页 · 原文
GPT-5.4 的「电脑操控」突破：AI Agent 终于长出「手眼协调」：OpenAI 首次将 Computer Use 能力原生集成到通用旗舰模型，桌面操控成功率超越人类。 · 专题页 · 原文
Anthropic 给 Skill Creator 装上「质检流水线」：Agent 工具终于可测试了：Skill Creator 新增内置测试框架，用自动化评估解决「技能写了不知道灵不灵」的痛点。 · 专题页 · 原文
OpenClaw 升级后「自我阉割」：工具限制引发 Agent 可靠性危机：[新版本工具权限收紧，Agent 陷入「自医不能」困境] · 专题页 · 原文

详细内容

GPT-5.4：长上下文+极限推理的「OpenClaw 天选模型」

数字生命卡兹克 (@Khazix0918)

[OpenClaw 生态迎来模型层最强队友]

• GPT-5.4 在超长上下文（百万级 Token）和极限推理任务上表现突出，与 OpenClaw 的 Agent 编排架构高度适配 • 这意味着复杂多步骤任务（如跨仓库重构、大规模代码迁移）的可靠性将显著提升 • 对开发者而言，「模型能力」与「Agent 编排」的叠加效应正在加速到来

gakki 锐评：当模型层开始主动适配 Agent 工作流而非反过来，说明 Agent 范式已经跨越了「概念验证」阶段，进入「基础设施化」深水区。

查看原文❤️ 29 · 🔄 2 · 💬 7

Skill 撰写的反直觉真相：AI 自举无效，原型赛马才有效

leifu _/ (@leifuchen)

[Skill 工程的核心方法论被验证：蒸馏不如迭代]

• Anthropic Skill-Creator 的实践揭示：AI 自发生成的 Skill 只是训练数据重述，信息增益趋近于零 • 有效路径是：人工草拟思路 → 批量生成 10-20 个原型 → AI 筛选迭代 → 择优固化 • 这与 Claude Code「用几十组原型验证代替需求说明」的开发哲学一致

gakki 锐评：「赛马不相马」正在从口号变成工程纪律——在 Agent 时代，需求的最好表达方式不是文档，而是可运行的候选集。

查看原文❤️ 25 · 🔄 5 · 💬 1

GPT-5.4 API 定价策略：超出 272K 才双倍计费，Claude 被贴脸开大

歸藏(guizang.ai) (@op7418)

[OpenAI 用「分段计费」打价格战，长上下文成本结构重构] • 272K 内正常计费，超出部分 2x，比 Claude 的统一定价更贴合实际使用场景 • Tool search + 改进的 tool calling 降低大规模工具生态的 token 成本与延迟 • Agentic 便秘能力（长耗时、多工具工作流）成为官方卖点术语

这是典型的「基础设施层」竞争逻辑：先把价格打下来，再等上层应用爆发。对依赖长上下文的 RAG、代码分析类应用是重大利好。

查看原文❤️ 80 · 🔄 6 · 💬 15

Qwen 3.5 Small：9B 掀翻 120B 的「边缘 Agent 拐点」已至

Tz (@Tz_2022)

阿里开源 9B 小模型，以 13 倍参数压缩比挑战 GPT OSS 120B，部分基准超越 Gemini 3 Flash 和 Claude Sonnet 4.5。

纯血开源 + 完全免费，轻薄本和手机均可本地运行
标志着「小模型+端侧算力」路线开始具备生产级可用性
对 Agent 开发者而言，这意味着低成本私有化部署成为可能

gakki 锐评：大模型军备竞赛进入「轻量化反攻」阶段——不再是参数越大越好，而是「单位算力的智能密度」决定胜负。

查看原文❤️ 428 · 🔄 64 · 💬 35

CLI-Gym：用「健康系统反演」自动生成终端训练数据

机器之心 JIQIZHIXIN (@jiqizhixin)

[无需人工标注，Agent 自学系统运维的破局思路]

华为、北理工、中科院联合提出：让 Agent 探索正常环境，再逆向构造故障状态
自动生成真实的命令行挑战与修复路径配对数据
解决系统管理任务中「数据标注成本极高」的长期痛点

把「破坏-修复」过程自动化，是训练 Agent 处理复杂系统的聪明 workaround。当大多数研究还在盯着 Web Agent，终端/系统管理这个沉默的大头终于被正视了。

查看原文❤️ 21 · 🔄 6 · 💬 0