Back

2026-05-08 科技动态

今日要点

  • OpenAI 把 GPT-5 级推理塞进实时语音:Voice Agent 从"能听会说"进化到"能想"
  • OpenAI Codex 杀入 Chrome:后台并行跨标签页,Agent 浏览器入口战正式开打
  • 固态制冷突破:无压缩机冰箱问世,AI 数据中心散热的底层变量正在改变
  • Telegram 大版本更新:10+ 重大功能,Agent 生态基础设施悄然加固
  • Printing Press:CLI 工厂模式来了——Agent 不该为每个服务重写接口适配层

专题追踪更新

  • Cursor 3.3 把上下文用量做成一等公民级调试能力:Agent 工程的可观测性拐点[上下文可观测性是 Agent 工程的基础设施级能力,Cursor 率先破局] · 原文
  • Opus 4.6 比 4.7 更强:模型版本号不再是质量代理指标["新版一定更好"是消费电子时代的思维惯性,LLM 时代版本迭代可能是能力漂移] · 原文
  • OpenAI Realtime API 三连发:GPT-5级推理进入实时语音,128K上下文撑起Agent长任务编排OpenAI 把实时语音API从「能用」推到了「能干活」的级别。 · 专题页 · 原文
  • OpenAI 官方 CLI 上线:终端里跑 Agent 工作流不再需要写 SDKOpenAI 终于把终端入口做成了官方一等公民。 · 原文
  • Codex 进浏览器:OpenAI 把编程 Agent 的触角伸到了"必须登录才能干活"的场景编程 Agent 终于能碰那些需要登录态的活了——后台、CRM、复杂表单。 · 专题页 · 原文

X AI 趋势速览

剑桥团队利用陶瓷电容器实现固态冷却突破

**AI 摘要:**研究人员推出了一种采用钽酸钪铅与钨酸镁铅混合材料的多层陶瓷电容器,在电场作用下可实现最高4.5开尔文的温降,相关成果于2026年5月6日发表于《自然》杂志。该器件可承受超过1500万次循环而不退化,工作温度范围覆盖-45°C至77°C以上,且烧结温度实用可行,不像以往更昂贵的材料那样难以加工。尽管目前仍处于实验室阶段,存在制冷温差有限及含铅等挑战,但其在电子设备散热、电动汽车和可穿戴设备领域展现出高效制冷潜力,有望无需运动部件即可媲美传统制冷系统。

TheNewPhysics (@CharlesMullins2):🚨 Scientists just built a refrigerator with NO compressor and NO refrigerant gas.

Just electricity.

Using a multilayer ceramic capacitor, researchers created a solid-state cooling system that changes temperature when an electric field is applied.

The result: • ~3–4.5 K cooling swings • works across room temperature • survives >10 MILLION cycles • no moving parts • projected 70–90% Carnot efficiency

This is electrocaloric cooling and it may become one of the biggest threats to conventional refrigeration in decades.

Older materials only worked ABOVE room temperature and needed a brutal 42-day annealing process.

This new PST–PMW material: • cools down to ~230 K • avoids the expensive anneal • handles massive electric fields • maintains strong entropy transitions

The physics is beautiful.

An electric field reorganizes the material’s internal dipole structure, reshaping entropy inside the lattice and producing a real temperature drop.

Not “cold generation.” Controlled entropy engineering.

If this scales: • silent refrigerators • ultra-efficient chip cooling • vibration-free scientific systems • wearable thermal control • next-gen EV cooling

We may be watching refrigeration evolve from mechanical compression… to programmable matter.

Follow me if you want the future of physics before it hits mainstream.

❤️ 2714🔄 597💬 125查看趋势

Cursor 3.3 在 Token 详情中新增了 Agent 上下文分解功能

**AI 摘要:**AI 代码编辑器 Cursor 新增了智能体上下文用量的可视化拆解功能,可精确到 token 级别,涵盖系统提示词、工具、规则、技能、MCP、子智能体和对话历史。示例中,对话历史占 48.7k tokens,MCP 占 3.7k,整体用量 35%,便于快速定位冗余。开发者称赞这是调试利器,它建立在早期动态上下文技术之上,可将浪费减少最高 47%,让智能体在不损失性能的前提下运行更精简。

Cursor (@cursor_ai):You can now see a breakdown of your agent's context usage in Cursor 3.3.

Use these stats to diagnose context issues and improve your setup across rules, skills, MCPs, and subagents. https://t.co/lqs2lp8pn2

❤️ 2041🔄 129💬 112查看趋势

前OpenAI CTO称奥特曼在2023年危机中制造了混乱

**AI 摘要:**在埃隆·马斯克对OpenAI提起的联邦诉讼中,前首席技术官米拉·穆拉蒂作证称,首席执行官萨姆·奥特曼在2023年11月的董事会风波中散布不信任,几乎导致公司分崩离析。庭审中出示的短信显示,奥特曼恳求重返CEO职位,而穆拉蒂则转达了董事会的坚决拒绝,甚至将临时领导人埃米特·谢尔称为"一个twitch上的路人"——谢尔后来幽默地接受了这个称呼。这场在加利福尼亚北区联邦法院进行的审理,重新审视了马斯克推动OpenAI回归非营利初心的诉求,其声称OpenAI已偏离使命,案件涉及的潜在金额高达1000亿美元。

santos-inistas (@JDabknee)https://t.co/hKPzSi2jTd

❤️ 14058🔄 581💬 86查看趋势

GameStop CEO在eBay上出售周边商品,为555亿美元收购案筹资

**AI 摘要:**GameStop首席执行官Ryan Cohen于5月3日披露了一项针对eBay的555亿美元非约束性收购要约,报价每股125美元,较eBay2月收盘价溢价46%。为造势,他在其eBay卖家账号ryan_5050上架了40件游戏周边收藏品和服饰,部分商品竞价已达五位数。Cohen计划合并后实现每年20亿美元的成本节约,利用GameStop的门店承接eBay运营。目前eBay董事会正在审议该提案,融资方案和业务契合度仍存疑虑。消息公布后eBay股价大幅上涨,截至5月7日回落至106美元附近。

Ryan Cohen (@ryancohen):I have been suspended from eBay https://t.co/0vadYCQ6KE

❤️ 13907🔄 1794💬 2197查看趋势

谷歌推出面向生产环境的平价 Gemini 3.1 Flash-Lite 模型

**AI 摘要:**Google DeepMind 已通过 Gemini API、Google AI Studio、Vertex AI 和 OpenRouter 全面开放 Gemini 3.1 Flash-Lite,此前该模型于2026年3月3日以预览版首发。这款多模态模型支持文本、图像、视频、音频和PDF处理,拥有100万token的输入窗口,定价仅为每百万输入token 0.25美元、每百万输出token 1.50美元。该模型针对速度优化,响应时间在亚秒级,在推理和代码生成等基准测试中表现出色,可应用于客服聊天、实时开发工具等多种场景。尽管有人认为它只是预览版的简单更名,但早期用户对其在低成本Agent循环和高效基础任务中的性价比给予了好评。

Google AI Studio (@GoogleAIStudio):gemini 3.1 flash-lite is here

it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, and simple data processing https://t.co/QhaTNoLcgu

❤️ 1932🔄 155💬 110查看趋势

详细内容

OpenAI 把 GPT-5 级推理塞进实时语音:Voice Agent 从"能听会说"进化到"能想"

OpenAI (@OpenAI)

语音 Agent 终于有了推理能力,不再是鹦鹉学舌式的对话。

  • GPT-Realtime-2 带来 GPT-5 级推理到实时语音场景
  • 配套推出 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 两个流式模型
  • 语音 Agent 变成"实时协作者"——边听边推理边解决问题

语音 Agent 的竞争维度从"延迟低、识别准"升级到了"能不能在对话中实时推理"。这对客服、翻译、会议助手等场景是质变,但真正的考验是:推理质量够不够撑住"实时决策"的压力。

OpenAI Codex 杀入 Chrome:后台并行跨标签页,Agent 浏览器入口战正式开打

OpenAI (@OpenAI)

OpenAI 正在把 Codex 从「代码助手」重定义为「浏览器原生 Agent」。

  • Codex 现在直接在 Chrome 中运行,支持跨标签页后台并行执行,不接管浏览器主界面
  • 需要安装 Chrome 插件,本质上是在浏览器层建立 Agent 调度入口
  • 这与 Claude 的浏览器工具链形成直接对位竞争——OpenAI 选择了「插件嵌入」而非「独立浏览器」路线

gakki 锐评:浏览器是 Agent 最后一公里的感知层,谁先站稳谁就拥有用户注意力的第一道闸口。OpenAI 选择 Chrome 插件而非独立产品,是用最低摩擦抢占最高频入口。

固态制冷突破:无压缩机冰箱问世,AI 数据中心散热的底层变量正在改变

TheNewPhysics (@CharlesMullins2)

电卡效应固态制冷实现了 3-4.5K 温降、超千万次循环、无运动部件——这不只是家电革命,更是 AI 算力基础设施的潜在拐点。

  • 无需压缩机和制冷剂,仅靠电场驱动陶瓷电容器的温度变化
  • 预计卡诺效率 70-90%,寿命远超传统压缩机
  • 数据中心散热是 AI 算力扩张的硬约束之一,固态制冷若规模化将重塑机房设计

gakki 锐评:AI 行业天天卷模型参数,但真正卡脖子的可能是「谁能把热量带走」。这项技术距离工程化还有距离,但方向性信号已经足够清晰。

Telegram 大版本更新:10+ 重大功能,Agent 生态基础设施悄然加固

Pavel Durov (@durov)

Telegram 这次更新的核心信号不是功能本身,而是平台层持续为 Agent 生态铺路。

  • 10+ 重大功能、200+ 改进,Durov 亲自下场宣传,规格不低
  • Telegram 已是多款 AI Agent 的主要分发渠道(Bot API、Mini App)
  • 平台能力每提升一次,Agent 的触达半径就扩大一轮

gakki 锐评:Telegram 正在成为 Agent 生态的「隐形操作系统」——不是 AI 公司,却做了 AI 公司最需要的事:提供低摩擦的用户触达层。

Printing Press:CLI 工厂模式来了——Agent 不该为每个服务重写接口适配层

Matt Van Horn (@mvanhorn)

Matt Van Horn 和 @steipete 推出 Printing Press,一个可以为任意服务「打印」Agent 原生 CLI 的工厂 + 30+ 现成 CLI 库。

  • 痛点精准:Most APIs、MCPs、official CLIs 对 Agent 浪费 token 和时间
  • 工厂模式:输入任意服务,输出 Agent 原生 CLI(token 效率优化、结构化输出)
  • 已覆盖 Linear、ESPN、Google Flights、LinkedIn 等 30+ 服务

这是「Agent 工具链标准化」的又一信号。当 MCP 被 Anthropic 主导、CLI 被各厂商各自为政时,第三方用工厂模式批量生产适配层,本质是在抢「Agent 接口层」的定义权。

OpenClaw 核心人物实测 GPT 5.5 + /goal:大规模重构规划终于「可用」了

Peter Steinberger 🦞 (@steipete)

GPT 5.5 的规划能力正在跨越「能用」到「好用」的临界点。

  • Peter Steinberger(OpenClaw 生态核心开发者)实测 GPT 5.5 配合 /goal 命令,可以规划大规模重构并附带端到端测试,且「just works」
  • 信号意义:OpenClaw 生态的头部开发者正在从 Claude 向 GPT 5.5 迁移规划类工作负载,模型竞争格局正在松动
  • /goal 是 OpenClaw 的目标分解命令,与 GPT 5.5 的长规划能力形成乘数效应

锐评:当 OpenClaw 生态的核心人物公开站台竞品模型时,这比任何 benchmark 都更有说服力。Anthropic 的生态锁定正在被测试。

Cursor 3.3 把上下文用量做成一等公民级调试能力:Agent 工程的可观测性拐点

Cursor (@cursor_ai)

[上下文可观测性是 Agent 工程的基础设施级能力,Cursor 率先破局]

  • Cursor 3.3 推出 Agent 上下文用量分解,可查看 rules、skills、MCPs、subagents 各自的 token 占比
  • "上下文工程"从黑盒走向可量化,开发者第一次能诊断"为什么 Agent 变笨了"
  • 与 Manus 上下文工程法则形成呼应:可观测性是可优化性的前提

上下文管理是 2026 年 Agent 工程的核心战场,Cursor 把它做成可视化仪表盘而非文档建议,这才是真正的工程化信号。

Google 推出 Gemini 3.1 Flash Lite:Agent 高频调用场景的成本底线又被拉低了

Google AI Studio (@GoogleAIStudio)

Google 在"便宜够用"这个维度上继续加码,瞄准的是 Agent 批量调用的成本敏感区。

  • 定位最高效费比模型,优化高吞吐 Agent 任务、翻译、简单数据处理
  • 对标的是 Agent 编排中"不需要最强但需要大量调用"的子任务场景

Flash Lite 的推出再次验证了一个趋势:模型市场正在按"推理深度×调用频率"分层。Agent 编排中大量子任务其实不需要 Opus 级推理,谁能在这个成本敏感区做到又快又便宜,谁就握住了 Agent 基建的定价权。

Hermes Agent v0.13.0 发布:开源 Agent 框架进入「韧性工程」阶段

Nous Research (@NousResearch)

Nous Research 发布 Hermes Agent v0.13.0 "The Tenacity Release"——版本代号本身就是一个信号:开源 Agent 框架开始关注失败恢复和长期稳定性。

  • 版本命名 "Tenacity" 暗示重点在容错、重试、持久化等韧性能力
  • Nous Research 在开源 Agent 生态中持续迭代,与 OpenClaw 形成差异化竞争
  • 开源 Agent 框架正在从「功能堆砌」转向「生产就绪」

没有详细 changelog 链接可验证具体内容,但 Hermes 的持续迭代节奏本身说明开源 Agent 框架没有被大厂闭源方案完全压制。

Hermes Agent + Autobrowse:浏览器 Agent 用 JS 直出替代逐步点击,效率提升 3-5 倍

Kyle Jeong (@kylejeong)

浏览器 Agent 的效率瓶颈不在模型能力,而在交互策略。

  • Hermes Agent 通过 Autobrowse 实现浏览器自动化技能自学习:2 次迭代后,耗时从 102s 降至 35s,交互轮次从 23 轮降至 8 轮,成本从 $1.46 降至 $0.28
  • 核心机制:Agent 不再逐步点击 DOM,而是直接 eval JS 获取页面数据并缓存为 Skill
  • 这是 Agent 浏览器 Token 效率优化的实证案例,验证了「技能缓存」范式的成本优势

锐评:浏览器 Agent 最烧钱的不是推理,而是反复与 DOM 交互的 Token 开销。Autobrowse 的「JS 直出 + Skill 缓存」路径,本质上是在用确定性代码替代概率性对话。

Hermes Agent 获开发者实名背书:「0次崩溃更新」背后的开源Agent稳定性信号

Alex Finn (@AlexFinn)

开源Agent平台的口碑拐点正在到来。

  • 开发者 Alex Finn 公开称赞 Hermes Agent「可靠、0次崩溃更新」,并给出了10倍生产力工作流
  • 这类自发背书在开源Agent生态中极为稀缺——大多数项目还在「能跑就行」的阶段
  • 稳定性+新功能的组合,正在把开源Agent从「玩具」推向「生产工具」

gakki锐评:一个Agent平台被开发者称为「it just works」,比任何技术白皮书都有说服力。开源Agent的竞争维度正在从「功能多」转向「不翻车」。

Seedance 2.0 多镜头叙事工程化:空间规则+结构化Prompt解决AI视频的「场景漂移」顽疾

Heather Cooper (@HBCoop_)

AI视频从「单镜头惊艳」进化到「多镜头可控」,关键突破在工程化约束。

  • 用单一视觉生产图(visual production graph)作为多镜头叙事的锚点,而非每帧独立生成
  • 结构化文本Prompt定义镜头序列、运镜轨迹、角色一致性,把创意意图翻译成生成指令
  • 显式空间规则(门层级+运动方向)防止场景重置和连续性断裂——这是AI视频工业化的核心痛点

gakki锐评:Heather Cooper 展示的不是工具能力,而是方法论。当AI视频创作者开始用「空间规则」和「生产图」思考,说明行业正在从「碰运气」走向「可复现」。

ColaMD 1.5:Markdown 从写作格式升级为内容数据库,视图层正式解耦

Orange AI (@oran_ge)

[Markdown 作为内容数据库的架构范式正在落地:一份 .md,无限渲染形态]

  • ColaMD 1.5 实现 .md 文件作为内容层、HTML 模板作为视图层的 MVC 架构
  • 同一份 Markdown 可消费多种渲染形态:幻灯片、博客、简历、产品页
  • 开源可扩展,用户可让 AI 自行添加新模板

这不是"又一个 Markdown 工具",而是 Markdown 成为 AI 原生内容协议的又一个里程碑。当内容与视图彻底解耦,AI 就能专注于内容生产而非排版。

Codex 下场接管你的浏览器:用已登录身份执行任务,Agent 入口战争进入「凭据复用」时代

小互 (@xiaohu)

OpenAI Codex Chrome 扩展让 Agent 直接操作你已登录的网站,无需重新认证——这是 Agent 工程从「工具调用」到「身份接管」的关键跃迁。

  • 核心机制:复用 Chrome 已有会话,无需密码或 API key,直接操作 CRM、后台、内部系统
  • SubAgent 并行架构:多个子 Agent 同时操作不同标签页,不干扰用户正常浏览
  • 安全边界设计:敏感操作(提交、下载、查看历史)需用户确认,独立标签组隔离执行

这不只是「又一个浏览器自动化工具」——当 Agent 开始复用人类的身份凭证,「谁在操作」的边界就模糊了。对 Claude Code 的 Computer Use 和 Manus 的浏览器方案都构成直接竞争压力。

Codex 浏览器插件的真正杀招:Chromium 通杀 + 并行 SubAgent,不是只认 Chrome

歸藏(guizang.ai) (@op7418)

歸藏实测发现 Codex Chrome 插件可控制任何 Chromium 内核浏览器(如 Dia),并支持多 SubAgent 并行操作不同页面——这把「浏览器 Agent」的适用范围拉大了一个数量级。

  • Chromium 通杀:Edge、Arc、Dia 等均可被控制,不锁定 Chrome
  • 并行 SubAgent:可同时启动多个子任务操作不同网页,用户无感知
  • Mac + Windows 双平台支持,零配置接入

与上一条形成信息叠加:OpenAI 不只是做了个插件,而是在 Chromium 生态层面建立了 Agent 控制层。这对所有做浏览器自动化的项目(Playwright MCP、Puppeteer 方案)都是降维打击。