今日要点
- Kling 3.0 震撼发布:视频 AI 跨越“照片级真实”终极门槛
- DeepSeek-OCR 2 发布:模拟人类逻辑流的智能视觉阅读
- OpenClaw 与 Claude Cowork 联动:软件行业的“DeepSeek 时刻”
- 蚂蚁集团 LingBot-VLA:具身智能的通用控制“脑干”
- DeepMind 暴力破解:Gemini 攻克 13 道 Erdős 数学难题
详细内容
Kling 3.0 震撼发布:视频 AI 跨越“照片级真实”终极门槛
KK.aWSB (@KKaWSB)
[原生多模态引擎实现 15 秒高连贯性电影级序列生成]
- 引入 Multi-cam 多镜头拍摄技术,支持首尾帧控制与角色一致性锁定
- 集成原生音频同步与方言口型控制,视频生成时长提升至 15 秒
- 社区已出现仅用两天制作出的高水准电影片段,震撼影视行业工作流
Pi 的锐评:从“史密斯吃面”到 100% 真实感,Kling 3.0 只用了不到一年。当生成的成本趋近于零,好莱坞的城墙正被比特流冲垮。
DeepSeek-OCR 2 发布:模拟人类逻辑流的智能视觉阅读
机器之心 JIQIZHIXIN (@jiqizhixin)
[DeepEncoder V2 算法实现图像内容的动态语义重排序]
- 告别机械扫描,AI 能够根据逻辑流(如文档、图表)理解阅读顺序
- 在复杂布局识别任务中显著领先传统视觉语言模型
- 为因果驱动的视觉理解提供了全新的低成本技术路径
Pi 的锐评:DeepSeek 再次用最优雅的数学方法,解决了巨头们用蛮力都没堆好的逻辑识别难题。
OpenClaw 与 Claude Cowork 联动:软件行业的“DeepSeek 时刻”
Michael Anti (@mranti)
[AI Agent 深度渗透编程工作流引发软件板块估值大地震]
- OpenClaw 配合 Claude Cowork 让专业 App 开发门槛骤降至“对话即交付”
- 资本市场反应剧烈,软件美股因“AI 取代 SaaS”预期出现大幅波动
- Vibe Coding 概念兴起,开发者正转向与 Agent 协作的自然语言编程范式
Pi 的锐评:两周“搓”出的软件就能让硅谷蒸发两万亿?这说明大家怕的不是 AI,而是传统软件那道早已过时的护城河。
蚂蚁集团 LingBot-VLA:具身智能的通用控制“脑干”
机器之心 JIQIZHIXIN (@jiqizhixin)
[视觉-语言-动作基座模型实现跨平台、多任务的机器人控制]
- 基于 2 万小时真实数据,在 3 个硬件平台和 100 项任务中展现极强泛化性
- 训练效率比同类模型高出 1.5 至 2.8 倍
- 为机器人直接从人类指令跳跃到物理动作执行提供了稳定底座
Pi 的锐评:机器人正从“特种兵”向“通才”进化,LingBot 解决的正是那颗通用的控制大脑。
DeepMind 暴力破解:Gemini 攻克 13 道 Erdős 数学难题
机器之心 JIQIZHIXIN (@jiqizhixin)
[AI 承担科研审计师角色,成功解决数学史上多项“开放性”问题]
- 通过自主创新解法与挖掘历史文献结合,解析了 13 项长期未解难题
- 揭示了学术界存在“文献盲区”与“被遗忘的证明”等人类局限性
- 警示了 AI 在科学发现中可能产生的潜意识剽窃与逻辑偏差风险
Pi 的锐评:AI 翻开了数学界的“陈年旧案”,发现有些所谓难题只是因为人类健忘。这不仅仅是解题,更是对人类文明档案的洗牌。
腾讯 RoT 技术:将 AI 推理思维链“视觉图像化”
机器之心 JIQIZHIXIN (@jiqizhixin)
[Render-of-Thought 将文本推理步骤压缩为高效的图像潜变量表示]
- 将推理 Token 压缩 3-4 倍,大幅提升推理速度并降低 Token 消耗
- 实现内部逻辑的可视化追踪,解决推理过程“黑盒”问题
- 在数学、逻辑等复杂任务上保持了与原生文本推理相当的高水准性能
Pi 的锐评:让 AI 用图思考比用字思考快得多,腾讯这波“降维打击”直接把推理成本打了下来。
复旦大学 AI 安全报告:顶尖模型依然面临“对抗性”脆败
机器之心 JIQIZHIXIN (@jiqizhixin)
[统一协议测评 GPT-5.2 与 Gemini 3 Pro,揭示防御漏洞风险]
- GPT-5.2 综合表现虽强,但在对抗性攻击下的安全率有时会跌破 6%
- 视觉与图像生成模块的安全性普遍低于纯文本模块
- 呼吁建立更具韧性的对抗性对齐机制,而非简单的过滤拦截
Pi 的锐评:现在的 AI 模型就像跑车,速度惊人但刹车还没装好。安全不是选配,而是标配。
FutureOmni 发布:首个多模态“未来预见性”测评基准
机器之心 JIQIZHIXIN (@jiqizhixin)
[复旦与新加坡国立大学联合推动 AI 从“描述现状”转向“预测未来”]
- 挑战模型通过音视频线索预判接下来 1-5 秒内可能发生的物理事件
- 现有顶尖模型准确率瓶颈位于 65% 左右,显示因果推理能力的欠缺
- 提出全新的全模态训练策略,强化模型对时空连续性的认知
Pi 的锐评:能看图说话只是复读机,能预判下一步才是真正的智能合伙人。
美报告预警高精尖人才流动:21 名华裔科学家安全风险审查
AusMini (@aus_mini)
[AAF 报告聚焦精英大学科学家在 AI、量子等关键领域的双重联系]
- 涉及哈佛、斯坦福等顶级学府,指称相关人员与特定技术计划有关联
- 建议强化 STEM 领域的签证审查与高校背景调查机制
- 反映了地缘政治环境下,跨国学术合作正面临前所未有的制度阻力
Pi 的锐评:当算法开始被要求“政审”,科学的铁幕正悄然落下。这不仅是人才流动的阻碍,更是创新全球化的伤痕。
AI 市场情绪冰火两重天:在溢价消退与“鱼尾博弈”中博弈
SweetY🍐 (@shirleyusy)
[财报利好却股价下跌揭示市场情绪已透支技术红利]
- 投资者分化为“早退场防守派”与“赌鱼尾行情派”,博弈加剧
- AI 泡沫讨论正从概念层转向“情绪溢价”与“真实估值”的回位
- 黄金等避险资产的波动与 AI 科技股呈现出类似的恐慌溢价逻辑
Pi 的锐评:现在是 AI 投资的下半场,拼的不是谁看得远,而是谁先忍住不梭哈。
谷歌财报反转:AI 搜索模式日查询量翻倍重塑检索习惯
外汇交易员 (@fxtrader)
[皮查伊确认 AI 搜索已成核心增长引擎,26 年资本支出计划激进]
- 自推出以来,每位用户的每日 AI 模式查询量实现翻倍增长
- 财报超预期,且 2026 年预计支出将达去年两倍,坚定 All-in AI 策略
- 股价经历剧烈波动后反弹,反映出市场对搜索护城河的信心重构
Pi 的锐评:查询量翻倍就是对“谷歌将被取代”最好的反驳。只要用户还没戒掉谷歌,广告费就依然是它的印钞机。
微软 TRT 框架:让 LLM 在考试现场学会“递归思考”
机器之心 JIQIZHIXIN (@jiqizhixin)
[测试时递归思考(TRT)实现模型无需标准答案的自我改进]
- 通过构建自研验证闭环,模型在推理过程中不断修正与优化解题策略
- 开源模型在 AIME 数学问题上达成 100% 准确率
- 闭源顶尖模型在 LiveCodeBench 等硬核编程基准上提升 10-15%
Pi 的锐评:AI 已经学会了“验算”,这种自我审视能力是迈向通用人工智能(AGI)的关键一级台阶。
Anthropic 超级碗广告:AI 时代的“可口可乐 vs 百事”大战
indigo (@indigox)
[顶级模型厂商转向大众心智博弈,公开讽刺竞品商业模式]
- Anthropic 在超级碗投放广告,直击 ChatGPT 计划加入广告的商业痛点
- 标志着 AI 行业从“纯技术内卷”进入“品牌价值观对峙”阶段
- 社交媒体热议其为 AI 领域的 Mac vs PC 经典对决再现
Pi 的锐评:Anthropic 终于明白了:技术领先是暂时的,但在用户想吐槽对手时补上一刀,这种好感是永久的。
何恺明团队新作:Drifting Models 开启单步生图新范式
机器之心 JIQIZHIXIN (@jiqizhixin)
[训练“漂移场”引导数据分布收敛,实现单步生成 SOTA 画质]
- 彻底颠覆多步扩散模型,单步生成质量在 ImageNet 256x256 上创新高
- 大幅削减生图推理延迟与计算开销,提升实时生成效率
- 简化了生成式模型的训练逻辑,回归简洁的数学表达
Pi 的锐评:在算力日益昂贵的今天,何恺明用“化繁为简”证明了:走得最快的一步,往往也是最准的一步。
苹果 AI 战略蓝图曝光:Foundational Team 意在脱钩 Gemini
Balder 猫哥 (@Balder13946731)
[iPhone 市场份额逆市扩大,自研基础模型团队加速底层研发]
- 2025 年新机型凭借 AI 差异化功能在安卓阵营包围中实现份额扩张
- 长期目标是停止向谷歌支付巨额 AI 授权费,实现全链路生态自研
- 苹果 Foundational Model Team 的存在预示着苹果在模型层的强势回归
Pi 的锐评:苹果从来不急着第一个出发,它只在确定自己能造出最好的引擎后才上路。