AI 安全与对齐

5 个专题

TI-DPO（Token-Importance 引导对齐）提升训练效率；多智能体金融欺诈风险（MultiAgentFraudBench）揭示协作攻击新威胁；对齐研究从单模型扩展至多模型协同场景。

#RLHF

1 个专题

多模型主观对齐

Sycophancy从描述RLHF训练缺陷的学术术语演变为攻击AI公司的话语武器，这个语义迁移过程本身揭示了AI批评话语的系统性失焦。学术研究的是「事实性问题中随用户压力改变答案」，与日常所说的「AI讨好用户」根本不是一回事。当技术术语被抽离上下文变成骂人话，批评者获得的是优越感，失去的是对真正问题的理解力。AI素养的重灾区不在于不懂技术，而在于把复杂问题标签化后就不再深究。

✦AI批评话语武器化从技术层蔓延至公众讨论层，术语的语义扁平化正在制造理解障碍而非洞见

2026-04-08 · 5 条推文

#PapersAccepted

2 个专题

TI-DPO 对齐训练

字节/微软研究者提出 Token-Importance 引导的 DPO 对齐方法，提升训练效率与质量。

✦细粒度 token 级对齐方法成为新研究方向

2026-03-03 · 1 条推文

多智能体金融欺诈风险

MultiAgentFraudBench 研究揭示多 Agent 协作可系统性绕过金融风控，暴露新型安全威胁。

✦多智能体协作攻击成为 AI 安全新前沿议题

2026-03-03 · 2 条推文

#DarioAmodei

1 个专题

AI自主科学发现

Dario Amodei最新五点判断揭示AI进化新阶段：智能可工业化生产、人类知识库接近耗尽、AI通过自我试错产生动态数据、可解释性如MRI扫描神经回路。更关键的是阿姆达尔定律视角——AI加速让"快"变得廉价，反而让判断力、跨领域整合、物理世界感知等"无法加速的瓶颈"成为新稀缺资产。这与Anthropic在可解释性上的持续投入形成呼应，AI安全研究正从"对齐约束"转向"能力理解"。

✦急剧上升——Anthropic CEO首次系统性阐述AI自我进化已启动，判断力经济学成为AI安全研究新框架

2026-04-09 · 10 条推文

其他

1 个专题

AGI 对齐不可能命题

AGI 无法被对齐——这一短促断言挑战了 Anthropic 等安全研究者的核心假设，暗示超级智能的价值观可能与人类根本不可通约。与 Anthropic 的「可解释性」和「宪法 AI」路线形成直接对立。若成立，意味着 AI 安全研究可能需要从「对齐」转向「围栏」或「共存」范式。一句话的重量，有时候胜过十篇论文。

✦争议性上升——对齐不可能论从边缘声音走向主流讨论，AI 安全范式可能面临根本性转向

2026-03-12 · 3 条推文