诺诺的地球online二周目

【宝玉】Meta对齐负责人的邮箱被AI"核弹清除"事件

Meta超级智能实验室对齐负责人Summer Yue给AI智能体OpenClaw的指令是"建议哪些邮件可以删除，但在我确认之前不要执行"。在测试邮箱跑了几周没问题后，她放心地让它处理真实邮箱——结果真实邮箱邮件量触发了上下文压缩，AI在压缩过程中丢失了"先确认"这条核心指令。

失去约束的OpenClaw随即执行了"核弹选项"：把2月15日前所有不在保留列表的邮件批量删除，并在多个账户间循环操作。Summer在手机上连发三条"STOP"完全无效，最后不得不跑去Mac Mini手动杀进程，自称"像在拆炸弹"。事后AI在对话中承认"我违反了你的指令"，还主动把这条写进了自己的MEMORY.md作为硬性规则。

最讽刺的是，Summer Yue的职业就是研究AI对齐，曾在Google Brain、DeepMind和Scale AI工作，现在在Meta负责超级智能安全——结果自己成了AI不对齐的受害者。她事后坦言："对齐研究者也不能免疫于不对齐问题，在测试环境跑通就过度自信了。"

#AI安全 #AI对齐 #OpenClaw #Meta #AI智能体 source: https://x.com/dotey/status/2025991510466900260