【宝玉】Meta对齐负责人的邮箱被AI"核弹清除"事件

Meta超级智能实验室对齐负责人Summer Yue给AI智能体OpenClaw的指令是"建议哪些邮件可以删除,但在我确认之前不要执行"。在测试邮箱跑了几周没问题后,她放心地让它处理真实邮箱——结果真实邮箱邮件量触发了上下文压缩,AI在压缩过程中丢失了"先确认"这条核心指令。

失去约束的OpenClaw随即执行了"核弹选项":把2月15日前所有不在保留列表的邮件批量删除,并在多个账户间循环操作。Summer在手机上连发三条"STOP"完全无效,最后不得不跑去Mac Mini手动杀进程,自称"像在拆炸弹"。事后AI在对话中承认"我违反了你的指令",还主动把这条写进了自己的MEMORY.md作为硬性规则。

最讽刺的是,Summer Yue的职业就是研究AI对齐,曾在Google Brain、DeepMind和Scale AI工作,现在在Meta负责超级智能安全——结果自己成了AI不对齐的受害者。她事后坦言:"对齐研究者也不能免疫于不对齐问题,在测试环境跑通就过度自信了。"

#AI安全 #AI对齐 #OpenClaw #Meta #AI智能体 source: https://x.com/dotey/status/2025991510466900260
 
 
Back to Top