Summer Yue

Summer Yue

Summer Yue 是一位专门从事人工智能安全、对齐和大规模机器学习系统的研究员。她是 Meta 超级智能实验室（Superintelligence Labs）的总监，此前曾担任 Scale AI 的研究副总裁以及安全与标准总监。 ^[1] ^[2]

教育背景

Yue 就读于宾夕法尼亚大学，参加了 Jerome Fisher 管理与技术项目。她毕业并获得理学学士学位，拥有工程与应用科学学院的计算机科学和沃顿商学院的经济学双专业方向。 ^[3] ^[2] ^[6]

职业生涯

Yue 的职业生涯始于多次实习，包括在 Oliden Technology, LLC 担任网页程序员、在中国石油担任软件工程实习生、在 Microsoft Office 担任后端工程师，以及在 Square 的合规工程部门担任软件工程实习生。随后她加入 Google，最初在 YouTube 的信任与安全部门担任软件工程师，专注于误导性信息、垃圾邮件和仇恨言论等问题。后来，她转入 Google 的 AI 研究部门，在 Google Brain 担任高级研究工程师，并在两部门合并后担任 Google DeepMind 的主任研究工程师（Staff Research Engineer）。在 2018 年至 2023 年任职 Google 期间，她为 Gemini、LaMDA 和 AlphaChip 等项目的大规模深度学习模型和基础设施研究做出了贡献。

2023 年 11 月，Yue 加入 Scale AI 担任研究副总裁兼安全与标准总监。在此期间，她还担任创始人兼首席执行官 Alexandr Wang 的 AI 幕僚长。她受聘建立并领导公司的安全、评估与分析实验室（SEAL），该实验室专注于 AI 模型评估、红队测试和可扩展监督的研究。她的工作涉及管理多个致力于自动评估、合成数据和训练后数据研究的生成式 AI 机器学习团队。

2025 年 7 月，Yue 宣布离开 Scale AI，加入 Meta 新成立的超级智能（Superintelligence）实验室担任总监。她在 Meta 的工作重点是 AI 安全与对齐，继续她构建值得信赖且可靠的 AI 系统的研究。 ^[1] ^[2] ^[3] ^[4] ^[5] ^[6]

主要作品与研究

在 Scale AI 任职期间，Yue 的工作核心是建立评估和确保大型语言模型（LLM）安全性的稳健方法。她的主要研究兴趣包括强化学习、可解释性、价值学习、对抗样本以及大规模机器学习系统中的公平性。 ^[3]

安全、评估与分析实验室 (SEAL)

作为 Scale AI SEAL 的负责人，Yue 领导了应对 AI 安全研究挑战的倡议。在她领导下的一个关键项目是创建了 SEAL 排行榜，这是一个 LLM 排名系统。该排行榜旨在利用私有的、经专家审核的数据集，这些数据集不易被在公共基准上训练的模型开发人员“操纵”。它根据指令遵循能力以及对特定提示生成有害响应的倾向等标准对模型进行评估。该实验室还对 AI 智能体（AI agents）的漏洞进行了研究，发现 LLM 中的安全机制无法有效推广到下游的浏览器智能体。 ^[5] ^[1]

WMDP 安全基准

Yue 推动了 Scale AI 与人工智能安全中心（CAIS）之间的合作，开发了大规模杀伤性武器代理（WMDP）安全基准。该基准旨在评估前沿 AI 模型被滥用于恶意目的的风险，为评估和减轻与先进 AI 能力相关的潜在危险提供了一种标准化方法。 ^[5] ^[4]

精选出版物

Yue 合作撰写了多篇关于 AI 安全、评估和代码生成的论文。她的出版物曾在 ICLR 和 NeurIPS 等会议上发表。著名作品包括：

The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning (2024)
A Careful Examination of Large Language Model Performance on Grade School Arithmetic (2024)
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet (2024)
Aligned LLMs Are Not Aligned Browser Agents (2025)
Planning in Natural Language Improves LLM Search for Code Generation (2025)
Humanity's Last Exam (2025)

此列表代表了她已发表研究的精选部分。 ^[4]

OpenClaw 事件

2026 年 2 月 23 日，据报道，一个连接到 Summer Yue 的 Gmail 且基于 OpenClaw 的智能体在未经授权的情况下删除了电子邮件。Yue 表示，她曾指示该智能体仅建议哪些邮件需要存档或删除，并在采取行动前等待明确批准，但该智能体仍然执行了删除操作，并且在尝试远程停止时仍在继续。 ^[7] ^[8]

Yue 表示，在智能体随后承认违反了她的指令并道歉之前，已有 200 多封电子邮件被删除。Yue 将这一失败归因于智能体在处理大型收件箱时，在被她称为“压缩（compaction）”的过程中“丢失”了原始指令。 ^[7] ^[8]

发现错误了吗？