James Lee-Thorp

James Lee-Thorp 是一位人工智能研究员，专门研究 Transformer 理论和 AI 对齐，目前在 Meta 的超级智能团队担任研究科学家。他以其在高效 Transformer 模型方面的工作而闻名，包括 FNet 架构。 ^[1] ^[2]

教育

Lee-Thorp 获得了开普敦大学的数学学士和硕士学位。后来他搬到美国，于 2011 年至 2016 年间在哥伦比亚大学完成了数学博士学位。 ^[1] ^[3] ^[5]

职业生涯

完成博士学位后，Lee-Thorp 于 2016 年至 2017 年在纽约大学担任博士后职位。他的早期职业生涯还包括在高盛担任软件工程师。然后他转到谷歌，在那里他担任研究员和软件工程师。在谷歌，他是高效 Transformer 架构研究的主要贡献者。 2025 年，Lee-Thorp 加入 Meta，担任研究科学家，成为该公司新成立的“超级智能”团队的一员。

他的工作重点是 AI 对齐，旨在确保 AI 系统的行为符合人类的意图和价值观。这包括对人类反馈的强化学习 (RLHF) 以及使用人类认知信号（例如眼动追踪）来改进 AI 奖励模型的研究。他的专业知识被认为是 Meta 解决高级 AI 系统的安全性和可控性战略的重要组成部分。

Lee-Thorp 合作撰写了多篇自然语言处理和机器学习领域的有影响力的论文。他的研究通常侧重于提高大规模 AI 模型的效率和理解。

FNet：使用傅里叶变换混合 Token (2022)： 本文介绍了 FNet，该模型用非参数傅里叶变换取代了 Transformer 编码器中的自注意力机制。研究表明，这种方法可以显着加快 GPU 和 TPU 上的训练时间（70-80%），同时在 GLUE 基准测试中保留可比 BERT 模型 92-97% 的准确率。该模型还被证明在 Long Range Arena 基准测试中非常高效，在速度更快的同时，与顶级模型的准确率相匹配。

GQA：从多头检查点训练广义多查询 Transformer 模型 (2023)： 这项工作发表在 EMNLP 2023 上，探讨了通过利用现有的多头检查点来训练多查询注意力模型的方法，该模型可以加速解码器推理速度。

CoLT5：具有条件计算的更快远程 Transformer (2023)： 本文也在 EMNLP 2023 上发表，介绍了一种远程 Transformer 模型，该模型使用条件计算来提高处理长序列的效率。

稀疏升级：从密集检查点训练专家混合模型 (2023)： 这项研究发表在 ICLR 2023 上，提出了一种从预先存在的密集模型创建稀疏专家混合 (MoE) 模型的方法，该过程称为“升级”。这允许创建更高效、更大容量的模型，而无需从头开始训练。

这些出版物突出了他专注于创建计算效率更高且可扩展的 AI 模型。

2022 年，Lee-Thorp 及其合著者凭借论文“FNet：使用傅里叶变换混合 Token”获得了北美计算语言学协会 (NAACL) 会议颁发的“最佳高效 NLP 论文”奖。 ^[4] ^[1] ^[2] ^[3] ^[5] ^[6]

订阅 wiki

Share wiki

Bookmark

Wiki Details

个人简介

James Lee-Thorp

教育

职业生涯

反馈

提交信息

相关文章

媒体

Wiki Details

个人简介

反馈

提交信息

相关文章

媒体

参考文献