James Lee-Thorp

Wiki Powered byIconIQ
James Lee-Thorp

代理通证化平台 (ATP):使用代理开发工具包 (ADK) 构建自主代理
访问 IQ AI

James Lee-Thorp

James Lee-Thorp 是一位人工智能研究员,专门研究 Transformer 理论和 AI 对齐,目前在 团队担任研究科学家。他以其在高效 Transformer 模型方面的工作而闻名,包括 FNet 架构。 [1] [2]

教育

Lee-Thorp 获得了开普敦大学的数学学士和硕士学位。 后来他搬到美国,于 2011 年至 2016 年间在哥伦比亚大学完成了数学博士学位。 [1] [3] [5]

职业生涯

完成博士学位后,Lee-Thorp 于 2016 年至 2017 年在纽约大学担任博士后职位。他的早期职业生涯还包括在高盛担任软件工程师。 然后他转到谷歌,在那里他担任研究员和软件工程师。 在谷歌,他是高效 Transformer 架构研究的主要贡献者。 2025 年,Lee-Thorp 加入 Meta,担任研究科学家,成为该公司新成立的“”团队的一员。

他的工作重点是 AI 对齐,旨在确保 AI 系统的行为符合人类的意图和价值观。 这包括对人类反馈的强化学习 (RLHF) 以及使用人类认知信号(例如眼动追踪)来改进 AI 奖励模型的研究。 他的专业知识被认为是 Meta 解决高级 AI 系统的安全性和可控性战略的重要组成部分。

Lee-Thorp 合作撰写了多篇自然语言处理和机器学习领域的有影响力的论文。 他的研究通常侧重于提高大规模 AI 模型的效率和理解。

  • FNet:使用傅里叶变换混合 Token (2022): 本文介绍了 FNet,该模型用非参数傅里叶变换取代了 Transformer 编码器中的自注意力机制。 研究表明,这种方法可以显着加快 GPU 和 TPU 上的训练时间(70-80%),同时在 GLUE 基准测试中保留可比 BERT 模型 92-97% 的准确率。 该模型还被证明在 Long Range Arena 基准测试中非常高效,在速度更快的同时,与顶级模型的准确率相匹配。
  • GQA:从多头检查点训练广义多查询 Transformer 模型 (2023): 这项工作发表在 EMNLP 2023 上,探讨了通过利用现有的多头检查点来训练多查询注意力模型的方法,该模型可以加速解码器推理速度。
  • CoLT5:具有条件计算的更快远程 Transformer (2023): 本文也在 EMNLP 2023 上发表,介绍了一种远程 Transformer 模型,该模型使用条件计算来提高处理长序列的效率。
  • 稀疏升级:从密集检查点训练专家混合模型 (2023): 这项研究发表在 ICLR 2023 上,提出了一种从预先存在的密集模型创建稀疏专家混合 (MoE) 模型的方法,该过程称为“升级”。 这允许创建更高效、更大容量的模型,而无需从头开始训练。

这些出版物突出了他专注于创建计算效率更高且可扩展的 AI 模型。

2022 年,Lee-Thorp 及其合著者凭借论文“FNet:使用傅里叶变换混合 Token”获得了北美计算语言学协会 (NAACL) 会议颁发的“最佳高效 NLP 论文”奖。 [4] [1] [2] [3] [5] [6]

参考文献

首页分类排名事件词汇表