Glasswing 项目(Project Glasswing)是由人工智能安全与研究公司 Anthropic 领导的网络安全联盟。该项目于 2026 年 4 月 7 日宣布,汇集了主要的科技和金融公司,旨在将强大的未发布 AI 模型 Claude Mythos Preview 用于防御性网络安全目的。该计划的目标是在恶意行为者利用类似的 AI 能力之前,主动发现并修复关键开源软件和数字基础设施中的安全漏洞。[1]
Glasswing 项目的建立是为了直接应对在 Anthropic 的前沿 AI 模型 Claude Mythos Preview 中观察到的强大的双重用途能力。在内部测试证明该模型具有自主发现和利用软件缺陷的能力后,Anthropic 决定不向公众发布该模型,认为其对于普通可用性而言过于强大。 [2] [3]
该联盟的核心使命是在受控环境中利用 Claude Mythos Preview 来强化数字防御。通过提供对该模型的私人早期访问,Glasswing 项目允许合作伙伴发现并修复其自身系统以及广泛使用的开源软件中的漏洞。该项目基于协调漏洞披露原则运行,旨在为网络安全专业人员提供关键的先发优势,并在预期的 AI 驱动网络威胁扩散面前建立“持久优势”。 [3]
该倡议旨在解决以下担忧:具有先进网络攻击能力的 AI 模型很快将变得普及,这可能会使国家和非国家行为者能够进行更频繁、更复杂的攻击。通过利用相同的技术进行防御,该项目寻求重新平衡安全格局,并在 AI 加速威胁的时代建立漏洞管理的全新最佳实践。 [1]
Glasswing 项目的动力源于 Anthropic 对其前沿 AI 模型的内部开发和红队测试。该公司发现其最新模型 Claude Mythos Preview 具备了在极少人工指导下,自主识别软件漏洞并创建功能性漏洞利用程序的涌现能力。这一发现促使公司采取了其所描述的“紧急尝试”,优先为这项强大的技术开发防御性应用。[1]
该项目的基本原理植根于对高级 AI 双重用途性质的管理。虽然该模型是防御的强大工具,但其能力也使其成为恶意网络攻击的同样有效的手段。Anthropic 的高管表示,他们预计对手将在“几个月而非几年”内开发出具有类似能力的 AI,并将该项目定义为“保护基础设施的关键竞赛”。Anthropic 的 Frontier 红队负责人 Logan Graham 呼应了这种紧迫感,他表示:“我们需要现在就为这些能力在 6、12、24 个月内广泛普及的世界做好准备。我们构建现代安全范式的许多假设可能会破裂。”[3] [2]
Glasswing 项目于 2026 年 4 月 7 日正式宣布。[3] 随着项目的启动,Anthropic 公开承诺在 90 天内报告项目进展,包括具体发现和已修复的漏洞。该项目不仅被定位为一项技术倡议,还被视为一项协作努力,旨在与政府和安全组织接触,为国家安全战略提供信息,并推动全行业安全实践的演进。[1]
支持 Glasswing 项目的核心技术是 Claude Mythos Preview,这是由 Anthropic 开发的一款专有前沿 AI 模型。由于其在网络安全领域具有强大且潜在危险的双重用途能力,该模型不打算向公众发布。[1]
该模型先进的网络安全技能是其通用高级代码编写和推理能力的涌现属性,而非针对网络任务进行特定训练的结果。Anthropic 评估认为,该模型的能力可与“资深安全研究员”相媲美。[2]
内部测试和联盟内部的初步使用表明,Claude Mythos Preview 能够执行一系列高级安全任务,包括:
这些能力代表了相较于之前公开可用模型的重大进步,并强调了将其访问权限限制在受控环境中的决定。 [2] [3]
在发布前和初始阶段,该模型已被用于识别主要软件项目中数千个此前未知的(零日)、高严重性漏洞。[4] 其发现的显著案例包括:
据报道,在项目公开宣布之前,初始测试阶段识别出的所有漏洞均已与各自的软件维护者协调完成修复。[4]
与发布时 Anthropic 旗下性能次优的公开模型 Claude Opus 4.6 相比,Claude Mythos Preview 在网络安全、编程和推理基准测试中展现出了显著的性能提升。[1] [3]
| 基准测试 | Claude Mythos Preview | Claude Opus 4.6 | 描述 |
|---|---|---|---|
| CyberGym | 83.1% | 66.6% | 衡量网络安全任务中的表现。 |
| SWE-bench Pro | 77.8% | 53.4% | 用于修复 GitHub 仓库中真实世界 Bug 的高级基准测试。 |
| SWE-bench Verified | 93.9% | 80.8% | 用于修复 GitHub 仓库中真实世界 Bug 的基准测试。 |
| Terminal-Bench 2.0 | 82.0% | 65.4% | 衡量在基于终端的代理任务中的表现。 |
| GPQA Diamond | 94.6% | 91.3% | 衡量高级推理能力的基准测试。 |
| OSWorld-Verified | 79.6% | 72.7% | 衡量在操作系统环境下的代理任务中的表现。 |
这些基准测试的数据说明了能力的提升,这也促成了 Project Glasswing 的创建。[1] [3]
Glasswing 项目的运作围绕几个关键目标展开:
这些目标共同旨在创建一个更具韧性的数字生态系统,为应对下一代网络威胁做好准备。 [1] [4]
为了负责任地管理其强大的发现成果,Glasswing 项目遵循一套结构化的多步骤漏洞披露流程:
这种方法旨在最大限度地发挥 AI 模型的防御优势,同时最大限度地降低所发现缺陷被利用的风险。 [3]
Glasswing 项目是由 Anthropic 领导的、由 45 多家组织组成的联盟发起的。 [2]
该联盟的创始成员包括来自科技、金融和网络安全领域的主要公司:
除了核心创始团队外,Claude Mythos Preview 的访问权限已授予 40 多家负责维护关键软件基础设施的其他组织。 [1] [3] [4]
来自合作伙伴公司的代表公开支持该倡议。谷歌安全工程副总裁 Heather Adkins 表示:“谷歌很高兴看到这一跨行业的网络安全倡议汇聚在一起。我们长期以来一直认为,人工智能在网络防御领域既带来了新挑战,也开启了新机遇。” 同样,微软全球首席信息安全官 (CISO) Igor Tsyganskiy 指出:“加入 Project Glasswing 并获得 Claude Mythos Preview 的访问权限,使我们能够及早识别并缓解风险,并增强我们的安全和开发解决方案,从而更好地保护客户和微软。” [2]
Anthropic 已承诺投入大量资源来支持该项目及更广泛的开源安全生态系统:
在最初的研究预览阶段,参与者可以使用该模型,其费用主要由 Anthropic 承诺的使用额度覆盖。在此阶段之后,获得批准的参与者可以按 每百万输出 Token 125 的费率访问该模型。参与者可以通过多个平台访问该模型,包括 Claude API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry。 [3]
在 2026 年 4 月 7 日 Glasswing 项目正式宣布之前,Anthropic 在 2026 年 3 月下旬发生了两起无关的安全事件,引起了公众的关注。
Anthropic 对这些事件作出了正式回应,将其定性为 “发布工具中的人为错误,而非对我们安全架构的入侵”。该公司表示,已实施改进流程以防止未来发生此类错误。 [3]
该项目以透翅蝶(Greta oto)命名。这个名字为项目的使命提供了双重隐喻:
选择这个名字是为了体现寻找隐藏缺陷的挑战性以及解决方案的协作本质。 [1]