目录

Claude Mythos:Anthropic 发布了一个模型,然后把它藏起来

Anthropic 发布 Claude Mythos

然后把它藏起来了。

不是没发布。是发布了,但普通人用不了。

官方说这个模型能做什么

根据 Anthropic 官方公告,Claude Mythos 在受控测试中发现了数千个零日漏洞,覆盖所有主流操作系统和浏览器——包括 Linux kernel。

有几个被单独提出来:

  • 在每个主流浏览器里发现了漏洞
  • 在 Linux kernel 里发现了漏洞,并且能把多个漏洞串联起来,形成完整的攻击路径

这个能力是真实需求驱动的。Anthropic 提到,他们发现有人已经在用 Claude 挖漏洞、开发恶意软件、提取敏感数据、发勒索信。

所以 Anthropic 做了一个选择:模型发布,但不公开。通过 Project Glasswing,只向经过筛选的合作伙伴提供访问权限。

为什么值得注意

漏洞发现自动化是 AI 安全行业的转折点。

之前漏洞发现依赖人类安全研究员,靠经验、靠时间、靠运气。现在模型能在受控环境里系统性地挖掘零日漏洞——而且规模是人力达不到的。

这改变了攻防博弈的成本。防御者可以用 AI 主动发现漏洞,攻击者也可以。

Anthropic 的选择是:只让防御者用。

这个决定的逻辑

把漏洞发现能力开放给防御者,同时限制给攻击者——这个逻辑看起来合理。

但有几个问题官方没有回答:

1. 谁来审核"防御者"的身份

CrowdStrike、Palo Alto Networks 是安全公司,同时也是卖安全产品的公司。让同一批人先知道漏洞、再卖修复方案,这里有利益冲突。

2. 为什么是这些公司

名单里没有独立安全研究机构,没有学术安全团队,只有商业公司。漏洞发现的成果由商业公司优先享有,独立研究员反而被排除在外。

3. 漏洞修复的优先级由谁决定

如果一个漏洞影响数十亿设备,但修复不影响任何 Glasswing 合作伙伴的商业利益,这个漏洞会被优先处理吗?

这些问题 Anthropic 没有给出答案。

关于 Claude Mythos 本身

模型本身的一些参数(来自 Anthropic 官方):

  • 通过 Project Glasswing 访问,暂无公开计划
  • 合作伙伴包括 AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、Nvidia、Linux Foundation、Palo Alto Networks

具体的 benchmark 数据、定价信息,官方没有全部公开。

延伸阅读