Claude Mythos:Anthropic 发布了一个模型,然后把它藏起来
Anthropic 发布 Claude Mythos。
然后把它藏起来了。
不是没发布。是发布了,但普通人用不了。
官方说这个模型能做什么
根据 Anthropic 官方公告,Claude Mythos 在受控测试中发现了数千个零日漏洞,覆盖所有主流操作系统和浏览器——包括 Linux kernel。
有几个被单独提出来:
- 在每个主流浏览器里发现了漏洞
- 在 Linux kernel 里发现了漏洞,并且能把多个漏洞串联起来,形成完整的攻击路径
这个能力是真实需求驱动的。Anthropic 提到,他们发现有人已经在用 Claude 挖漏洞、开发恶意软件、提取敏感数据、发勒索信。
所以 Anthropic 做了一个选择:模型发布,但不公开。通过 Project Glasswing,只向经过筛选的合作伙伴提供访问权限。
为什么值得注意
漏洞发现自动化是 AI 安全行业的转折点。
之前漏洞发现依赖人类安全研究员,靠经验、靠时间、靠运气。现在模型能在受控环境里系统性地挖掘零日漏洞——而且规模是人力达不到的。
这改变了攻防博弈的成本。防御者可以用 AI 主动发现漏洞,攻击者也可以。
Anthropic 的选择是:只让防御者用。
这个决定的逻辑
把漏洞发现能力开放给防御者,同时限制给攻击者——这个逻辑看起来合理。
但有几个问题官方没有回答:
1. 谁来审核"防御者"的身份
CrowdStrike、Palo Alto Networks 是安全公司,同时也是卖安全产品的公司。让同一批人先知道漏洞、再卖修复方案,这里有利益冲突。
2. 为什么是这些公司
名单里没有独立安全研究机构,没有学术安全团队,只有商业公司。漏洞发现的成果由商业公司优先享有,独立研究员反而被排除在外。
3. 漏洞修复的优先级由谁决定
如果一个漏洞影响数十亿设备,但修复不影响任何 Glasswing 合作伙伴的商业利益,这个漏洞会被优先处理吗?
这些问题 Anthropic 没有给出答案。
关于 Claude Mythos 本身
模型本身的一些参数(来自 Anthropic 官方):
- 通过 Project Glasswing 访问,暂无公开计划
- 合作伙伴包括 AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、Nvidia、Linux Foundation、Palo Alto Networks
具体的 benchmark 数据、定价信息,官方没有全部公开。