Skip to content

16 小时自主作战:Claude Mythos 为什么强到不敢发布

AI Agent 自主工作时距演进METR 50%-Time-Horizon 评估202320242025202610min30min2h10h16hGPT-4 <10 分钟Claude 3 Opus ~30 分钟Claude Opus 4.5 ~2 小时Claude Mythos Preview ≥ 16 小时95% CI: 8.5h – 55h来源: METR 评估数据 · Ethan Mollick @emollick · 2026.05

2026 年 5 月 9 日,Ethan Mollick 转发了一条来自 METR 的评估数据:Claude Mythos Preview 的 50%-time-horizon 达到了 16 小时,95% 置信区间 8.5 到 55 小时。

一个数字。但你不该只看数字,要看它打破了什么。

16 小时是什么概念

METR(Model Evaluation and Threat Research)是当前最权威的 AI 自主能力评估机构。它的 50%-time-horizon 指标衡量的是:一个模型在不依赖人类干预的情况下,能自主完成多长时间的复杂任务。

在这之前,主流模型的时距在 30 分钟到 2 小时之间。Claude Opus 4.5 的评估数据也没有突破这个范围。

16 小时意味着什么?

  • 一场完整的渗透测试——从信息收集到漏洞利用到权限维持——可以全自动化完成
  • 一个复杂的研究课题——从文献检索到实验设计到结果分析——可以交给 AI 独立执行
  • 一个大型代码库的审计——从代码阅读到漏洞发现到修复建议——不需要人类醒来

人类的正常工作日上午 9 点到下午 5 点,扣掉午休和会议,真正的专注工作时间大约 3-4 小时。一个模型能自主工作 16 小时,已经超出了人类单日的有效工作时间。

这不是"更好的聊天机器人"。这是 AI Agent 自主性的一次台阶式跨越

METR 评估说了什么

关键不是 16 小时这个数字本身,而是 METR 在评估报告中的潜台词:当前的评估框架已经不够用了

指标数值含义
50%-time-horizon≥ 16 小时一半以上的复杂任务能自主完成
95% 置信区间下限8.5 小时最低估计也远超前代模型
95% 置信区间上限55 小时部分任务可能需要两天以上的连续工作
评估窗口2026 年 3 月早期版本,正式版可能更强

METR 的现有任务套件是为评测 1-4 小时的模型能力设计的。当模型跨越了 16 小时门槛,现有的评测任务变得"太简单"——模型有充足的时间规划、迭代、试错。

业界当前的评估体系,约等于用小学试卷考大学生。不是大学生太强,是试卷需要升级了。

不只是时距长——能力本身也变了

Claude Mythos Preview 的能力地图不只是"续航长",它在网络安全领域的表现是质的飞跃

27 年零日漏洞

OpenBSD——公认全球最安全的操作系统之一——存在一个 27 年未被发现的漏洞。Claude Mythos Preview 在不到 50 美元的计算成本内找到了它。

98 美元,挖出一个 27 年的零日漏洞。这个成本曲线让整个安全行业无法忽视。

Project Glasswing

Anthropic 为这个模型启动了一个专门的安全项目 Project Glasswing。核心思路:

  1. 用 Mythos 扫描全球最关键的软件基础设施
  2. 主动发现并修复漏洞,而不是等黑客利用
  3. 为整个行业建立新的安全实践标准

这个项目的存在本身就是一个信号:Anthropic 不是在"担心"模型的网络安全能力,而是在用它做实事

Red Team 报告的关键结论

Anthropic 的 Red Team 报告有几个不常被引用的细节:

  • 零门槛效应:非安全专业背景的人,使用 Mythos 也能完成基础的网络攻击。这不是"给黑客的工具",这是"给所有人的攻击工具"
  • 端到端攻击能力:模型能独立完成从小型企业网络的侦察到渗透的完整攻击链
  • 漏洞发现量 > 99% 未修复:报告披露时,99%+ 的已发现漏洞还没有补丁——公开细节可能造成更大危害

为什么 Anthropic 决定不公开发布

这是最反直觉也最值得聊的部分。

从商业角度看:不发布最强模型 = 放弃收入。Claude Opus 4.6 是 Anthropic 的主力收入模型,Mythos Preview 比它更强,但 Anthropic 选择不卖。

从产品思维看,这个决策其实不复杂——锚定用户,而不是锚定功能

大部分 AI 公司的产品逻辑是:模型能力越强 = 产品越好 = 卖得越贵。这是功能锚定。

Anthropic 的逻辑是:用户的信任 = 产品能持续存在 = 长期价值。这是用户锚定。

如果 Mythos 的能力在安全领域被滥用,受损的不只是"这个模型"的声誉,而是 Anthropic 整个品牌的安全可信度。在大模型军备竞赛中,可信度是最难建立的资产。

另一个视角:最危险的类比

这个决定有个不太让人舒服的类比:核材料

你不是因为铀-235 的物理性质"危险"就不研究它。你研究它、理解它、用它发电——但你不把它放在超市货架上。

Mythos 的能力性质决定它不是消费品。它是基础设施级的工具,需要基础设施级的安全措施。

类比维度核材料超级 AI 模型
核心价值清洁能源自主智能
潜在风险核扩散/污染自动化攻击
控制手段许可制+国际监管有限发布+Project Glasswing
不可逆性污染持久一旦开源无法回收
类比决定不公开流通不公开发布

这个类比有争议——很多人会觉得"过于夸张"。但在 Anthropic 内部,这个类比是真实存在的讨论框架。

对独立开发者和 AI 工具生态的启示

这件事离普通人远吗?不那么远。

你的 AI 工具可能比你以为的强

Claude Code、Cursor、Copilot——这些日常编程工具背后的模型也在快速进化。16 小时自主执行可能听起来是"前沿模型的事",但这个曲线的斜率在加速。

回顾时间线:

时间里程碑风险时距
2023 年初GPT-4 发布< 10 分钟
2024 年Claude 3 Opus~30 分钟
2025 年Claude Opus 4.5~2 小时
2026 年 3 月Claude Mythos Preview≥ 16 小时

每代模型的时距大约翻一个数量级。这个趋势没有停下。

如何用长时距 Agent

长时距 Agent 不是"更耐心地聊天",它的产品形态完全不同:

  • 过夜任务:下班前提交一个任务,第二天早上看到完整输出——不再需要实时交互
  • 多轮迭代:Agent 可以自己写代码、跑测试、看错误、改代码、再跑测试——形成一个完整的闭环
  • 复杂项目分解:16 小时的时间窗口允许 Agent 把大问题拆成子问题、规划路径、逐步执行

从现在开始,设计 AI 工作流时应该考虑一个前提:Agent 可能可以保持数小时的有效状态,不需要每次都从头开始。记忆管理、上下文规划、任务分解——这些能力会随着时距的延长而越来越重要。

安全意识的必要性上升

如果最强模型的能力可以用于网络攻击,那么普通开发者的代码也可能成为攻击目标。不是让你恐慌,但安全意识——代码审计、依赖管理、最小权限原则——正在从"好习惯"变成"必需品"。

产品思维的思考:不发布是最优解吗?

回到最初的问题:"能力太强所以不发布"这个逻辑成立吗?

从短期看,成立。从长期看,不成立

6 个月内,不发布保护了 Anthropic 的品牌,避免了潜在的安全灾难,展现了企业责任感。这是理性的。

12-18 个月后,市场会有竞争。如果其他公司(或者开源社区)推出了同等能力的模型——而且发布了——Anthropic 的"不发布"策略就从"负责任"变成了"失去先发优势"。

一个朴素的产品规则:你可以选择不做一个功能,但不能选择别人不做

Project Glasswing 的高明之处在于,它把"不发布"这个防御决策变成了一个主动行动——用模型的能力去加固安全防御,而不是把模型藏起来。这是在争取时间:在模型广泛可用之前,先把防御体系建好。

这是产品策略,不是道德声明。

写在最后

16 小时不是一个终点标记。评估框架的上限是 55 小时——我们甚至不知道这个模型的真实上限在哪。

这不是在预测末日。这是在说:当一个工具的能力超过了你对它的理解速度,你的使用方式需要改变

AI 产品的下一步不是更强的模型,而是更好的"缰绳"——一套能让用户安全、可控地使用强大能力的工程体系。这才是当下最有价值的命题。

能力的上限不是模型参数,是我们对它的驾驭能力。


参考资料

检验标准

  • [ ] 能解释 METR 50%-time-horizon 的含义和意义
  • [ ] 理解 Claude Mythos Preview 在网络安全领域的特殊能力
  • [ ] 能分析 Anthropic 不公开发布 Mythos 的决策逻辑
  • [ ] 理解长时距 Agent 对产品设计和工作流的影响
  • [ ] 能用自己的话解释"能力的上限不是模型参数,是我们对它的驾驭能力"
最近更新

基于 MIT LICENSE 许可发布