Mythos模型：大模型+强化学习驱动的系统级漏洞发现新范式

原创

于 2026-06-15 09:05:42 发布 · 586 阅读

标签

#Mythos #强化学习 #漏洞发现

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

1. 这不是一次普通模型发布：Mythos 的真实分量，得从“人”开始讲起

我第一次看到 Mythos 的公开资料时，正调试一个嵌入式设备的固件更新失败问题。手边是台三年前的 ThinkPad，风扇在低负载下都嗡嗡作响，而屏幕上滚动着一堆 Python 脚本日志——那是我用 Opus 4.6 写的自动化漏洞扫描器，跑了整整一晚上，只报出两个低危配置项，其中一个还是我手动改错的路径拼写。就在我准备关机去煮面的时候，邮件提醒弹了出来：Anthropic 发布了 Claude Mythos Preview，附带一张截图——它在 37 分钟内，从零开始复现并利用了 FreeBSD 中一个被标记为“已归档”的远程代码执行漏洞（CVE-2026–4747），整个过程没有人工干预，连 exploit payload 的 shellcode 都是自动生成、动态绕过 ASLR 和 Stack Canary 的。

这不是科幻小说里的桥段。这是真实发生在我职业日常边缘的一次“能力越界”。过去十年，我做过安全咨询、带过红队、也教过高校的渗透测试课。我清楚地知道，一个能稳定复现 17 年前漏洞的模型，意味着什么：它不再只是“辅助工具”，而是开始具备某种 可迁移的攻击直觉 ——那种人类老手靠肌肉记忆和经验沉淀下来的、对内存布局异常敏感、对符号执行边界天然警惕、对编译器优化后留下的逻辑缝隙本能嗅探的能力。Mythos 不是更“快”的 Opus，它是换了一套认知底层：它把“找 bug”这件事，从“搜索已知模式”升级成了“推演系统失衡点”。

关键词里反复出现的 “Towards AI - Medium”，其实恰恰反衬出这件事的荒诞感：一篇发表在 Medium 上的技术评论，正在描述一种可能让 Medium 自己的 CMS 系统在一夜之间暴露于未授权 root 访问风险之下的能力。这不是技术乐观主义，也不是末日论调，而是一个再朴素不过的事实：当一个模型能在 SWE-bench Pro 上拿到 77.8%（Opus 是 53.4%），在 CyberGym 上达到 83.1%（Opus 是 66.6%），它已经跨过了“能做”和“做得比多数人好”的分水岭，站到了“能做且不可替代”的临界点上。而 Anthropic 选择把它锁进 Project Glasswing——一个由 AWS、Apple、Microsoft、NVIDIA、JPMorgan Chase 等 40 多家关键基础设施持有者组成的封闭联盟——这个动作本身，比任何 benchmark 数字都更有力地说明：他们不是在发布一个产品，而是在启动一场 有边界的军备竞赛 。这场竞赛的参赛者不是公司，而是国家与生态；它的战利品不是市场份额，而是未来五年全球软件供应链的防御纵深与攻击窗口。你不需要是 CISO 才能理解它的重量；你只需要曾经为修复一个凌晨三点弹出的 Log4j 告警而彻夜未眠，就能立刻明白：Mythos 不是让安全工作变简单了，而是让“不做安全工作”的代价，变得前所未有地昂贵和不可承受。

2. 核心设计思路拆解：为什么是“大模型 + 强 RL”？而不是“更强的 RL”或“更大的纯预训练”？

2.1 从 GPT-4.5 的“哑火”说起：一个被误读的教训

很多人把 Mythos 的突破，简单归因为“模型又变大了”。这就像看见一辆 F1 赛车跑出 370km/h，就断言“引擎排量翻倍了”。但真实情况要复杂得多。我们得先回看 GPT-4.5 这个“反面教材”。它确实是 OpenAI 当时参数量最大的聊天模型，但它的市场反响平平，甚至被部分从业者私下称为“规模幻觉的破灭时刻”。当时主流解读是：“纯靠堆参数的时代结束了，RLHF 和推理时计算（test-time compute）才是王道。”

这个结论，在当时有其合理性，但它忽略了一个关键变量： 时间差 。GPT-4.5 的预训练完成于 2024 年底，而它所依赖的 RLHF 流程，沿用的是 2023 年中期的成熟范式。就在它封版后的三个月内，OpenAI、Anthropic 和 Google 几乎同步迭代出了新一代的 RL 框架：它们不再满足于用人类反馈微调最终输出，而是将强化学习深度嵌入到 推理链的每一个决策节点 。比如，在生成一个 exploit 时，旧框架只关心“最终 payload 是否能执行”，新框架则会为“选择哪个寄存器作为跳转目标”、“是否需要插入 NOP sled”、“如何动态计算栈偏移”等中间步骤分别设置 reward signal，并通过多步 rollout 进行联合优化。这种变化，让模型的“思考过程”本身变成了可塑的、可训练的对象，而不仅仅是输出结果的装饰。

Mythos 正是这套“新 RL 重器”的首个完整载体。Anthropic 官方虽未公布具体参数，但从定价策略可以反向推算：Mythos Preview 输入 token 价格是 $25/百万，输出是 $125/百万；Opus 4.6 对应价格是 $5 和 $25。这意味着 Mythos 单次推理的计算成本，是 Opus 的 5 倍 。如果仅仅是模型更大，推理成本通常呈平方根关系增长（例如参数翻 4 倍，FLOPs 翻 2 倍）；而 5 倍的成本跃升，强烈暗示其推理过程引入了大量 高开销的、结构化的 RL 推理循环 ——比如在生成 exploit 前，先进行数十轮的“假设-模拟-验证”沙盒推演，每一轮都调用一个轻量级子模型评估当前 exploit 构思在特定内存布局下的成功率。这解释了为什么 AISI 的测试显示，Mythos 的性能在 100M token 的推理预算内持续提升：它不是在“猜”，而是在“穷举+剪枝+再穷举”的闭环中，用算力兑换确定性。

2.2 “通用性”背后的精妙取舍：为何不做一个专用“黑客模型”？

Anthropic 反复强调 Mythos 是“通用前沿模型”，而非“窄域网络安全模型”。这听起来像公关话术，实则是经过深思熟虑的工程哲学。我曾参与过某银行定制化“钓鱼邮件识别模型”的开发，客户最初要求“只要能 100% 识别出所有新型钓鱼链接就行”。我们做到了，模型在内部测试集上准确率 99.2%，但上线一周后，误报率飙升至 18%，原因很简单：它把所有带 URL 缩短服务的合法营销邮件都判为了钓鱼。问题出在哪？出在 泛化能力的坍塌 。专用模型为了在狭窄任务上追求极致，会主动放弃对世界其他维度的理解，导致其决策边界在真实、嘈杂、充满灰色地带的环境中变得极其脆弱。

Mythos 走了另一条路：它用海量、异构的代码、文档、协议规范、历史 CVE 报告、甚至开源项目 commit log 作为训练语料，强制模型构建一个关于“软件如何被构建、如何被运行、如何被破坏”的 统一心智模型 。它发现 FFmpeg 的那个 16 年老 bug，不是因为它被喂过 FFmpeg 的源码，而是因为它理解“音视频解码器在处理畸形帧时，其状态机如何因缓冲区管理逻辑缺陷而进入未定义行为”，这个理解，同样适用于解析 PDF 的 Ghostscript 或渲染 HTML 的 WebKit。这种基于原理的泛化，远比基于模式匹配的泛化鲁棒得多。你可以把它想象成一个顶级外科医生：他不是靠记住一万种肿瘤照片来诊断癌症，

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅