神秘中国AI「扫地僧」胜率73.1%杀入CyberGym全球前七，究竟是谁家高手？

转载于 2026-06-30 17:15:59 发布 · 6 阅读

1. 神秘「扫地僧」横空出世

一个连官网都没有的神秘中国AI「扫地僧」，以73.1%的胜率杀入CyberGym全球前七，紧咬OpenAI，引发全网疯传。在全球AI巨头厮杀正酣的榜单上，突然出现了一个陌生的名字——MopMonk（扫地僧）。它没有大张旗鼓的发布会，没有官博长文，也没有社交媒体上的摇旗呐喊，就这么凭空出世，径直杀入CyberGym全球前十，凭借73.1%的成功率，以微弱差距紧咬OpenAI，刷新了中国团队在该榜单上的历史最高分。然而，时至今日，无人知晓它的真面目。

2. CyberGym：AI安全领域的「修罗场」

CyberGym这份榜到底有多重要？MopMonk这次的成绩究竟有多炸裂？CyberGym由UC Berkeley团队倾力打造，核心论文中选ICLR 2026顶会。作为AI网络安全能力评估领域最权威的公开基准之一，这里堪称大模型的「修罗场」，就连GPT - 5.5 - Cyber、Claude Mythos这种级别的顶流，都曾在这个榜单里贴身肉搏。整个基准主打「真枪实弹」，有1507个漏洞实例、188个开源大项目，所有考题全部扒自Google OSS - Fuzz沉淀下来的真实历史漏洞。从评估维度来看，它的体量是此前最大公开基准（NYU CTF，约200题）的7.5倍，更是把CVE - Bench这种「前辈」直接甩出了一个数量级。而且，CyberGym不做选择题，它要求AI在动辄数千个文件、数百万行代码的真实项目里，完成深度推理。正因为足够大、足够真、足够难，CyberGym才有了「区分度」，能把不同模型、不同Agent框架之间的真实能力差距切出来，因此被安全圈封为「AI安全领域的奥运会」。全球头部玩家几乎全员到场，微软、OpenAI、Anthropic、谷歌、Meta、智谱等都参与其中。CyberGym榜单见证了AI竞争的关键转向，从比谁参数大，转向比谁的Agent真能把活干完。

3. 神秘黑马的已知情报

一个陌生的东方代号出现在硅谷AI巨头中间，MopMonk成了那匹「查无此人」的黑马。目前已知的情报仅有三条：神秘代号MopMonk（扫地僧），基座模型MiniMax M3，榜单战绩杀进CyberGym全球第七，中国第一。按常理，打出这种成绩的团队，技术报告和新闻发布会早该铺天盖地，但MopMonk偏偏是最彻底的「异类」，只甩出一份技术报告，团队、公司、坐标一概查无此人。这种「实力顶配，信息裸奔」的碰撞，充满了东方武侠式的戏剧性。熟悉金庸的人都知道《天龙八部》中「扫地僧」的分量，最不起眼的角色藏着最深的功夫，敢顶着「扫地僧」的名号踢馆，这支团队显然对自己的实力有着极其冷酷的自信。更关键的是，MopMonk选用的基座是MiniMax M3，作为来自上海的开源基座，M3堪称六边形战士，集齐了前沿的编程能力、1M超长上下文，以及原生多模态。一边是极具东方色彩的「文化符号」，另一边是打着纯正国产标签的技术底座，种种线索都暗示这大概率是一支中国战队。

4. 胜负手：Harness

抛开身份悬念，MopMonk凭什么赢？CyberGym最难的核心是考「做不做得到」，而不是「知不知道」。判断代码有无漏洞对大模型来说不算太难，但CyberGym要考的是生成能触发漏洞的输入（PoC），它必须在「有漏洞的版本」上触发，在「已修复的版本」上失效，并通过基准环境的执行验证。这道坎非常刁钻，漏洞的触发条件零散地藏在代码路径、解析逻辑、构建环境、测试Harness和输入格式之间，得一点点拼出来。而且，哪怕PoC在本地把程序跑崩了，只要不能满足「漏洞版触发、修复版不触发」的差分判定，照样白忙一场。这一步把任务从「理解」拽进了「执行」，且是在封闭、断网的环境里进行，AI只能依靠对代码库的理解和自己的记忆。要在这种条件下复现漏洞，靠的是一整套环环相扣的能力，包括工具调用规划、多轮推理、记忆管理和迭代验证。CyberGym较量的核心是Agent的「行动力」，模型的「智商」只是入场券，而把「聪明」变成「行动力」的关键环节是Harness。Harness是模型与外部工具、执行环境之间的「协调层」，负责工具编排、上下文状态管理、执行反馈的回收与再投喂。简单来说，模型是大脑，Harness是手脚加神经系统。在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上，Harness的好坏直接决定了模型的智商能否转化成战斗力。一个聪明的模型加上一个平庸的Harness，结果往往是「想得到、做不到」；一个能力扎实的模型加上一个为漏洞挖掘量身打造的强Harness，才可能在长程任务上跑出成绩。

5. 为漏洞挖掘「量身定制」的Agent

透过GitHub技术报告，MopMonk的技术脉络已然明晰，它是一款专为漏洞挖掘全新设计的安全多Agent系统，思维基座是MiniMax M3。M3是当下罕见的、能将顶尖编码能力、百万token上下文与原生多模态集于单一架构的开源模型，跑分数据亮眼，精准踩中了Agent落地实战时最硬核的能力刚需，还能在长达十几个小时的任务里自主迭代、自我纠错，扮演了一颗兼具顶尖代码解析力、超长记忆力与熟练工具调用能力的「最强大脑」。对于CyberGym这种任务，1M的上下文窗口几乎是刚需。MopMonk这套安全Agent框架把M3的能力放大成漏洞挖掘的执行力，其「内功心法」核心有三招。第一招是结构化的「漏洞记忆」，它不是简单堆叠聊天记录，也不是把超长上下文一股脑塞给模型，而是围绕漏洞挖掘里最关键的几类对象组织起一份可持续更新的「任务事实记忆」，包括漏洞目标、代码路径、输入格式、候选PoC、失败证据、验证状态，以及「下一步约束」记忆。最后一类尤其见功力，它直接从当前证据里提炼出下一次实验必须满足的硬约束。这种记忆设计将漏洞挖掘从「反复从零试错」变成了「基于证据的收敛过程」。第二招是记忆驱动的「漏洞挖掘」，系统先通过扫描代码库，将候选触发路径和目录信息作为规划的起点来初始化漏洞记忆，然后一步步推进，试图收敛到触发崩溃的具体代码位置。之后，每一次探索尝试都会读取当前记忆，测试一个具体的假设，并将结果写回记忆中。这样模型不必每一轮都从头重读整个任务，既降低了长上下文的负担，又让候选PoC的变异能继承此前积累的知识，让搜索更精准，有效试验密度直线拉升。第三招是共享记忆下的「多Agent并行探索」，多个探索尝试共享同一份漏洞记忆，可以从多个方向同时推进，并彼此继承失败经验与验证结果，既扩大了覆盖面，又避免了重复无效的探索。由此，MopMonk把漏洞复现重写成了一个「可积累、可约束、可验证」的记忆更新过程，三招合一，把强大的开源基座调度成了漏洞挖掘战场上的特战尖兵，最终跑出了73.1%的成功率。基座负责「想得深」，Harness负责「记得牢、调得准、打得稳」，两者深度耦合，铸就了榜单上令人瞩目的破局成绩。

6. 更有价值的判断

这件事的真正启发在于，过去几年行业惯性是「堆参数」，但CyberGym这种真实攻防任务给出了另一种答案，决定胜负的越来越是Agent的执行能力，是Harness这层工程的厚度。根据GitHub技术报告，这套方法的价值体现在三点：强大的基模能力提供了搜索的基础；结构化的漏洞记忆提供了收敛的机制；共享记忆的多智能体探索在有限预算里提升了成本效率。基座决定了能力的上限，而这套记忆中心的Harness决定了能力的兑现程度。更要命的是它的复利属性，模型基座会换代，但一套被真实战场反复打磨、沉淀了攻防经验的Harness，是可以跨越基座迭代、持续复利的资产。简而言之，MopMonk Harness的长期价值可能比「再堆一倍参数」更大。这也是业内开始认真审视这个神秘「扫地僧」的根本原因，大家想看的不只是它的分数，而是它示范的把开源基座做到极致的路。

7. 神秘面纱待揭

绕了一圈，还是回到了最初的问题，MopMonk到底是谁？把线索拼起来，东方武侠味拉满的代号、上海公司的MiniMax基座、一身安全领域的「内功」，几乎所有箭头都指向这是一支来自中国、很可能就在上海的AI安全公司。也有人从基模与Agent双向适配的角度，盲猜其背后与AI大模型原生团队脱不开干系。各种版本的猜测在坊间疯传，但至今无人能甩出实锤。你觉得，MopMonk会是谁家的高手？