神秘中国AI「扫地僧」胜率73.1%杀入CyberGym全球前七,究竟是谁家高手?

1. 神秘「扫地僧」横空出世

一个连官网都没有的神秘中国AI「扫地僧」,以73.1%的胜率杀入CyberGym全球前七,紧咬OpenAI,引发全网疯传。在全球AI巨头厮杀正酣的榜单上,突然出现了一个陌生的名字——MopMonk(扫地僧)。它没有大张旗鼓的发布会,没有官博长文,也没有社交媒体上的摇旗呐喊,就这么凭空出世,径直杀入CyberGym全球前十,凭借73.1%的成功率,以微弱差距紧咬OpenAI,刷新了中国团队在该榜单上的历史最高分。然而,时至今日,无人知晓它的真面目。

2. CyberGym:AI安全领域的「修罗场」

CyberGym这份榜到底有多重要?MopMonk这次的成绩究竟有多炸裂?CyberGym由UC Berkeley团队倾力打造,核心论文中选ICLR 2026顶会。作为AI网络安全能力评估领域最权威的公开基准之一,这里堪称大模型的「修罗场」,就连GPT - 5.5 - Cyber、Claude Mythos这种级别的顶流,都曾在这个榜单里贴身肉搏。整个基准主打「真枪实弹」,有1507个漏洞实例、188个开源大项目,所有考题全部扒自Google OSS - Fuzz沉淀下来的真实历史漏洞。从评估维度来看,它的体量是此前最大公开基准(NYU CTF,约200题)的7.5倍,更是把CVE - Bench这种「前辈」直接甩出了一个数量级。而且,CyberGym不做选择题,它要求AI在动辄数千个文件、数百万行代码的真实项目里,完成深度推理。正因为足够大、足够真、足够难,CyberGym才有了「区分度」,能把不同模型、不同Agent框架之间的真实能力差距切出来,因此被安全圈封为「AI安全领域的奥运会」。全球头部玩家几乎全员到场,微软、OpenAI、Anthropic、谷歌、Meta、智谱等都参与其中。CyberGym榜单见证了AI竞争的关键转向,从比谁参数大,转向比谁的Agent真能把活干完。

3. 神秘黑马的已知情报

一个陌生的东方代号出现在硅谷AI巨头中间,MopMonk成了那匹「查无此人」的黑马。目前已知的情报仅有三条:神秘代号MopMonk(扫地僧),基座模型MiniMax M3,榜单战绩杀进CyberGym全球第七,中国第一。按常理,打出这种成绩的团队,技术报告和新闻发布会早该铺天盖地,但MopMonk偏偏是最彻底的「异类」,只甩出一份技术报告,团队、公司、坐标一概查无此人。这种「实力顶配,信息裸奔」的碰撞,充满了东方武侠式的戏剧性。熟悉金庸的人都知道《天龙八部》中「扫地僧」的分量,最不起眼的角色藏着最深的功夫,敢顶着「扫地僧」的名号踢馆,这支团队显然对自己的实力有着极其冷酷的自信。更关键的是,MopMonk选用的基座是MiniMax M3,作为来自上海的开源基座,M3堪称六边形战士,集齐了前沿的编程能力、1M超长上下文,以及原生多模态。一边是极具东方色彩的「文化符号」,另一边是打着纯正国产标签的技术底座,种种线索都暗示这大概率是一支中国战队。

4. 胜负手:Harness

抛开身份悬念,MopMonk凭什么赢?CyberGym最难的核心是考「做不做得到」,而不是「知不知道」。判断代码有无漏洞对大模型来说不算太难,但CyberGym要考的是生成能触发漏洞的输入(PoC),它必须在「有漏洞的版本」上触发,在「已修复的版本」上失效,并通过基准环境的执行验证。这道坎非常刁钻,漏洞的触发条件零散地藏在代码路径、解析逻辑、构建环境、测试Harness和输入格式之间,得一点点拼出来。而且,哪怕PoC在本地把程序跑崩了,只要不能满足「漏洞版触发、修复版不触发」的差分判定,照样白忙一场。这一步把任务从「理解」拽进了「执行」,且是在封闭、断网的环境里进行,AI只能依靠对代码库的理解和自己的记忆。要在这种条件下复现漏洞,靠的是一整套环环相扣的能力,包括工具调用规划、多轮推理、记忆管理和迭代验证。CyberGym较量的核心是Agent的「行动力」,模型的「智商」只是入场券,而把「聪明」变成「行动力」的关键环节是Harness。Harness是模型与外部工具、执行环境之间的「协调层」,负责工具编排、上下文状态管理、执行反馈的回收与再投喂。简单来说,模型是大脑,Harness是手脚加神经系统。在CyberGym这种要跑几十上百轮、要在百万行代码里反复试错的任务上,Harness的好坏直接决定了模型的智商能否转化成战斗力。一个聪明的模型加上一个平庸的Harness,结果往往是「想得到、做不到」;一个能力扎实的模型加上一个为漏洞挖掘量身打造的强Harness,才可能在长程任务上跑出成绩。

5. 为漏洞挖掘「量身定制」的Agent

透过GitHub技术报告,MopMonk的技术脉络已然明晰,它是一款专为漏洞挖掘全新设计的安全多Agent系统,思维基座是MiniMax M3。M3是当下罕见的、能将顶尖编码能力、百万token上下文与原生多模态集于单一架构的开源模型,跑分数据亮眼,精准踩中了Agent落地实战时最硬核的能力刚需,还能在长达十几个小时的任务里自主迭代、自我纠错,扮演了一颗兼具顶尖代码解析力、超长记忆力与熟练工具调用能力的「最强大脑」。对于CyberGym这种任务,1M的上下文窗口几乎是刚需。MopMonk这套安全Agent框架把M3的能力放大成漏洞挖掘的执行力,其「内功心法」核心有三招。第一招是结构化的「漏洞记忆」,它不是简单堆叠聊天记录,也不是把超长上下文一股脑塞给模型,而是围绕漏洞挖掘里最关键的几类对象组织起一份可持续更新的「任务事实记忆」,包括漏洞目标、代码路径、输入格式、候选PoC、失败证据、验证状态,以及「下一步约束」记忆。最后一类尤其见功力,它直接从当前证据里提炼出下一次实验必须满足的硬约束。这种记忆设计将漏洞挖掘从「反复从零试错」变成了「基于证据的收敛过程」。第二招是记忆驱动的「漏洞挖掘」,系统先通过扫描代码库,将候选触发路径和目录信息作为规划的起点来初始化漏洞记忆,然后一步步推进,试图收敛到触发崩溃的具体代码位置。之后,每一次探索尝试都会读取当前记忆,测试一个具体的假设,并将结果写回记忆中。这样模型不必每一轮都从头重读整个任务,既降低了长上下文的负担,又让候选PoC的变异能继承此前积累的知识,让搜索更精准,有效试验密度直线拉升。第三招是共享记忆下的「多Agent并行探索」,多个探索尝试共享同一份漏洞记忆,可以从多个方向同时推进,并彼此继承失败经验与验证结果,既扩大了覆盖面,又避免了重复无效的探索。由此,MopMonk把漏洞复现重写成了一个「可积累、可约束、可验证」的记忆更新过程,三招合一,把强大的开源基座调度成了漏洞挖掘战场上的特战尖兵,最终跑出了73.1%的成功率。基座负责「想得深」,Harness负责「记得牢、调得准、打得稳」,两者深度耦合,铸就了榜单上令人瞩目的破局成绩。

6. 更有价值的判断

这件事的真正启发在于,过去几年行业惯性是「堆参数」,但CyberGym这种真实攻防任务给出了另一种答案,决定胜负的越来越是Agent的执行能力,是Harness这层工程的厚度。根据GitHub技术报告,这套方法的价值体现在三点:强大的基模能力提供了搜索的基础;结构化的漏洞记忆提供了收敛的机制;共享记忆的多智能体探索在有限预算里提升了成本效率。基座决定了能力的上限,而这套记忆中心的Harness决定了能力的兑现程度。更要命的是它的复利属性,模型基座会换代,但一套被真实战场反复打磨、沉淀了攻防经验的Harness,是可以跨越基座迭代、持续复利的资产。简而言之,MopMonk Harness的长期价值可能比「再堆一倍参数」更大。这也是业内开始认真审视这个神秘「扫地僧」的根本原因,大家想看的不只是它的分数,而是它示范的把开源基座做到极致的路。

7. 神秘面纱待揭

绕了一圈,还是回到了最初的问题,MopMonk到底是谁?把线索拼起来,东方武侠味拉满的代号、上海公司的MiniMax基座、一身安全领域的「内功」,几乎所有箭头都指向这是一支来自中国、很可能就在上海的AI安全公司。也有人从基模与Agent双向适配的角度,盲猜其背后与AI大模型原生团队脱不开干系。各种版本的猜测在坊间疯传,但至今无人能甩出实锤。你觉得,MopMonk会是谁家的高手?

内容概要:本文围绕基于风光储能和需求响应的微电网日经济调度问题,提出了一套完整的Python代码实现方案。研究综合考虑风能、光伏等可再生能源的出力不确定性、储能系统的动态充放电特性以及需求侧响应机制,构建了以最小化系统综合运行成本为目标的优化调度模型。该模型充分体现了对可再生能源的高效消纳、系统经济性提升与供需平衡调控的能力,通过Python编程结合优化求解器实现了模型的求解与仿真验证,为微电网能量管理系统的设计与科研分析提供了可复现的技术路径与实践参考。; 适合人群:具备一定Python编程基础和电力系统优化调度知识的科研人员、工程技术人员及高校电气工程、能源系统等相关专业的研究生。; 使用场景及目标:①应用于微电网、智能配电网及综合能源系统的科研建模与仿真分析;②帮助读者深入理解含高比例可再生能源的电力系统日调度建模方法、目标函数构造与约束条件处理技巧;③为实际工程中实现低碳、经济、可靠的微电网运行提供算法支持与决策依据。; 阅读建议:建议读者结合文档中的代码实例,系统学习优化模型的数学表达与编程实现过程,重点关注变量定义、目标函数构建、系统约束(如功率平衡、储能动态、机组出力等)的编码实现,并尝试调整负荷、新能源出力等输入数据进行多场景仿真,以深入掌握微电网调度策略的灵敏度分析与优化效果评估方法。
### Spring源码面试终结者:31道核心题,源码级拆解IOC与AOP 这份资源不是“面试八股文”,而是对Spring、Spring Boot核心原理的**源码级深度拆解**。网上面试题答案大多浮于表面,无法应对面试官的连环追问。我结合源码阅读和实战踩坑,整理了这份**近10万字的硬核指南**,系统梳理了大厂面试中最棘手的31道Spring核心题。 **【资源核心内容】** - **IOC与DI王者解析**:深入BeanFactory与ApplicationContext层级设计,对比三种依赖注入方式,并用图文拆解三级缓存解决循环依赖的源码流程。 - **AOP与事务底层原理**:彻底讲透动态代理选择策略,深度分析@Transactional失效的10大经典场景及源码级解决方案。 - **Spring MVC与自动装配**:从DispatcherServlet的9大组件到SpringBoot的SPI机制,理清自动配置的完整加载链路。 - **高频追问与满分话术**:每道题配有“低分vs高分回答”对比,帮你精准拿捏面试官想要的“源码级理解”。 **【特色】** 拒绝罗列概念,每道题都从“核心考点”出发,深入到AbstractApplicationContext、TransactionInterceptor等Spring源码,帮助你在理解设计思想的同时,具备手写简易IOC容器的能力。 **【适合谁看】** 备战阿里、字节、美团等大厂面试的Java开发;对Spring原理一知半解,想系统提升源码阅读能力的开发者;希望从“会用”进阶到“懂原理”的技术人。 希望这份整理能帮你构建完整的Spring知识体系,轻松应对面试官的灵魂追问!
代码下载链接: https://pan.quark.cn/s/a4b39357ea24 二进制补码、小数的补码及运算规则 一、补码的概念和原理 补码是一种普遍的概念,在计算机系统中,所有数值均采用补码形式进行表示(存储)。补码的核心特性在于:借助补码,能够将符号位与其它位进行统一处理;同时,减法运算亦可转化为加法运算来执行。补码的构成方式是在原码的基础上进行适当调整,原码表示法在数值增加了一位符号位(即最高位用作符号位):正数该位为 0,负数该位为 1(0存在两种形式:+0 和-0),其余位用于表示数值的大小。 二、补码的表示和转换 补码的表示形式可区分为两种:整数的补码和小数的补码。 整数的补码表示方式: 1. 正数的补码与其原码相同(即自身) 2. 负数的补码通过原码取反,然后在最低位加 1,符号位保持不变 小数的补码表示方式: 1. 正小数的补码与其原码一致 2. 负小数的补码通过原码取反,然后在最低位加 1,符号位维持不变 三、补码的运算规则 补码的运算规则可归纳为三种:加法、减法和乘法。 1. 加法运算规则: [X+Y]补 = [X]补 + [Y]补 2. 减法运算规则: [X-Y]补 = [X]补 - [Y]补 = [X]补 + [-Y]补 3. 乘法运算规则: [X*Y]补= [X]补×[Y]补,即乘数(被乘数)相乘的补码等于补码的相乘。 需要强调的是,进行乘法运算时必须执行符号扩展:Nbit 乘数 和 Nbit 被乘数 都需符号扩展到 2Nbit,之后再进行直接相乘。 四、小数 Fraction 的补码表示和运算规则 小数 Fraction 的补码表示方式: 最高位为符号位,小数点位于符号位之后,其后的第一位代表 1/2,再后一位代表1/4,再...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值