引言
在青少年编程教育中,C++ 和 Python 的文本代码评测(OJ)技术已相对成熟,但 Scratch 等图形化编程的自动化评测一直是行业痛点。特别是对于“创意类”题目(如动画、游戏),传统的测试点比对完全失效。
近期,我们在重构考级100编程网的评测引擎时,探索出了一套**“确定性算法评测 + 不确定性 AI 创意评估”**的双模架构,成功实现了 Web 端 Scratch 程序的即时反馈。本文将分享这套系统的核心设计思路与实现细节。
一、核心挑战:图形化代码如何“被理解”?
与文本代码不同,Scratch 项目是以 XML/JSON 格式存储的积木组合。要实现自动评测,我们需要解决两个维度的问题:
逻辑正确性:如何像 C++ OJ 一样,通过输入/输出验证算法逻辑?
创意完整性:如何量化评估一个“打地鼠”游戏的交互流畅度、素材丰富度和代码规范性?
二、技术方案详解
1. 算法题自动评测:沙箱隔离与执行流模拟
针对 GESP、PTA 等算法类题目,我们采用了头模式(Headless Mode)执行引擎。
执行环境:基于 modified scratch-vm,在服务端构建无头浏览器环境(Headless Chrome/Puppeteer),剥离渲染层,仅保留逻辑执行核心。
数据注入:通过拦截 prompt 和 console.log 等原生积木,重定向为标准输入输出流(STDIN/STDOUT)。
多组测试并发:
系统自动提取题目配置的 N 组测试数据。
为每组数据启动独立的 Docker 容器或沙箱进程,防止全局变量污染。
超时与内存控制:严格限制单题执行时间(如 1s)和内存占用,防止死循环积木拖垮服务。
(此处可插入一张架构图:用户提交 -> 网关 -> 任务队列 -> 沙箱集群 -> 结果聚合)
2. 创意题 AI 智能评测:大模型多维分析
针对电子学会、蓝桥杯等创意赛题,我们引入了 LLM(大语言模型)+ 静态代码分析 的混合评估引擎。
特征提取:
代码规范:分析积木嵌套深度、冗余积木、事件触发机制是否合理。
资源分析:统计角色数量、背景切换逻辑、音效使用情况。
交互逻辑:通过自动化脚本模拟用户点击,检测关键交互点是否响应。
AI 评分维度:
将提取的特征结构化后,送入微调后的教育垂类大模型,从以下维度打分:
完整性:故事/游戏是否有明确的开始、过程和结束?
交互性:用户操作是否有即时反馈?
创意度:素材运用和逻辑设计是否有新意?
规范性:是否存在“屎山代码”(如大量的重复积木堆叠)?
生成评语:模型不仅给出分数,还会生成类似“建议将‘重复执行’内的判断逻辑提取为自定义积木,以提高可读性”的个性化建议。

三、工程落地与性能优化
在实际部署中(基于 .NET 8 + Vue2 架构),我们遇到了以下挑战并进行了优化:
高并发下的资源隔离:
采用消息队列(RabbitMQ/Kafka)削峰填谷,评测任务异步处理。利用 Kubernetes 弹性伸缩沙箱节点,确保在赛事高峰期(如周末下午)也能秒级响应。
前端编辑器的轻量化:
对开源 Scratch 编辑器进行裁剪,移除不必要的素材库和网络请求,使其在弱网环境下也能流畅加载,并完美兼容Mac苹果操作系统上的浏览器。
统一账号体系:
打通了 C++、Python 和 Scratch 的底层用户模型,学生只需一个账号,即可在不同语言赛道间无缝切换,积分与成就系统互通。
四、应用效果
该双模评测系统目前已应用于考级100编程网的日常训练与模拟赛中。
覆盖场景:支持从基础算法题到复杂互动游戏的全类型题目。
反馈效率:算法题平均判题耗时 < 5s,创意题 AI 分析报告生成时间 < 8s。
用户价值:帮助学生从“写完即止”转变为“即时迭代”,显著提升了备赛效率。

五、总结与展望
图形化编程的自动化评测不是简单的“运行代码”,而是对计算思维的量化过程。通过结合传统沙箱技术与新兴的 AI 大模型,我们让机器也能读懂孩子的创意。
未来,我们计划进一步开放 API,支持更多自定义积木的评测规则,并探索基于 AI 的“一对一虚拟助教”功能。
关于项目
本文提到的系统已在考级100编程网上线运行。如果你也是编程教育从业者,或对图形化评测技术感兴趣,欢迎访问网站体验,或在评论区交流技术细节。 考级100编程网
https://kaoji100.com
711

被折叠的 条评论
为什么被折叠?



