基于 Web 的 Scratch 图形化编程双模评测系统架构设计与实现

原创已于 2026-03-19 10:28:09 修改 · 置顶 · 690 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#青少年编程 #少儿编程 #Scratch OJ #图形化编程AI评测

于 2026-03-19 10:02:56 首次发布

少儿编程专栏收录该内容

1 篇文章

订阅专栏

引言
在青少年编程教育中，C++ 和 Python 的文本代码评测（OJ）技术已相对成熟，但 Scratch 等图形化编程的自动化评测一直是行业痛点。特别是对于“创意类”题目（如动画、游戏），传统的测试点比对完全失效。
近期，我们在重构考级100编程网的评测引擎时，探索出了一套**“确定性算法评测 + 不确定性 AI 创意评估”**的双模架构，成功实现了 Web 端 Scratch 程序的即时反馈。本文将分享这套系统的核心设计思路与实现细节。

一、核心挑战：图形化代码如何“被理解”？
与文本代码不同，Scratch 项目是以 XML/JSON 格式存储的积木组合。要实现自动评测，我们需要解决两个维度的问题：
逻辑正确性：如何像 C++ OJ 一样，通过输入/输出验证算法逻辑？
创意完整性：如何量化评估一个“打地鼠”游戏的交互流畅度、素材丰富度和代码规范性？

二、技术方案详解
1. 算法题自动评测：沙箱隔离与执行流模拟
针对 GESP、PTA 等算法类题目，我们采用了头模式（Headless Mode）执行引擎。
执行环境：基于 modified scratch-vm，在服务端构建无头浏览器环境（Headless Chrome/Puppeteer），剥离渲染层，仅保留逻辑执行核心。
数据注入：通过拦截 prompt 和 console.log 等原生积木，重定向为标准输入输出流（STDIN/STDOUT）。
多组测试并发：
系统自动提取题目配置的 N 组测试数据。
为每组数据启动独立的 Docker 容器或沙箱进程，防止全局变量污染。
超时与内存控制：严格限制单题执行时间（如 1s）和内存占用，防止死循环积木拖垮服务。
(此处可插入一张架构图：用户提交 -> 网关 -> 任务队列 -> 沙箱集群 -> 结果聚合)
2. 创意题 AI 智能评测：大模型多维分析
针对电子学会、蓝桥杯等创意赛题，我们引入了 LLM（大语言模型）+ 静态代码分析的混合评估引擎。
特征提取：
代码规范：分析积木嵌套深度、冗余积木、事件触发机制是否合理。
资源分析：统计角色数量、背景切换逻辑、音效使用情况。
交互逻辑：通过自动化脚本模拟用户点击，检测关键交互点是否响应。
AI 评分维度：
将提取的特征结构化后，送入微调后的教育垂类大模型，从以下维度打分：
完整性：故事/游戏是否有明确的开始、过程和结束？
交互性：用户操作是否有即时反馈？
创意度：素材运用和逻辑设计是否有新意？
规范性：是否存在“屎山代码”（如大量的重复积木堆叠）？
生成评语：模型不仅给出分数，还会生成类似“建议将‘重复执行’内的判断逻辑提取为自定义积木，以提高可读性”的个性化建议。

三、工程落地与性能优化
在实际部署中（基于 .NET 8 + Vue2 架构），我们遇到了以下挑战并进行了优化：
高并发下的资源隔离：
采用消息队列（RabbitMQ/Kafka）削峰填谷，评测任务异步处理。利用 Kubernetes 弹性伸缩沙箱节点，确保在赛事高峰期（如周末下午）也能秒级响应。
前端编辑器的轻量化：
对开源 Scratch 编辑器进行裁剪，移除不必要的素材库和网络请求，使其在弱网环境下也能流畅加载，并完美兼容Mac苹果操作系统上的浏览器。
统一账号体系：
打通了 C++、Python 和 Scratch 的底层用户模型，学生只需一个账号，即可在不同语言赛道间无缝切换，积分与成就系统互通。

四、应用效果
该双模评测系统目前已应用于考级100编程网的日常训练与模拟赛中。
覆盖场景：支持从基础算法题到复杂互动游戏的全类型题目。
反馈效率：算法题平均判题耗时 < 5s，创意题 AI 分析报告生成时间 < 8s。
用户价值：帮助学生从“写完即止”转变为“即时迭代”，显著提升了备赛效率。