DeepSeek开源工程方案，DSpark让模型生成速度提升60%-85%！

转载于 2026-06-28 08:55:53 发布 · 18 阅读

【导语：6月27日，完成500亿元融资后的DeepSeek首次放出开源新成果，推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型，开源推测解码框架DSpark以及推测解码训练框架DeepSpec，有望带来更快更低成本的推理体验。】

今日，DeepSeek开源了一套让现有模型跑得更快的工程方案，推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型，并开源推测解码框架DSpark以及推测解码训练框架DeepSpec。

根据论文，将DSpark部署在DeepSeek-V4线上服务系统、承接真实用户流量时，它有效减少了无效校验带来的算力浪费。相较于成熟的生产基线方案（MTP-1），在保持整体吞吐不变的前提下，DSpark把单用户生成速度提升60%-85%。

当前主流并行草稿器存在草稿后续内容通过率快速下滑、高并发服务场景下整体吞吐率大幅下降等问题。为此，DeepSeek提出DSpark推测解码框架，把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。

为保证草稿质量，DSpark采用半自回归架构，将并行主干网络与轻量串行模块相结合，建模块内token依赖，缓解末尾内容通过率衰减问题。同时，DSpark引入置信度调度校验机制，根据预估的前缀通过概率与引擎吞吐特征，为每一条请求动态调整校验长度。

DeepSpec是一个用于训练和评估推测性解码草稿模型的全栈代码库，包含数据准备工具、草稿模型实现、训练代码和评估脚本，支持MIT许可。

其工作流程按顺序运行各个阶段，每个阶段的输出为下一个阶段提供反馈，目前支持三个草稿模型：DSpark、DFlash和Eagle3。DeepSeek还开放完整的训练框架，供开发者和企业用这套工具给自己的Qwen3、Gemma等模型训练草稿模型。

编辑观点：DeepSeek此次开源成果含金量高，在大模型竞赛进入训练与推理并重阶段，其落子推理优化赛道，有望加速模型迭代和产品化，抢占算力效率竞争制高点。