
【导语:DeepSeek V4进行更新,推出投机解码框架DSpark并开源全栈推测性解码框架DeepSpec。DSpark加速大语言模型推理,解决生产环境瓶颈,DeepSpec则为研究者和工程师提供便利。】

DeepSeek-V4-Pro-DSpark在DeepSeek-V4-Pro基础上引入推测性解码模块,重点在于工程落地。DSpark已部署在DeepSeek-V4的真实线上流量中,大幅加速了大语言模型(LLM)的推理速度。其核心初衷是解决生产环境中LLM推理面临的延迟和吞吐量瓶颈。

DSpark引入半自回归生成架构,保留并行草稿模型高吞吐优势,加入轻量级串行模块缓解接受率衰减问题。同时采用硬件感知的置信度调度验证,利用置信度头评估Token存活概率,根据实时引擎吞吐量特征动态定制验证长度。其调度器采用异步机制,隐藏调度延迟,避免GPU流水线停顿,保证目标模型输出分布无损还原。

在多个领域测试中,DSpark大幅超越目前最先进的自回归模型(Eagle3)和并行草稿模型(DFlash)。在Qwen3系列目标模型上,平均接受长度比Eagle3提升26.7%到30.9%,比DFlash提升16.3%到18.4%。与前一代部署的单Token生产基准相比,在维持相同总体吞吐量的情况下,DSpark将用户的生成速度分别提升了60%-85%(Flash模型)和57%-78%(Pro模型)。

随DSpark一同开源的DeepSpec是用于训练和评估推测性解码草稿模型的全栈代码库,将整体流程拆分为数据准备、训练和评估三个阶段。目前内置三种草稿模型,支持Qwen3和Gemma目标模型系列。其开源将推测性解码工程实践整合为可复现、可扩展的标准化工具链,为研究者和工程师提供便利。
编辑观点:DeepSeek V4的更新及相关技术的开源,为大语言模型推理加速带来了新的解决方案,有望推动行业发展,降低研发成本。
261

被折叠的 条评论
为什么被折叠?



