DeepSeek V4更新：DSpark框架加速大模型推理，DeepSpec开源打造标准化工具链

转载于 2026-06-27 17:11:48 发布 · 168 阅读

0 GEO检测

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

【导语：DeepSeek V4进行更新，推出投机解码框架DSpark并开源全栈推测性解码框架DeepSpec。DSpark加速大语言模型推理，解决生产环境瓶颈，DeepSpec则为研究者和工程师提供便利。】

DSpark：突破大模型推理瓶颈

DeepSeek-V4-Pro-DSpark在DeepSeek-V4-Pro基础上引入推测性解码模块，重点在于工程落地。DSpark已部署在DeepSeek-V4的真实线上流量中，大幅加速了大语言模型（LLM）的推理速度。其核心初衷是解决生产环境中LLM推理面临的延迟和吞吐量瓶颈。

创新架构与调度机制

DSpark引入半自回归生成架构，保留并行草稿模型高吞吐优势，加入轻量级串行模块缓解接受率衰减问题。同时采用硬件感知的置信度调度验证，利用置信度头评估Token存活概率，根据实时引擎吞吐量特征动态定制验证长度。其调度器采用异步机制，隐藏调度延迟，避免GPU流水线停顿，保证目标模型输出分布无损还原。

性能大幅超越竞品

在多个领域测试中，DSpark大幅超越目前最先进的自回归模型（Eagle3）和并行草稿模型（DFlash）。在Qwen3系列目标模型上，平均接受长度比Eagle3提升26.7%到30.9%，比DFlash提升16.3%到18.4%。与前一代部署的单Token生产基准相比，在维持相同总体吞吐量的情况下，DSpark将用户的生成速度分别提升了60%-85%（Flash模型）和57%-78%（Pro模型）。