DeepSeek联合北大发布新论文：DSpark框架助力大模型推理加速成效显著

发布时间：2026-06-29 11:09 来源：快讯作者：钟景轩

当行业焦点仍停留在大模型智能水平的比拼时，DeepSeek选择将技术突破方向转向更务实的领域——提升大模型推理效率。这家人工智能企业联合北京大学团队，在GitHub平台发布了一项名为DSpark的推理加速框架研究成果，试图破解高并发场景下大模型的服务性能瓶颈。

研究团队在论文中详细剖析了现有技术方案的局限性。传统自回归模型在生成文本时，每个新词元的产生都需要基于全部历史词元进行完整的前向计算，这种串行处理模式导致输出长度与等待时间呈线性增长关系。在实时对话、多轮智能体等对延迟敏感的场景中，这种特性直接造成GPU资源利用率低下和用户体验下降的双重困境。

当前主流解决方案分为两条技术路线：自回归草稿模型（如Eagle3）和并行草稿模型（如DFlash）。前者受限于生成质量瓶颈，后者则存在系统效率不足的问题，且两类方案均缺乏根据实际负载动态调整的校验机制。这种技术现状促使研究团队开发出全新的DSpark框架。

DSpark采用半自回归架构设计，在保持并行主干高吞吐优势的同时，通过引入轻量级串行模块实现前缀依赖信息的精准注入。该模块提供两种实现路径：基于马尔可夫链的词元级依赖模型，以及通过循环状态累积完整历史信息的RNN架构。这种混合设计既避免了纯并行方案的生成质量损失，又克服了全串行架构的效率缺陷。

实验数据显示，采用两层Transformer结构的DSpark模型，在所有测试领域均展现出超越五层DFlash模型的接受长度表现。在真实场景部署中，该框架在DeepSeek-V4在线服务系统上取得显著成效：与现有生产环境基准系统MTP-1相比，在保持相同吞吐量的条件下，用户端文本生成速度提升幅度达到60%至85%。

技术验证不仅限于自有模型。研究团队将DSpark框架移植到阿里云通义千问Qwen3系列模型（4B/8B/14B版本）进行测试，结果显示：相较于自回归草稿模型，平均单轮可接受词元长度分别提升30.9%、26.7%和30%；相较于并行草稿模型，提升幅度达16.3%、18.4%和18.3%。这些数据验证了该框架在不同规模模型上的普适性优势。

值得关注的是，DeepSeek创始人梁文锋直接参与了这项研究工作，其技术团队选择将DSpark模型权重和训练代码仓库DeepSpec完全开源。这种开放态度为行业提供了新的技术参考路径，特别是在需要平衡生成质量与推理效率的商业应用场景中，DSpark框架展现出独特的实用价值。

更多>同类内容