DeepSeek联合北大发布新论文:DSpark框架助力大模型推理加速成效显著

   发布时间:2026-06-29 11:09 作者:钟景轩

当行业焦点仍停留在大模型智能水平的比拼时,DeepSeek选择将技术突破方向转向更务实的领域——提升大模型推理效率。这家人工智能企业联合北京大学团队,在GitHub平台发布了一项名为DSpark的推理加速框架研究成果,试图破解高并发场景下大模型的服务性能瓶颈。

研究团队在论文中详细剖析了现有技术方案的局限性。传统自回归模型在生成文本时,每个新词元的产生都需要基于全部历史词元进行完整的前向计算,这种串行处理模式导致输出长度与等待时间呈线性增长关系。在实时对话、多轮智能体等对延迟敏感的场景中,这种特性直接造成GPU资源利用率低下和用户体验下降的双重困境。

当前主流解决方案分为两条技术路线:自回归草稿模型(如Eagle3)和并行草稿模型(如DFlash)。前者受限于生成质量瓶颈,后者则存在系统效率不足的问题,且两类方案均缺乏根据实际负载动态调整的校验机制。这种技术现状促使研究团队开发出全新的DSpark框架。

DSpark采用半自回归架构设计,在保持并行主干高吞吐优势的同时,通过引入轻量级串行模块实现前缀依赖信息的精准注入。该模块提供两种实现路径:基于马尔可夫链的词元级依赖模型,以及通过循环状态累积完整历史信息的RNN架构。这种混合设计既避免了纯并行方案的生成质量损失,又克服了全串行架构的效率缺陷。

实验数据显示,采用两层Transformer结构的DSpark模型,在所有测试领域均展现出超越五层DFlash模型的接受长度表现。在真实场景部署中,该框架在DeepSeek-V4在线服务系统上取得显著成效:与现有生产环境基准系统MTP-1相比,在保持相同吞吐量的条件下,用户端文本生成速度提升幅度达到60%至85%。

技术验证不仅限于自有模型。研究团队将DSpark框架移植到阿里云通义千问Qwen3系列模型(4B/8B/14B版本)进行测试,结果显示:相较于自回归草稿模型,平均单轮可接受词元长度分别提升30.9%、26.7%和30%;相较于并行草稿模型,提升幅度达16.3%、18.4%和18.3%。这些数据验证了该框架在不同规模模型上的普适性优势。

值得关注的是,DeepSeek创始人梁文锋直接参与了这项研究工作,其技术团队选择将DSpark模型权重和训练代码仓库DeepSpec完全开源。这种开放态度为行业提供了新的技术参考路径,特别是在需要平衡生成质量与推理效率的商业应用场景中,DSpark框架展现出独特的实用价值。

 
 
更多>同类内容
全站最新
热门内容
本栏最新