华中科技大学与字节跳动携手：深度混合注意力机制为AI模型“提智”赋能

发布时间：2026-03-26 03:00 来源：快讯作者：王婷

大型语言模型在深度扩展过程中面临的信息衰减问题，一直是制约其性能提升的关键瓶颈。华中科技大学电子信息与通信学院与字节跳动Seed团队联合攻关，提出深度混合注意力机制（MoDA），为突破这一技术瓶颈提供了创新方案。该研究成果发表于学术平台arXiv，论文编号为arXiv:2603.15619v1。

随着模型层数增加，早期处理的重要信息会逐渐被稀释，就像传话游戏中信息传递越远越容易失真。传统解决方案存在明显局限：残差连接虽能缓解梯度消失问题，但会将历史信息压缩成单一线索，导致关键特征丢失；密集连接虽能完整保留历史信息，但计算复杂度随层数平方增长，在大型模型中难以应用。研究团队通过重新设计信息传递方式，在保留历史信息与控制计算开销之间找到平衡点。

MoDA的核心创新在于将序列级注意力与深度级注意力融合到统一框架中。每个注意力头在处理当前层信息时，可自适应访问所有前置层的关键信息。具体实现上，模型为每个序列位置构建扩展键值序列，前半部分为标准序列信息，后半部分为深度历史信息，通过掩码机制确保因果性约束。在写入阶段，当前层的键值对会被追加到深度流中，供后续层调用。

研究团队通过硬件感知设计显著提升了计算效率。针对深度键值缓存的非连续访问问题，提出块感知布局方案，将查询分块处理，每个块仅访问对应局部深度区域。结合分组查询注意力特性，进一步开发组感知计算方法，使有效深度利用率提升至G/C（G为组大小，C为块大小）。实验数据显示，优化后的实现在64K序列长度下达到FlashAttention-2效率的97.3%。

在模型性能验证方面，研究团队使用OLMo2数据集训练了700M和1.5B参数规模的模型。实验表明，MoDA在10个验证基准上平均降低0.2困惑度，在10个下游任务中平均提升2.11%性能，而计算开销仅增加3.7%的FLOPs。消融研究显示，深度键值投影组件贡献显著，单独使用即可降低0.41训练困惑度，添加前馈网络投影后性能进一步提升。

注意力可视化分析揭示了MoDA的独特工作机制。模型在中间层和后期层会主动分配注意力权重给深度历史信息，不同类型注意力头形成分工协作：尖锐头在保持序列关注的同时分配部分概率给深度位置，宽泛头则更多依赖深度信息。这种模式使注意力分布更广泛，突破了传统模型对固定汇聚位置的依赖。

针对不同深度配置的实验表明，MoDA在48层深层模型和24层浅层模型中均能稳定改善性能。特别在后归一化配置下，48层模型的验证损失改善幅度达到0.0409，是预归一化配置的10倍。渐进式优化实验显示，从朴素实现到完全优化版本，运行时间缩短了1458倍，验证了硬件感知设计的重要性。

尽管MoDA已实现高效硬件实现，但研究团队指出，在万亿参数规模的工业级部署中仍需突破内存瓶颈。为此提出有界深度键值槽缓存方案，通过固定大小的缓冲区动态管理深度信息，可采用动态选择或滑动窗口策略。这种设计将内存开销从深度依赖转为槽位依赖，为超大规模模型训练提供了可行路径。

该研究开源了完整实现代码，为学术界和产业界提供了可直接应用的技术方案。MoDA通过创新的信息组织方式，而非简单增加参数规模，为构建更深层、更强大的AI系统开辟了新方向。其硬件友好的设计理念，也展现了理论研究与工程实践相结合的价值。

更多>同类内容