大模型“瘦身”新突破：NSA机制让注意力“聪明聚焦”

发布时间：2026-05-15 09:27 来源：快讯作者：冯璃月

在人工智能领域，大模型的发展始终面临着一个关键挑战：如何在处理超长文本时，既保持强大的“记忆力”又能实现高效的“思考速度”。最近，DeepSeek团队发布的一篇新论文引发了广泛关注，其提出的“原生稀疏注意力”（Native Sparse Attention，简称NSA）机制，为解决这一难题提供了新的思路，甚至可能成为推动大模型走向更广泛应用的关键突破。

长期以来，学术界和工业界都在探索让大模型更高效处理长文本的方法。学术界提出了许多“训练后免费方案”，但这些方法往往缺乏灵活性，难以适应复杂多变的实际应用场景。而工业界此次选择了一条更为“硬核”的道路——从预训练阶段就开始优化模型的注意力机制。几乎在同一时间，知名公司Kimi也公布了名为MoBA的类似研究，两篇论文不约而同地聚焦于预训练阶段的注意力调整，这一现象背后，是预训练所需的高昂成本和巨大算力需求，这通常是只有行业巨头才敢涉足的领域。

NSA注意力机制之所以备受瞩目，关键在于其独特的设计理念。它就像一位聪明的指挥官，同时指挥三支小分队处理海量信息，而非让模型逐字逐句地审视。这三支小分队各有分工，协同作战。

第一支是压缩分队（Token Compression）。其作用类似于对一本书进行章节总结，将连续的文本切成小块，然后用可学习的小型神经网络将这些小块的信息压缩成“代表”。这些“代表”携带了整个小块的精髓，参与后续的注意力计算。这种方法借鉴了之前SeerAttention等工作的思路，但通过引入可学习参数，让模型能够自主学会如何更好地“概括”信息。

第二支是精选分队（Token Selection），这是NSA的主力部队。它需要在茫茫“词海”中快速挑选出当前最需要关注的文本块。NSA采用了“两步走”策略：首先，利用压缩后的“块代表”和当前问题（Query）估算每个块的“潜在重要性得分”；然后，根据得分选拔出得分最高的Top K个块。这些被选中的块会派出原始的、完整的“键”进行精确的注意力计算。这种“查询感知”的选择方式，确保了模型的选择完全基于当前思考的问题，避免了早期方法因简单丢弃历史信息而导致的错误，比如在多轮对话中遗忘关键约定。

第三支是近卫分队（Window Attention），负责保障“近期记忆”的安全。它只关注最近出现的一小段文本，就像一个滑动窗口，确保模型不会忘记刚刚说过的话。这一设计最早源于Longformer，后来被StreamingLLM等工作改进。在NSA中，近卫分队的规则被巧妙融入精选分队，论文规定第一个块（通常是最近的上下文）会被固定选中。

这三支小分队的计算结果最终会汇聚到一个“决策门”，由它根据实际情况决定各路结果的贡献比例，然后加权求和，得到最终的注意力输出。NSA的核心目标是大幅减少解码阶段需要从显存加载的KV Cache数据量。需要注意的是，NSA节省的并非显存本身，而是数据从显存到计算核心的搬运带宽。在现代大模型推理中，尤其是生成文本时，计算往往不是瓶颈，数据搬运才是最大的拖累。NSA通过智能选择，只加载最需要的数据，有效缓解了带宽压力，提高了计算效率。

NSA真正引发讨论的“亮点”，在于其“原生可训练”（Native Trainable）的特性。过去的稀疏注意力方法大多是“训练后免费附加”的方案，研究人员在模型训练完成后，通过设计启发式规则来决定在推理时丢弃哪些信息。这些方法虽然巧妙，但模型本身并未为这种“选择性失忆”做好准备。而NSA将稀疏选择机制直接融入模型训练的全过程，让模型在预训练阶段就学习如何高效分配注意力。这种“原生”训练不仅在推理时能提高速度，在反向传播过程中也能加速模型训练和参数更新。这意味着稀疏注意力不再仅仅是推理加速工具，而是可以成为模型架构的一部分，甚至有可能让“稀疏”模型在性能上超越“全注意力”模型。

从“可训练”的角度审视NSA的三分支设计，可以发现“压缩分队”的存在可能正是为了实现“可训练性”。由于“精选”和“滑窗”本质上都是丢弃信息，梯度无法有效回溯到被丢弃的原始键值上。而“压缩分队”通过可学习的线性层保留了信息的浓缩形式，使训练信号能够通过“压缩器”传递回去，间接指导“精选分队”做出更好的选择。“近卫分队”则可能扮演着训练稳定器的角色，确保模型不会丢失最近的上下文，为学习过程提供可靠的锚点。

与NSA相比，Kimi的MoBA方案既没有采用三分支设计，也没有在选取过程中使用复杂的可学习层，仅通过简单的平均池化和预训练就实现了稀疏选择的特性。这引发了人们的思考：实现“可训练的稀疏注意力”，是否存在更简洁、更优雅的架构方案？NSA的三分支设计是必经之路，还是一种有效的实现方式？这为后续研究留下了开放而有趣的问题。

这篇论文体现了浓厚的工业界风格：直面工程实践中的核心瓶颈，追求端到端的可训练方案以确保最优性能，设计兼顾算法创新与硬件友好。在长文本处理这一重要赛道上，工业界凭借强大的算力资源、工程整合能力和对产品性能的执着追求，正在快速追赶并形成独特优势。学术界在思想启蒙和算法原型上领先一步，而工业界则擅长将这些思想打磨成在实际系统中高效运行的工具。

长文本上下文能力的重要性远不止于让模型阅读更长的文章。随着“思维链”推理、测试时计算扩展等新范式的兴起，模型需要在生成答案的过程中进行更长时间的“内心独白”和复杂运算，这对高效、智能地管理注意力提出了更高要求。当前主流的TopK选择方法存在固有局限，它需要预先设定固定的K值，但不同任务、模型的不同层甚至同一层内的不同注意力头，所需关注的信息量可能差异巨大。学术界已经开始探索如何优化或绕过固定的K，例如CMU的MagicPIG等工作就在探索更动态的路径。

沿着这一思路，一种更本质的解决方案是“自适应注意力稀疏化”，即不规定选择多少个令牌，而是规定选择到多少为止。例如，设定一个阈值p，从最重要的信息开始选起，直到所选信息的注意力分数累计总和达到总分的p倍为止。近期的前沿工作“Twilight”基于这种“分层Top-p修剪”思想，试图为注意力稀疏化提供更灵活、更自适应的框架。这类探索正在将对高效注意力机制的理解推向更深层次。

DeepSeek的NSA论文为“从预训练开始构建稀疏注意力”这条道路提供了有力验证，这无疑会激励更多研究者投身其中，探索更简洁的架构、更高效的算法和更智能的选择策略。当大模型学会像人类一样懂得忽略和聚焦，在信息的海洋中优雅航行时，我们距离真正智能、普惠的AI或许就更近了一步。这场关于“注意力”的进化竞赛，才刚刚拉开帷幕。

更多>同类内容