在人工智能领域,大模型的发展始终面临着一个关键挑战:如何在处理超长文本时,既保持强大的“记忆力”又能实现高效的“思考速度”。最近,DeepSeek团队发布的一篇新论文引发了广泛关注,其提出的“原生稀疏注意力”(Native Sparse Attention,简称NSA)机制,为解决这一难题提供了新的思路,甚至可能成为推动大模型走向更广泛应用的关键突破。
长期以来,学术界和工业界都在探索让大模型更高效处理长文本的方法。学术界提出了许多“训练后免费方案”,但这些方法往往缺乏灵活性,难以适应复杂多变的实际应用场景。而工业界此次选择了一条更为“硬核”的道路——从预训练阶段就开始优化模型的注意力机制。几乎在同一时间,知名公司Kimi也公布了名为MoBA的类似研究,两篇论文不约而同地聚焦于预训练阶段的注意力调整,这一现象背后,是预训练所需的高昂成本和巨大算力需求,这通常是只有行业巨头才敢涉足的领域。
NSA注意力机制之所以备受瞩目,关键在于其独特的设计理念。它就像一位聪明的指挥官,同时指挥三支小分队处理海量信息,而非让模型逐字逐句地审视。这三支小分队各有分工,协同作战。
第一支是压缩分队(Token Compression)。其作用类似于对一本书进行章节总结,将连续的文本切成小块,然后用可学习的小型神经网络将这些小块的信息压缩成“代表”。这些“代表”携带了整个小块的精髓,参与后续的注意力计算。这种方法借鉴了之前SeerAttention等工作的思路,但通过引入可学习参数,让模型能够自主学会如何更好地“概括”信息。
第二支是精选分队(Token Selection),这是NSA的主力部队。它需要在茫茫“词海”中快速挑选出当前最需要关注的文本块。NSA采用了“两步走”策略:首先,利用压缩后的“块代表”和当前问题(Query)估算每个块的“潜在重要性得分”;然后,根据得分选拔出得分最高的Top K个块。这些被选中的块会派出原始的、完整的“键”进行精确的注意力计算。这种“查询感知”的选择方式,确保了模型的选择完全基于当前思考的问题,避免了早期方法因简单丢弃历史信息而导致的错误,比如在多轮对话中遗忘关键约定。
第三支是近卫分队(Window Attention),负责保障“近期记忆”的安全。它只关注最近出现的一小段文本,就像一个滑动窗口,确保模型不会忘记刚刚说过的话。这一设计最早源于Longformer,后来被StreamingLLM等工作改进。在NSA中,近卫分队的规则被巧妙融入精选分队,论文规定第一个块(通常是最近的上下文)会被固定选中。
这三支小分队的计算结果最终会汇聚到一个“决策门”,由它根据实际情况决定各路结果的贡献比例,然后加权求和,得到最终的注意力输出。NSA的核心目标是大幅减少解码阶段需要从显存加载的KV Cache数据量。需要注意的是,NSA节省的并非显存本身,而是数据从显存到计算核心的搬运带宽。在现代大模型推理中,尤其是生成文本时,计算往往不是瓶颈,数据搬运才是最大的拖累。NSA通过智能选择,只加载最需要的数据,有效缓解了带宽压力,提高了计算效率。
NSA真正引发讨论的“亮点”,在于其“原生可训练”(Native Trainable)的特性。过去的稀疏注意力方法大多是“训练后免费附加”的方案,研究人员在模型训练完成后,通过设计启发式规则来决定在推理时丢弃哪些信息。这些方法虽然巧妙,但模型本身并未为这种“选择性失忆”做好准备。而NSA将稀疏选择机制直接融入模型训练的全过程,让模型在预训练阶段就学习如何高效分配注意力。这种“原生”训练不仅在推理时能提高速度,在反向传播过程中也能加速模型训练和参数更新。这意味着稀疏注意力不再仅仅是推理加速工具,而是可以成为模型架构的一部分,甚至有可能让“稀疏”模型在性能上超越“全注意力”模型。
从“可训练”的角度审视NSA的三分支设计,可以发现“压缩分队”的存在可能正是为了实现“可训练性”。由于“精选”和“滑窗”本质上都是丢弃信息,梯度无法有效回溯到被丢弃的原始键值上。而“压缩分队”通过可学习的线性层保留了信息的浓缩形式,使训练信号能够通过“压缩器”传递回去,间接指导“精选分队”做出更好的选择。“近卫分队”则可能扮演着训练稳定器的角色,确保模型不会丢失最近的上下文,为学习过程提供可靠的锚点。
与NSA相比,Kimi的MoBA方案既没有采用三分支设计,也没有在选取过程中使用复杂的可学习层,仅通过简单的平均池化和预训练就实现了稀疏选择的特性。这引发了人们的思考:实现“可训练的稀疏注意力”,是否存在更简洁、更优雅的架构方案?NSA的三分支设计是必经之路,还是一种有效的实现方式?这为后续研究留下了开放而有趣的问题。
这篇论文体现了浓厚的工业界风格:直面工程实践中的核心瓶颈,追求端到端的可训练方案以确保最优性能,设计兼顾算法创新与硬件友好。在长文本处理这一重要赛道上,工业界凭借强大的算力资源、工程整合能力和对产品性能的执着追求,正在快速追赶并形成独特优势。学术界在思想启蒙和算法原型上领先一步,而工业界则擅长将这些思想打磨成在实际系统中高效运行的工具。
长文本上下文能力的重要性远不止于让模型阅读更长的文章。随着“思维链”推理、测试时计算扩展等新范式的兴起,模型需要在生成答案的过程中进行更长时间的“内心独白”和复杂运算,这对高效、智能地管理注意力提出了更高要求。当前主流的TopK选择方法存在固有局限,它需要预先设定固定的K值,但不同任务、模型的不同层甚至同一层内的不同注意力头,所需关注的信息量可能差异巨大。学术界已经开始探索如何优化或绕过固定的K,例如CMU的MagicPIG等工作就在探索更动态的路径。
沿着这一思路,一种更本质的解决方案是“自适应注意力稀疏化”,即不规定选择多少个令牌,而是规定选择到多少为止。例如,设定一个阈值p,从最重要的信息开始选起,直到所选信息的注意力分数累计总和达到总分的p倍为止。近期的前沿工作“Twilight”基于这种“分层Top-p修剪”思想,试图为注意力稀疏化提供更灵活、更自适应的框架。这类探索正在将对高效注意力机制的理解推向更深层次。
DeepSeek的NSA论文为“从预训练开始构建稀疏注意力”这条道路提供了有力验证,这无疑会激励更多研究者投身其中,探索更简洁的架构、更高效的算法和更智能的选择策略。当大模型学会像人类一样懂得忽略和聚焦,在信息的海洋中优雅航行时,我们距离真正智能、普惠的AI或许就更近了一步。这场关于“注意力”的进化竞赛,才刚刚拉开帷幕。























