传统残差结构自2015年提出以来,始终是神经网络加深的基石。但当大模型层数突破数百层后,这种"一刀切"的信息叠加方式暴露出致命缺陷:所有层级输出以固定权重涌入主干路径,导致早期提取的关键特征被后续海量信息淹没。研究团队通过实验发现,在PreNorm架构下,模型隐藏状态范数随深度呈指数增长,迫使深层网络必须产生极大输出才能获得"发言权",这种机制不仅造成参数浪费,更使梯度分布严重失衡——初始层梯度占总量80%以上,而深层梯度几乎可以忽略不计。
AttnRes的创新在于将深度维度转化为可检索的特征空间。每层配备的"伪查询向量"如同智能导航仪,通过计算与历史层输出的相似度生成注意力权重,配合RMSNorm归一化防止异常值主导。为解决全量注意力计算成本过高的问题,团队开发出分块注意力机制:将数百层网络划分为8-16个模块,模块内维持基础累加,模块间进行精细注意力聚合。这种设计使显存占用仅与模块数量成正比,在Kimi Linear架构(480亿参数)的实测中,端到端推理延迟增加不足2%,却带来1.25倍的算力效率提升。
在1.4万亿token训练数据的验证下,新架构展现出惊人的性能跃迁:在知识深度测试GPQA-Diamond中提升7.5分,数学竞赛任务Minerva Math和代码生成任务Humaneval分别提高3.6分和3.1分,通用理解基准MMLU和中文能力测试C-eval也全面超越传统模型。更关键的是,梯度分布可视化显示,所有层级均保持活跃状态,首层嵌入信息能穿透数十层直达决策层,彻底解决了传统架构的信息稀释难题。
这项由18岁准高三生陈光宇领衔的研究,正在改写深度学习的发展轨迹。前OpenAI核心研究员Jerry Tworek评价:"当残差连接从机械叠加变为智能调度,我们正在见证深度学习2.0时代的曙光。"随着计算硬件突破内存带宽瓶颈,这种深度维度的全量检索机制或将重新定义模型扩展法则,使AGI之路不再依赖单纯的参数堆砌,而是转向更高效的深度调度艺术。






















