中国AI企业月之暗面旗下的Kimi再次成为全球科技界焦点。其发布的《Attention Residuals》技术报告提出对深度学习核心架构的创新性改造,在Twitter引发持续三天的热议,主贴阅读量突破460万次。这项突破性成果不仅获得OpenAI前研究副总裁Jerry Tworek"深度学习2.0"的高度评价,更赢得马斯克"令人印象深刻"的公开称赞,双方在社交平台的互动折射出中外AI技术的深度共鸣。
传统残差连接结构自2015年ResNet论文问世以来,始终是支撑大模型训练的基石技术。该机制通过将每层输出与输入相加的方式,确保信息在深层网络中有效传递。但随着模型规模扩张,这种"无差别累加"的缺陷日益凸显:重要信息被稀释、计算效率降低、训练稳定性下降。Kimi团队提出的注意力残差方案,创造性地引入动态注意力机制,使模型能够自主筛选关键信息,实现1.25倍的训练效率提升。
在英伟达GTC 2026大会上,创始人杨植麟以《How We Scaled Kimi K2.5》为题,系统阐释了技术突破背后的战略思考。他指出当前行业普遍使用的优化器、注意力机制等底层技术,本质上是八九年前的产物,已逐渐成为智能升级的瓶颈。Kimi通过重构三大基石技术构建完整创新闭环:MuonClip优化器将计算效率提升至传统方法的2倍;Kimi Linear混合架构使长文本解码速度提升5-6倍;注意力残差方案则突破信息传递的固有局限。
技术突破带来的商业价值正在显现。作为全球用户量最大的AI编程平台Cursor和独立搜索服务商Perplexity唯一接入的中国开源模型,K2.5凭借90%性能、七分之一价格的竞争优势,在海外实现20天收入超2025全年。其API平台日均访问量激增10-20倍,海外收入占比反超国内市场。资本市场的追捧更具说服力,近三个月估值暴涨4倍,融资规模超过多数同行IPO募资额。
杨植麟在演讲中特别强调,Kimi的野心不止于打造更优秀的模型,而是要定义下一代架构标准。他提出的智能体集群进化预判,已通过Orchestrator机制实现初步验证——该系统可将复杂任务拆解为数十个子任务并行处理,形成自协调的群体智能。这种从底层技术到应用场景的完整创新体系,标志着中国AI企业正式跻身全球技术规则制定者行列。
支撑这场技术革命的,是研究范式的根本转变。杨植麟指出,十年前受限于算力资源,研究者难以通过规模化实验验证设想。如今"缩放阶梯"的成熟,使得严谨的规模化验证成为可能。Kimi团队正是通过这种系统性实验方法,在优化器、注意力机制等传统领域挖掘出突破性创新,为全球AI发展开辟了新的技术路径。





















