AI“推理时代”激战正酣：英伟达布局降本，中国大模型性价比领跑全球

发布时间：2026-03-18 07:02 来源：快讯作者：苏婉清

在近期举办的GTC（GPU技术大会）上，英伟达首席执行官黄仁勋宣布，全球人工智能（AI）竞争的焦点正从模型训练转向推理环节，标志着AI产业进入“推理时代”。他指出，随着AI从简单的对话工具升级为能够自主执行复杂任务的智能体，持续生成海量Token（AI处理的最小数据单元）已成为行业核心需求。这场变革中，谁能以最低成本高效生成token，谁就能主导未来市场。

黄仁勋在演讲中重申了“AI Token工厂”概念，强调数据中心的角色已从传统“成本中心”转变为“价值创造中心”。他比喻道：“过去工厂将水转化为电，如今数据中心将数据和电力转化为高价值的token。”基于这一逻辑，英伟达推出新一代Vera Rubin计算平台，宣称其每瓦特推理性能较前代提升10倍，可将token生成成本降低90%。该平台通过整合Groq公司的低延迟处理器（LPU），采用GPU与LPU混合架构，分别处理高吞吐量任务与最终token生成，实现推理性能最高35倍的提升。

英伟达的野心不止于硬件创新。黄仁勋展示了一套覆盖芯片、存储、网络到液冷系统的全栈解决方案，并推出数字孪生平台NVIDIA DSX，帮助客户在虚拟环境中模拟AI工厂运行，优化能源效率。他直言：“加速计算是系统级工程，必须垂直整合。”这一战略旨在将英伟达从芯片供应商升级为AI基础设施的“架构师”与“规则制定者”。

然而，就在英伟达描绘技术蓝图时，中国AI厂商已凭借成本优势在全球推理市场占据主导地位。数据显示，2026年2月以来，随着智能体应用OpenClaw等引发token消耗量激增，中国大模型凭借仅为国外竞品1/6至1/10的token价格，在全球最大AI API平台OpenRouter上连续多周超越美国同行。例如，Minimax M2.5模型运行一轮测试成本仅125美元，而Claude Opus 4.6和GPT-5.2-Codex分别高达4970美元和3244美元。

中国厂商的性价比优势源于两方面：一是技术架构创新。DeepSeek等企业通过多头潜在注意力（MLA）、专家混合（MoE）架构等技术压缩计算资源需求，使模型在受限GPU环境下仍能保持高性能。二是电力成本优势。据测算，使用中国数据中心电力，单张英伟达B200芯片每年可节省900美元电费，全球范围内每年潜在节省空间达百亿美元。

市场分析指出，推理环节更依赖用户生态、电力效率与系统调度能力，而非单纯追求芯片算力。这一趋势正在缩小中美在AI基础设施领域的差距。随着全球token生成市场规模预计在2027年突破万亿美元，这场关于成本与效率的竞争将愈发激烈。

更多>同类内容