在近期举办的GTC(GPU技术大会)上,英伟达首席执行官黄仁勋宣布,全球人工智能(AI)竞争的焦点正从模型训练转向推理环节,标志着AI产业进入“推理时代”。他指出,随着AI从简单的对话工具升级为能够自主执行复杂任务的智能体,持续生成海量Token(AI处理的最小数据单元)已成为行业核心需求。这场变革中,谁能以最低成本高效生成token,谁就能主导未来市场。
黄仁勋在演讲中重申了“AI Token工厂”概念,强调数据中心的角色已从传统“成本中心”转变为“价值创造中心”。他比喻道:“过去工厂将水转化为电,如今数据中心将数据和电力转化为高价值的token。”基于这一逻辑,英伟达推出新一代Vera Rubin计算平台,宣称其每瓦特推理性能较前代提升10倍,可将token生成成本降低90%。该平台通过整合Groq公司的低延迟处理器(LPU),采用GPU与LPU混合架构,分别处理高吞吐量任务与最终token生成,实现推理性能最高35倍的提升。
英伟达的野心不止于硬件创新。黄仁勋展示了一套覆盖芯片、存储、网络到液冷系统的全栈解决方案,并推出数字孪生平台NVIDIA DSX,帮助客户在虚拟环境中模拟AI工厂运行,优化能源效率。他直言:“加速计算是系统级工程,必须垂直整合。”这一战略旨在将英伟达从芯片供应商升级为AI基础设施的“架构师”与“规则制定者”。
然而,就在英伟达描绘技术蓝图时,中国AI厂商已凭借成本优势在全球推理市场占据主导地位。数据显示,2026年2月以来,随着智能体应用OpenClaw等引发token消耗量激增,中国大模型凭借仅为国外竞品1/6至1/10的token价格,在全球最大AI API平台OpenRouter上连续多周超越美国同行。例如,Minimax M2.5模型运行一轮测试成本仅125美元,而Claude Opus 4.6和GPT-5.2-Codex分别高达4970美元和3244美元。
中国厂商的性价比优势源于两方面:一是技术架构创新。DeepSeek等企业通过多头潜在注意力(MLA)、专家混合(MoE)架构等技术压缩计算资源需求,使模型在受限GPU环境下仍能保持高性能。二是电力成本优势。据测算,使用中国数据中心电力,单张英伟达B200芯片每年可节省900美元电费,全球范围内每年潜在节省空间达百亿美元。
市场分析指出,推理环节更依赖用户生态、电力效率与系统调度能力,而非单纯追求芯片算力。这一趋势正在缩小中美在AI基础设施领域的差距。随着全球token生成市场规模预计在2027年突破万亿美元,这场关于成本与效率的竞争将愈发激烈。























