谷歌发布DiffusionGemma文本扩散模型：本地推理提速性能与开源优势并存

发布时间：2026-06-11 14:53 来源：快讯作者：陆辰风

谷歌近日发布了一款名为DiffusionGemma的全新开放AI模型，该模型基于文本扩散机制构建，在本地推理速度上实现了显著突破，较传统自回归模型提升达4倍。这一成果标志着扩散架构在大语言模型领域的应用迈出重要一步，为低带宽计算环境下的高效推理提供了新方案。

传统自回归模型（如GPT、Gemini）采用从左到右逐个生成Tokens的方式，在云端批处理场景中效率较高，但在本地设备上受内存带宽限制，常出现计算资源浪费问题。DiffusionGemma则通过扩散机制实现并行处理——模型从噪声中逐步去噪，同时优化所有Tokens的生成质量，这种设计使其在本地低带宽环境下展现出显著优势。

性能测试数据显示，DiffusionGemma在代码生成任务中表现亮眼：LiveCodeBench得分30.9%，BigCodeBench达45.4%，Humaneval更是高达89.6%，与Gemini 2.0 Flash-Lite形成有力竞争。数学推理能力尤为突出，在AIME 2025基准测试中取得23.3%的成绩，超越对比模型3.3个百分点，验证了扩散架构在复杂推理任务中的潜力。

该模型在生成效率方面同样表现卓越。采样速度达每秒1479个Tokens，开销仅0.84秒，且支持迭代优化功能，可在生成过程中主动修正错误，确保输出结果的稳定性与一致性。开源方面，DiffusionGemma采用Apache 2.0许可证，用户可通过Hugging Face平台下载模型权重，其能力与Gemma 4系列模型相当，但推理效率显著更高。

不过测试也暴露出部分短板：在科学推理GPQA Diamond基准中仅得40.4%，明显低于对比模型的56.5%；推理能力BIG-Bench Extra Hard测试得分15.0%，同样落后于21.0%的行业水平。这表明模型在特定领域的优化仍有提升空间。

英伟达官方测试进一步证实了硬件协同优势：在单块H100 GPU上，DiffusionGemma实现每秒1000个Tokens的生成速度；DGX Spark平台达每秒150个Tokens；DGX Station更突破至每秒2000个Tokens，约为同等条件下自回归模型的4倍。这种性能提升主要得益于扩散设计对Tensor Core并行计算能力的充分释放，为AI模型在边缘设备上的部署开辟了新路径。

更多>同类内容