谷歌发布DiffusionGemma文本扩散模型:本地推理提速 性能与开源优势并存

   发布时间:2026-06-11 14:53 作者:陆辰风

谷歌近日发布了一款名为DiffusionGemma的全新开放AI模型,该模型基于文本扩散机制构建,在本地推理速度上实现了显著突破,较传统自回归模型提升达4倍。这一成果标志着扩散架构在大语言模型领域的应用迈出重要一步,为低带宽计算环境下的高效推理提供了新方案。

传统自回归模型(如GPT、Gemini)采用从左到右逐个生成Tokens的方式,在云端批处理场景中效率较高,但在本地设备上受内存带宽限制,常出现计算资源浪费问题。DiffusionGemma则通过扩散机制实现并行处理——模型从噪声中逐步去噪,同时优化所有Tokens的生成质量,这种设计使其在本地低带宽环境下展现出显著优势。

性能测试数据显示,DiffusionGemma在代码生成任务中表现亮眼:LiveCodeBench得分30.9%,BigCodeBench达45.4%,Humaneval更是高达89.6%,与Gemini 2.0 Flash-Lite形成有力竞争。数学推理能力尤为突出,在AIME 2025基准测试中取得23.3%的成绩,超越对比模型3.3个百分点,验证了扩散架构在复杂推理任务中的潜力。

该模型在生成效率方面同样表现卓越。采样速度达每秒1479个Tokens,开销仅0.84秒,且支持迭代优化功能,可在生成过程中主动修正错误,确保输出结果的稳定性与一致性。开源方面,DiffusionGemma采用Apache 2.0许可证,用户可通过Hugging Face平台下载模型权重,其能力与Gemma 4系列模型相当,但推理效率显著更高。

不过测试也暴露出部分短板:在科学推理GPQA Diamond基准中仅得40.4%,明显低于对比模型的56.5%;推理能力BIG-Bench Extra Hard测试得分15.0%,同样落后于21.0%的行业水平。这表明模型在特定领域的优化仍有提升空间。

英伟达官方测试进一步证实了硬件协同优势:在单块H100 GPU上,DiffusionGemma实现每秒1000个Tokens的生成速度;DGX Spark平台达每秒150个Tokens;DGX Station更突破至每秒2000个Tokens,约为同等条件下自回归模型的4倍。这种性能提升主要得益于扩散设计对Tensor Core并行计算能力的充分释放,为AI模型在边缘设备上的部署开辟了新路径。

 
 
更多>同类内容
全站最新
热门内容
本栏最新