2026年6月11日,谷歌正式发布了开源实验性模型DiffusionGemma。这款基于Gemma 4系列架构与Gemini Diffusion研究成果构建的模型,在专用GPU上实现了最高4倍的文本生成加速。然而,在惊艳的提速背后,我们不禁要问:这难道不是一场用速度换智商的豪赌吗?目前,该模型已以Apache 2.0许可证开源发布,为开发者在低延迟本地工作流场景中提供了全新的技术路径。

架构革新:从“逐词打字”到“并行印刷”
传统自回归大语言模型采用从左至右逐词生成的机制。这种方式在云端高并发批处理时效率尚可,但在单用户本地环境中,往往会导致GPU算力大量闲置,形成内存带宽瓶颈。
DiffusionGemma彻底改变了这一范式。它采用文本扩散方法,将硬件瓶颈从内存带宽转移至计算侧。在推理时,模型首先在“画布”上生成一组随机占位词元,随后通过多轮迭代进行去噪与精炼。每一轮迭代中,模型会锁定已确认的词元,并以此为上下文线索并行修正其余内容,最终收敛为完整的段落。谷歌将这一过程生动地比喻为“将单台打字机升级为同时印刷整页文字的大型印刷机”,每次前向传播可并行生成256个词元。

性能实测:消费级显卡亦可流畅运行
得益于架构创新,DiffusionGemma在速度上展现出显著优势。实测数据显示,在单张NVIDIA H100 GPU上,其输出速度超过每秒1000个词元;在消费级旗舰NVIDIA GeForce RTX 5090上,速度也超过每秒700个词元。
在硬件门槛方面,该模型为26B参数的混合专家(MoE)架构,推理时仅激活3.8B参数。经量化处理后,模型可在18GB显存的消费级高端GPU内流畅运行,大幅降低了本地部署的门槛。此外,模型支持双向注意力机制,使其在处理行内编辑、代码填充、氨基酸序列生成及数学图形构建等非线性任务时具备天然优势。同时,它还具备智能自纠错能力,可在输出过程中实时评估并修正整段文本。
能力取舍:速度优先,智商真的掉线了吗?
尽管速度优势显著,但谷歌明确指出,DiffusionGemma目前仍处于实验阶段,整体输出质量低于标准Gemma 4模型。在基准测试中,模型呈现出明确的能力取舍:在代码生成(HumanEval达89.6%)和数学能力(AIME 2025取得23.3%)上表现亮眼,但在科学推理(GPQA Diamond仅为40.4%)和复杂推理(BIG-Bench Extra Hard为15.0%)上却明显落后于对比模型。
面对这样的数据,我们不禁要问:用速度换智商,这笔交易到底划不划算?对于追求最高质量输出的生产级商业应用,谷歌建议继续部署标准Gemma 4。DiffusionGemma的核心定位依然是研究人员和开发者的实验工具,目标用例集中于对速度敏感的本地交互场景,如文本实时编辑、快速内容迭代等。
适用边界与未来展望
值得注意的是,DiffusionGemma的速度优势具有明确的适用边界。在高并发云端服务场景中,自回归模型可通过批量处理充分利用算力,DiffusionGemma的并行解码优势反而会递减。其吞吐量优势主要体现在单张加速器上的低至中等批次规模场景。
文本扩散技术并非新概念,但将其成功应用于大规模文本生成模型长期面临挑战。DiffusionGemma的发布,标志着谷歌在推动该研究方向实用化方面迈出了可量化的一步。未来,随着技术的不断迭代,扩散模型能否在质量与速度之间取得更优的平衡,甚至与自回归模型形成“系统一与系统二”的协同工作模式,将是AI领域持续关注的焦点。

© 版权声明
THE END











