DiffusionGemma – 谷歌開源的實驗性文本擴散模型

AI工具2天前發佈新公告 AI管理員
0 0

DiffusionGemma是什麼

DiffusionGemma是 Google DeepMind推出的實驗性開源文本擴散模型。模型基於 Gemma 4 架構與 Gemini Diffusion 研究成果構建,採用 26B MoE 設計,通過並行去噪 256-token 文本塊,在單張 NVIDIA H100 上實現 1000+ tokens/秒的生成速度,較傳統自迴歸模型提升約 4 倍。模型支持雙向注意力與實時自我糾錯,量化後僅需 18GB VRAM 可在消費級 GPU 本地運行。

DiffusionGemma – 谷歌開源的實驗性文本擴散模型

DiffusionGemma的主要功能

  • 並行文本生成:每次前向傳播同時去噪 256 個 token,實現整塊文本的並行生成而非逐詞輸出。
  • 雙向上下文推理:生成過程中每個 token 均可關注同一塊內所有其他 token,支持代碼填充、內聯編輯等非線性文本任務。
  • 實時自我糾錯:當某個 token 置信度下降時,採樣器可將其重新噪聲化並在後續步驟中替換修正。
  • 多模態輸入處理:支持文本、圖像、視頻交錯輸入,生成文本輸出,上下文窗口達 256K token。
  • 長序列塊級生成:通過塊自迴歸擴散機制,將已去噪的 256-token 塊提交至 KV 緩存後繼續生成下一塊,兼顧並行速度與序列穩定性。

DiffusionGemma的技術原理

  • Uniform State Diffusion(均勻狀態擴散):DiffusionGemma 的核心機制借鑑圖像擴散模型思路:從一塊由隨機佔位符填充的 256-token 畫布開始,通過多次去噪迭代逐步鎖定高置信度 token,用已鎖定 token 作爲上下文線索來解析相鄰位置,最終使整個序列收斂爲連貫文本。每次前向傳播約固化 15–20 個 token,通過並行處理大幅提升吞吐量。
  • 硬件瓶頸轉移:傳統自迴歸模型在單用戶本地推理時受限於內存帶寬,GPU 計算單元大量閒置。DiffusionGemma 將瓶頸從內存帶寬轉移至計算側:通過爲張量核心提供大規模的並行去噪工作負載,使 GPU 在本地推理場景下保持高利用率,在單張 H100 上達到 1000+ tokens/秒,在 RTX 5090 上達到 700+ tokens/秒。
  • 混合注意力架構:推理過程交替使用兩種注意力模式:Prefill 階段採用因果注意力處理輸入提示並寫入 KV 緩存;Denoising 階段則切換爲雙向注意力,支持畫布中的每個 token 同時關注所有其他 token。架構使模型能處理約束密集型任務。

如何使用DiffusionGemma

  • vLLM 本地部署:用 vLLM 的 OpenAI 兼容服務器啓動模型,配置擴散採樣器和 256-token 畫布參數後可對外提供推理服務。
  • Hugging Face 下載權重:訪問 Hugging Face 倉庫獲取以 Apache 2.0 協議開源的模型權重文件。
  • 主流推理框架運行:模型原生支持 Hugging Face Transformers、SGLang 和 MLX 等框架直接加載推理。
  • Hackable Diffusion 微調:用 Google 開源的 JAX 研究工具箱及官方訓練配方,針對特定任務進行快速實驗和微調。

DiffusionGemma的核心優勢

  • 極致本地推理速度:在單用戶本地場景下較同規格自迴歸模型快約 4 倍,H100 實測 1000+ tokens/秒,顯著降低交互式開發工具的延遲。
  • 消費級硬件可運行:量化後僅需 18GB VRAM,支持 RTX 4090/5090 等消費級顯卡及 DGX Spark 桌面工作站,無需服務器級集羣。
  • 開源生態零日支持:首發即兼容 vLLM、Hugging Face Transformers、MLX、Unsloth 等主流工具鏈,降低接入成本。
  • 非線性文本任務專長:雙向注意力使其在代碼填充、結構化輸出、氨基酸序列、數學圖等需要全局約束的任務上表現優於傳統自迴歸模型。

DiffusionGemma的項目地址

  • 項目官網:https://developers.googleblog.com/diffusiongemma-the-developer-guide/
  • HuggingFace模型庫:https://huggingface.co/google/diffusiongemma-26B-A4B-it

DiffusionGemma的同類競品對比

維度 DiffusionGemma 標準 Gemma 4(自迴歸)
生成方式 離散文本擴散,256-token 並行去噪 自迴歸,逐詞從左到右生成
推理瓶頸 計算受限(Compute-bound) 內存帶寬受限(Memory-bound)
注意力機制 雙向注意力(可看後文) 因果注意力(只能看前文)
自我糾錯 支持,低置信度 token 可重噪聲化修正 不支持,token 一旦生成立即固化
單用戶本地速度 H100: 1000+ tokens/秒;RTX 5090: 700+ tokens/秒 同硬件下約慢 3–4 倍
輸出質量 低於 Gemma 4,不適合追求最高質量的生產場景 更高,Google 推薦用於生產級應用
最佳場景 本地低併發、交互式、速度敏感型工作流 高併發雲端服務、質量敏感型任務
模型規格 26B MoE(激活 3.8B) 同系列 MoE 架構

DiffusionGemma的應用場景

  • 實時代碼輔助:在 IDE 中提供低延遲的內聯補全、代碼塊填充與 Markdown 格式化,滿足開發者工具對即時反饋的需求。
  • 交互式文本編輯:在已有段落中插入內容或改寫局部文本,利用雙向注意力確保修改點與前後文保持全局一致。
  • 約束密集型生成:處理數獨求解、數學圖構建、氨基酸序列設計等需要多變量同時滿足嚴格約束的任務。
  • 結構化數據填充:並行生成表格、配置文件或模板化文檔,利用整塊去噪能力一次性確定多個關聯字段。
  • 本地隱私敏感工作流:在消費級 GPU 上離線運行,滿足對數據不出本地有嚴格要求的文檔分析與敏感文本處理。
© 版權聲明

相關文章

暫無評論

暫無評論...