Nemotron-Labs-TwoTower – 英偉達開源的雙塔架構擴散語言模型

0 0 0

Nemotron-Labs-TwoTower是什麼

NVIDIA Nemotron-Labs-TwoTower 是英偉達開源的雙塔架構擴散語言模型，總參數約60B、活躍參數3B。模型將上下文理解與去噪生成解耦爲兩個獨立塔，凍結的AR上下文塔處理乾淨token，可訓練的擴散去噪塔通過交叉注意力精煉噪聲塊。模型基於Nemotron-3-Nano-30B-A3B構建，訓練約2.1T tokens，保留自迴歸基線98.7%質量，生成吞吐量提升2.42倍，支持Mask Diffusion、Mock-AR與AR-only三種推理模式。

Nemotron-Labs-TwoTower的主要功能

雙塔分離推理：將上下文編碼與去噪生成分解爲兩個獨立模塊，避免單一網絡”身兼兩職”的性能瓶頸。
三種推理模式切換：單一檢查點支持 Mask Diffusion、Mock-AR與 AR-only，靈活適配不同場景需求。
高質量文本生成：在保留自迴歸基線 98.7% 聚合基準質量的前提下，實現可並行的迭代生成。
高吞吐生成加速：2×H100 環境下生成吞吐量提升 2.42 倍，顯著降低推理延遲與計算成本。
商用級開源部署：用NVIDIA Nemotron Open Model License 開源權重，支持企業商用與二次開發。

Nemotron-Labs-TwoTower的技術原理

核心思想：傳統擴散語言模型使用單一網絡同時承擔”上下文理解”和”迭代去噪”兩個角色，導致兩者互相掣肘。TwoTower 將這兩個職責解耦爲雙塔架構：
- 上下文塔（Context Tower）：凍結的 Nemotron-3-Nano-30B-A3B，採用因果注意力因果處理乾淨 token，負責高質量的上下文表示編碼。
- 去噪塔（Denoiser Tower）：可訓練模塊，採用雙向塊注意力處理帶噪聲的 token 塊，通過交叉注意力從上下文塔獲取語義指導，逐步精煉去噪。
訓練方式：基於 30B 混合 Mamba-Transformer MoE 骨架，在約 2.1T tokens 上訓練，用 MoE 稀疏激活實現高效計算。
推理優勢：擴散模型的並行迭代特性天然支持加速解碼，雙塔分離後去噪塔無需重複編碼上下文，在保證質量的同時大幅提升 wall-clock 吞吐量。

Nemotron-Labs-TwoTower – 英偉達開源的雙塔架構擴散語言模型

微信關注回覆“開源”，加入AI開源項目交流羣

如何使用Nemotron-Labs-TwoTower

訪問 HuggingFace 模型頁：打開 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方倉庫頁面。
閱讀模型卡與許可：確認 NVIDIA Nemotron Open Model License 商用條款，瞭解模型架構與硬件要求。
克隆/下載權重：用 git lfs 或 HuggingFace transformers 庫下載模型權重與配置文件。
配置運行環境：準備至少 2×H100 GPU 環境，安裝 PyTorch 及依賴庫（參考倉庫 requirements.txt）。
加載模型與分詞器：通過 AutoModelForCausalLM 和 AutoTokenizer 加載模型，選擇 Mask Diffusion / Mock-AR / AR-only 推理模式。
執行推理生成：輸入 prompt，調用模型生成接口，利用雙塔架構完成高效並行去噪生成。
微調適配：基於自有數據對可訓練的去噪塔進行進一步微調，凍結上下文塔保持不變。

Nemotron-Labs-TwoTower的核心優勢

雙塔解耦，各司其職：將上下文編碼與去噪生成分離爲兩個獨立塔，避免單一網絡角色衝突導致的性能瓶頸。
質量幾乎無損：保留自迴歸基線 98.7% 的聚合基準質量，擴散生成不再以犧牲輸出質量爲代價。
推理速度翻倍：在 2×H100 環境下實現 2.42 倍 wall-clock 生成吞吐量，顯著降低延遲與算力成本。
一模型三模式：單一檢查點支持 Mask Diffusion、Mock-AR、AR-only 三種推理方式，靈活適配不同延遲與質量需求場景。
開源可商用：用 NVIDIA Nemotron Open Model License 發佈權重，支持企業自由部署與商業二次開發。

Nemotron-Labs-TwoTower的項目地址

HuggingFace模型庫：https://huggingface.co/collections/nvidia/nemotron-labs-twotower
arXiv技術論文：https://arxiv.org/pdf/2606.26493

Nemotron-Labs-TwoTower的同類競品對比

對比維度	Nemotron-Labs-TwoTower	LLaDA
發佈機構	NVIDIA	MIT
架構設計	雙塔分離：凍結AR上下文塔 + 可訓練擴散去噪塔（交叉注意力連接）	單塔統一：單一Transformer同時承擔上下文編碼與掩碼去噪
總參數量	~60B（活躍3B，MoE稀疏）	8B（稠密）
基座模型	Nemotron-3-Nano-30B-A3B（Mamba-Transformer MoE）	自研Transformer
訓練數據	~2.1T tokens	~2T tokens
基線質量保留	98.7%（相對自迴歸基線）	~95%（相對同等規模AR模型）
吞吐提升	2.42×（2×H100，wall-clock）	~1.5×（標準GPU環境）
推理模式	三種：Mask Diffusion / Mock-AR / AR-only	單一：掩碼擴散（隨機/半自迴歸採樣）
注意力機制	上下文塔：因果注意力；去噪塔：雙向塊注意力 + 交叉注意力	統一雙向注意力 + 位置編碼處理
核心創新	角色解耦：避免單一網絡”身兼兩職”的性能瓶頸	簡單 scalable：證明擴散模型可scale至8B並逼近GPT-4質量