Nemotron-Labs-TwoTower是什麼
NVIDIA Nemotron-Labs-TwoTower 是英偉達開源的雙塔架構擴散語言模型,總參數約60B、活躍參數3B。模型將上下文理解與去噪生成解耦爲兩個獨立塔,凍結的AR上下文塔處理乾淨token,可訓練的擴散去噪塔通過交叉注意力精煉噪聲塊。模型基於Nemotron-3-Nano-30B-A3B構建,訓練約2.1T tokens,保留自迴歸基線98.7%質量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR與AR-only三種推理模式。

Nemotron-Labs-TwoTower的主要功能
-
雙塔分離推理:將上下文編碼與去噪生成分解爲兩個獨立模塊,避免單一網絡”身兼兩職”的性能瓶頸。
-
三種推理模式切換:單一檢查點支持 Mask Diffusion、Mock-AR與 AR-only,靈活適配不同場景需求。
-
高質量文本生成:在保留自迴歸基線 98.7% 聚合基準質量的前提下,實現可並行的迭代生成。
-
高吞吐生成加速:2×H100 環境下生成吞吐量提升 2.42 倍,顯著降低推理延遲與計算成本。
-
商用級開源部署:用NVIDIA Nemotron Open Model License 開源權重,支持企業商用與二次開發。
Nemotron-Labs-TwoTower的技術原理
- 核心思想:傳統擴散語言模型使用單一網絡同時承擔”上下文理解”和”迭代去噪”兩個角色,導致兩者互相掣肘。TwoTower 將這兩個職責解耦爲雙塔架構:
-
上下文塔(Context Tower):凍結的 Nemotron-3-Nano-30B-A3B,採用因果注意力因果處理乾淨 token,負責高質量的上下文表示編碼。
-
去噪塔(Denoiser Tower):可訓練模塊,採用雙向塊注意力處理帶噪聲的 token 塊,通過交叉注意力從上下文塔獲取語義指導,逐步精煉去噪。
-
- 訓練方式:基於 30B 混合 Mamba-Transformer MoE 骨架,在約 2.1T tokens 上訓練,用 MoE 稀疏激活實現高效計算。
- 推理優勢:擴散模型的並行迭代特性天然支持加速解碼,雙塔分離後去噪塔無需重複編碼上下文,在保證質量的同時大幅提升 wall-clock 吞吐量。

微信關注回覆“開源”,加入AI開源項目交流羣
如何使用Nemotron-Labs-TwoTower
-
訪問 HuggingFace 模型頁:打開 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方倉庫頁面。
-
閱讀模型卡與許可:確認 NVIDIA Nemotron Open Model License 商用條款,瞭解模型架構與硬件要求。
-
克隆/下載權重:用
git lfs或 HuggingFacetransformers庫下載模型權重與配置文件。 -
配置運行環境:準備至少 2×H100 GPU 環境,安裝 PyTorch 及依賴庫(參考倉庫
requirements.txt)。 -
加載模型與分詞器:通過
AutoModelForCausalLM和AutoTokenizer加載模型,選擇 Mask Diffusion / Mock-AR / AR-only 推理模式。 -
執行推理生成:輸入 prompt,調用模型生成接口,利用雙塔架構完成高效並行去噪生成。
-
微調適配:基於自有數據對可訓練的去噪塔進行進一步微調,凍結上下文塔保持不變。
Nemotron-Labs-TwoTower的核心優勢
- 雙塔解耦,各司其職:將上下文編碼與去噪生成分離爲兩個獨立塔,避免單一網絡角色衝突導致的性能瓶頸。
- 質量幾乎無損:保留自迴歸基線 98.7% 的聚合基準質量,擴散生成不再以犧牲輸出質量爲代價。
- 推理速度翻倍:在 2×H100 環境下實現 2.42 倍 wall-clock 生成吞吐量,顯著降低延遲與算力成本。
- 一模型三模式:單一檢查點支持 Mask Diffusion、Mock-AR、AR-only 三種推理方式,靈活適配不同延遲與質量需求場景。
- 開源可商用:用 NVIDIA Nemotron Open Model License 發佈權重,支持企業自由部署與商業二次開發。
Nemotron-Labs-TwoTower的項目地址
- HuggingFace模型庫:https://huggingface.co/collections/nvidia/nemotron-labs-twotower
- arXiv技術論文:https://arxiv.org/pdf/2606.26493
Nemotron-Labs-TwoTower的同類競品對比
| 對比維度 | Nemotron-Labs-TwoTower | LLaDA |
|---|---|---|
| 發佈機構 | NVIDIA | MIT |
| 架構設計 | 雙塔分離:凍結AR上下文塔 + 可訓練擴散去噪塔(交叉注意力連接) | 單塔統一:單一Transformer同時承擔上下文編碼與掩碼去噪 |
| 總參數量 | ~60B(活躍3B,MoE稀疏) | 8B(稠密) |
| 基座模型 | Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE) | 自研Transformer |
| 訓練數據 | ~2.1T tokens | ~2T tokens |
| 基線質量保留 | 98.7%(相對自迴歸基線) | ~95%(相對同等規模AR模型) |
| 吞吐提升 | 2.42×(2×H100,wall-clock) | ~1.5×(標準GPU環境) |
| 推理模式 | 三種:Mask Diffusion / Mock-AR / AR-only | 單一:掩碼擴散(隨機/半自迴歸採樣) |
| 注意力機制 | 上下文塔:因果注意力;去噪塔:雙向塊注意力 + 交叉注意力 | 統一雙向注意力 + 位置編碼處理 |
| 核心創新 | 角色解耦:避免單一網絡”身兼兩職”的性能瓶頸 | 簡單 scalable:證明擴散模型可scale至8B並逼近GPT-4質量 |
Nemotron-Labs-TwoTower的應用場景
-
高併發在線服務:2.42倍吞吐提升使其適合搜索引擎、智能客服等需要低延遲、高併發的實時文本生成場景。
-
長文檔生成:擴散模型的並行迭代特性適合長文本續寫、報告生成、代碼補全等需要多步 refine 的任務。
-
多模式靈活部署:三種推理模式切換讓企業可根據成本/質量權衡,在邊緣端用 AR-only、在雲端用 Mask Diffusion。
-
商用產品開發:模型可商用許可支持企業將模型集成至寫作助手、營銷文案生成器、代碼輔助工具等商業化產品。
-
科研與二次創新:開源權重與論文細節便於研究者探索擴散語言模型架構、訓練策略及跨模態擴展方向。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...