Nemotron-Labs-TwoTower – 英偉達開源的雙塔架構擴散語言模型

AI工具9小時前發佈新公告 AI管理員
0 0

Nemotron-Labs-TwoTower是什麼

NVIDIA Nemotron-Labs-TwoTower 是英偉達開源的雙塔架構擴散語言模型,總參數約60B、活躍參數3B。模型將上下文理解與去噪生成解耦爲兩個獨立塔,凍結的AR上下文塔處理乾淨token,可訓練的擴散去噪塔通過交叉注意力精煉噪聲塊。模型基於Nemotron-3-Nano-30B-A3B構建,訓練約2.1T tokens,保留自迴歸基線98.7%質量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR與AR-only三種推理模式。

Nemotron-Labs-TwoTower – 英偉達開源的雙塔架構擴散語言模型

Nemotron-Labs-TwoTower的主要功能

  • 雙塔分離推理:將上下文編碼與去噪生成分解爲兩個獨立模塊,避免單一網絡”身兼兩職”的性能瓶頸。
  • 三種推理模式切換:單一檢查點支持 Mask Diffusion、Mock-AR與 AR-only,靈活適配不同場景需求。
  • 高質量文本生成:在保留自迴歸基線 98.7% 聚合基準質量的前提下,實現可並行的迭代生成。
  • 高吞吐生成加速:2×H100 環境下生成吞吐量提升 2.42 倍,顯著降低推理延遲與計算成本。
  • 商用級開源部署:用NVIDIA Nemotron Open Model License 開源權重,支持企業商用與二次開發。

Nemotron-Labs-TwoTower的技術原理

  • 核心思想:傳統擴散語言模型使用單一網絡同時承擔”上下文理解”和”迭代去噪”兩個角色,導致兩者互相掣肘。TwoTower 將這兩個職責解耦爲雙塔架構:
    • 上下文塔(Context Tower):凍結的 Nemotron-3-Nano-30B-A3B,採用因果注意力因果處理乾淨 token,負責高質量的上下文表示編碼。
    • 去噪塔(Denoiser Tower):可訓練模塊,採用雙向塊注意力處理帶噪聲的 token 塊,通過交叉注意力從上下文塔獲取語義指導,逐步精煉去噪。
  • 訓練方式:基於 30B 混合 Mamba-Transformer MoE 骨架,在約 2.1T tokens 上訓練,用 MoE 稀疏激活實現高效計算。
  • 推理優勢:擴散模型的並行迭代特性天然支持加速解碼,雙塔分離後去噪塔無需重複編碼上下文,在保證質量的同時大幅提升 wall-clock 吞吐量。

Nemotron-Labs-TwoTower – 英偉達開源的雙塔架構擴散語言模型

微信關注回覆“開源”,加入AI開源項目交流羣

如何使用Nemotron-Labs-TwoTower

  • 訪問 HuggingFace 模型頁:打開 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方倉庫頁面。
  • 閱讀模型卡與許可:確認 NVIDIA Nemotron Open Model License 商用條款,瞭解模型架構與硬件要求。
  • 克隆/下載權重:用 git lfs 或 HuggingFace transformers 庫下載模型權重與配置文件。
  • 配置運行環境:準備至少 2×H100 GPU 環境,安裝 PyTorch 及依賴庫(參考倉庫 requirements.txt)。
  • 加載模型與分詞器:通過 AutoModelForCausalLMAutoTokenizer 加載模型,選擇 Mask Diffusion / Mock-AR / AR-only 推理模式。
  • 執行推理生成:輸入 prompt,調用模型生成接口,利用雙塔架構完成高效並行去噪生成。
  • 微調適配:基於自有數據對可訓練的去噪塔進行進一步微調,凍結上下文塔保持不變。

Nemotron-Labs-TwoTower的核心優勢

  • 雙塔解耦,各司其職:將上下文編碼與去噪生成分離爲兩個獨立塔,避免單一網絡角色衝突導致的性能瓶頸。
  • 質量幾乎無損:保留自迴歸基線 98.7% 的聚合基準質量,擴散生成不再以犧牲輸出質量爲代價。
  • 推理速度翻倍:在 2×H100 環境下實現 2.42 倍 wall-clock 生成吞吐量,顯著降低延遲與算力成本。
  • 一模型三模式:單一檢查點支持 Mask Diffusion、Mock-AR、AR-only 三種推理方式,靈活適配不同延遲與質量需求場景。
  • 開源可商用:用 NVIDIA Nemotron Open Model License 發佈權重,支持企業自由部署與商業二次開發。

Nemotron-Labs-TwoTower的項目地址

  • HuggingFace模型庫:https://huggingface.co/collections/nvidia/nemotron-labs-twotower
  • arXiv技術論文:https://arxiv.org/pdf/2606.26493

Nemotron-Labs-TwoTower的同類競品對比

對比維度 Nemotron-Labs-TwoTower LLaDA
發佈機構 NVIDIA MIT
架構設計 雙塔分離:凍結AR上下文塔 + 可訓練擴散去噪塔(交叉注意力連接) 單塔統一:單一Transformer同時承擔上下文編碼與掩碼去噪
總參數量 ~60B(活躍3B,MoE稀疏) 8B(稠密)
基座模型 Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE) 自研Transformer
訓練數據 ~2.1T tokens ~2T tokens
基線質量保留 98.7%(相對自迴歸基線) ~95%(相對同等規模AR模型)
吞吐提升 2.42×(2×H100,wall-clock) ~1.5×(標準GPU環境)
推理模式 三種:Mask Diffusion / Mock-AR / AR-only 單一:掩碼擴散(隨機/半自迴歸採樣)
注意力機制 上下文塔:因果注意力;去噪塔:雙向塊注意力 + 交叉注意力 統一雙向注意力 + 位置編碼處理
核心創新 角色解耦:避免單一網絡”身兼兩職”的性能瓶頸 簡單 scalable:證明擴散模型可scale至8B並逼近GPT-4質量

Nemotron-Labs-TwoTower的應用場景

  • 高併發在線服務:2.42倍吞吐提升使其適合搜索引擎、智能客服等需要低延遲、高併發的實時文本生成場景。
  • 長文檔生成:擴散模型的並行迭代特性適合長文本續寫、報告生成、代碼補全等需要多步 refine 的任務。
  • 多模式靈活部署:三種推理模式切換讓企業可根據成本/質量權衡,在邊緣端用 AR-only、在雲端用 Mask Diffusion。
  • 商用產品開發:模型可商用許可支持企業將模型集成至寫作助手、營銷文案生成器、代碼輔助工具等商業化產品。
  • 科研與二次創新:開源權重與論文細節便於研究者探索擴散語言模型架構、訓練策略及跨模態擴展方向。
© 版權聲明

相關文章

暫無評論

暫無評論...