ELF – 何愷明團隊推出的首個擴散語言模型

AI工具9小時前更新 AI管理員
0 0

ELF是什麼

ELF(Embedded Language Flows)是何愷明團隊推出的首個擴散語言模型,採用連續擴散範式替代傳統自迴歸路線。模型全程在連續 embedding 空間中去噪生成文本,在最後一步離散化爲 token。模型用 105M 參數、45B 訓練 token 和 32 步採樣,在 OpenWebText 上實現 24 的生成困惑度,用少近 10 倍的訓練數據超越主流離散擴散模型,在無條件生成、翻譯和摘要等任務上表現優異。

ELF – 何愷明團隊推出的首個擴散語言模型

ELF的主要功能

  • 連續空間文本生成:全程在連續 embedding 空間執行去噪,在最終時間步(t=1)通過 unembedding 層將連續表示投影爲離散 token。
  • 無條件語言生成:從純高斯噪聲出發,經 32 步迭代生成自然、低困惑度的人類風格文本。
  • 條件文本任務:支持機器翻譯(WMT14)、文本摘要(XSum)等條件生成任務,性能超越現有擴散語言模型及部分自迴歸基線。
  • 訓練-推理統一架構:去噪網絡與最終解碼網絡共享同一套參數,通過二值 mode token(去噪/解碼模式)切換,無需額外訓練獨立 decoder。

ELF的技術原理

  • Continuous Embedding 編碼:離散 token 先經 T5 預訓練編碼器映射爲雙向 contextual embedding,僅在訓練階段使用,推理時不增加額外模塊。
  • Flow Matching + x-prediction:在連續空間定義從噪聲到乾淨數據的 rectified flow 軌跡;網絡直接預測乾淨 embedding(x-prediction),非速度場,訓練目標爲 MSE 損失,在高維表示上更穩定。
  • Final-step Discretization:最後一步將連續 embedding 通過可學習的 unembedding 矩陣投影爲 token logits,訓練時加入 token-level corruption 防止任務過簡,損失爲交叉熵。
  • Self-conditioning CFG:引入圖像生成中的 classifier-free guidance 思想,採用 training-time CFG作爲條件信號,無推理開銷。

如何使用ELF

  • 訪問代碼倉庫:訪問 GitHub克隆項目代碼。
  • 準備環境:安裝依賴庫(PyTorch 等),配置 GPU 環境。
  • 數據預處理:將文本數據經 T5 編碼器轉換爲連續 embedding 格式。
  • 模型訓練:使用 Flow Matching + x-prediction 目標函數訓練去噪網絡,支持 MSE 或 CE 損失。
  • 文本生成:從高斯噪聲出發,調用 ELF 去噪網絡迭代 32 步,最後一步切換爲解碼模式輸出 token。
  • 下游任務微調:在 WMT14、XSum 等數據集上進行條件生成微調。

ELF的核心優勢

  • 數據效率極高:用 45B token 訓練,相比 MDLM、Duo、FLM 等對手的 500B+ token 少一個數量級。
  • 採樣步數極少:32 步可達到甚至超越對手 1024 步的生成質量。
  • 生成質量更優:OpenWebText 生成困惑度低至 24,文本更自然、AI 痕跡更弱。
  • 架構簡潔統一:去噪與解碼共享網絡,無需額外 decoder 模塊,避免 latent diffusion 中 decoder 訓練的開銷與誤差累積。

ELF的項目地址

  • GitHub倉庫:https://github.com/lillian039/ELF
  • arXiv技術論文:https://arxiv.org/pdf/2605.10938

ELF的同類競品對比

對比維度 ELF MDLM LLaDA
技術路線 連續擴散(embedding空間全程去噪,最後一步離散化) 離散擴散(直接在token空間操作,每步維護離散狀態) 離散擴散(基於BERT架構的掩碼擴散語言模型)
參數規模 105M 350M / 1.3B 8B
訓練數據 45B token(少一個數量級) 500B+ token 數萬億 token
採樣步數 32步 1024步(標準)/ 64步(需蒸餾) 64~128步
生成困惑度 24(OpenWebText,32步無蒸餾) ~35(1024步)/ ~60(32步無蒸餾) ~30(128步)
架構設計 去噪與解碼共享同一網絡,無額外模塊 每步在詞表空間做離散狀態轉移 基於掩碼預測的Transformer,每步預測被掩碼token
核心優勢 數據效率極高、採樣極快、架構最簡 與語言離散性天然契合,理論直觀 大規模參數帶來強表達能力,可擴展性好
主要劣勢 依賴預訓練encoder提供embedding 訓練數據需求大、採樣步數多、生成質量對步數敏感 推理成本高、需要大量訓練數據、推理步數仍較多

ELF的應用場景

  • 低資源高效文本生成:用 45B token 可訓練出高質量模型,適合數據預算有限的企業和研究者快速部署自然語言生成能力。
  • 機器翻譯:在 WMT14 等翻譯任務上超越現有擴散模型和部分自迴歸基線,可作爲非自迴歸翻譯系統的核心引擎。
  • 文本摘要與內容改寫:在 XSum 等摘要任務中表現穩定,適合新聞摘要、文檔提煉等需要保留關鍵信息的場景。
  • 創意寫作與對話生成:生成困惑度低至 24,文本自然度高、AI 痕跡弱,適合長篇小說、營銷文案等類人風格內容創作。
  • 擴散語言模型研究基線:首次驗證”連續到底”路線在文本生成的可行性,爲後續大模型架構探索提供重要參考和基礎框架。
© 版權聲明

相關文章

暫無評論

暫無評論...