ELF是什麼
ELF(Embedded Language Flows)是何愷明團隊推出的首個擴散語言模型,採用連續擴散範式替代傳統自迴歸路線。模型全程在連續 embedding 空間中去噪生成文本,在最後一步離散化爲 token。模型用 105M 參數、45B 訓練 token 和 32 步採樣,在 OpenWebText 上實現 24 的生成困惑度,用少近 10 倍的訓練數據超越主流離散擴散模型,在無條件生成、翻譯和摘要等任務上表現優異。

ELF的主要功能
-
連續空間文本生成:全程在連續 embedding 空間執行去噪,在最終時間步(t=1)通過 unembedding 層將連續表示投影爲離散 token。
-
無條件語言生成:從純高斯噪聲出發,經 32 步迭代生成自然、低困惑度的人類風格文本。
-
條件文本任務:支持機器翻譯(WMT14)、文本摘要(XSum)等條件生成任務,性能超越現有擴散語言模型及部分自迴歸基線。
-
訓練-推理統一架構:去噪網絡與最終解碼網絡共享同一套參數,通過二值 mode token(去噪/解碼模式)切換,無需額外訓練獨立 decoder。
ELF的技術原理
-
Continuous Embedding 編碼:離散 token 先經 T5 預訓練編碼器映射爲雙向 contextual embedding,僅在訓練階段使用,推理時不增加額外模塊。
-
Flow Matching + x-prediction:在連續空間定義從噪聲到乾淨數據的 rectified flow 軌跡;網絡直接預測乾淨 embedding(x-prediction),非速度場,訓練目標爲 MSE 損失,在高維表示上更穩定。
-
Final-step Discretization:最後一步將連續 embedding 通過可學習的 unembedding 矩陣投影爲 token logits,訓練時加入 token-level corruption 防止任務過簡,損失爲交叉熵。
-
Self-conditioning CFG:引入圖像生成中的 classifier-free guidance 思想,採用 training-time CFG作爲條件信號,無推理開銷。
如何使用ELF
-
訪問代碼倉庫:訪問 GitHub克隆項目代碼。
-
準備環境:安裝依賴庫(PyTorch 等),配置 GPU 環境。
-
數據預處理:將文本數據經 T5 編碼器轉換爲連續 embedding 格式。
-
模型訓練:使用 Flow Matching + x-prediction 目標函數訓練去噪網絡,支持 MSE 或 CE 損失。
-
文本生成:從高斯噪聲出發,調用 ELF 去噪網絡迭代 32 步,最後一步切換爲解碼模式輸出 token。
-
下游任務微調:在 WMT14、XSum 等數據集上進行條件生成微調。
ELF的核心優勢
-
數據效率極高:用 45B token 訓練,相比 MDLM、Duo、FLM 等對手的 500B+ token 少一個數量級。
-
採樣步數極少:32 步可達到甚至超越對手 1024 步的生成質量。
-
生成質量更優:OpenWebText 生成困惑度低至 24,文本更自然、AI 痕跡更弱。
-
架構簡潔統一:去噪與解碼共享網絡,無需額外 decoder 模塊,避免 latent diffusion 中 decoder 訓練的開銷與誤差累積。
ELF的項目地址
- GitHub倉庫:https://github.com/lillian039/ELF
- arXiv技術論文:https://arxiv.org/pdf/2605.10938
ELF的同類競品對比
| 對比維度 | ELF | MDLM | LLaDA |
|---|---|---|---|
| 技術路線 | 連續擴散(embedding空間全程去噪,最後一步離散化) | 離散擴散(直接在token空間操作,每步維護離散狀態) | 離散擴散(基於BERT架構的掩碼擴散語言模型) |
| 參數規模 | 105M | 350M / 1.3B | 8B |
| 訓練數據 | 45B token(少一個數量級) | 500B+ token | 數萬億 token |
| 採樣步數 | 32步 | 1024步(標準)/ 64步(需蒸餾) | 64~128步 |
| 生成困惑度 | 24(OpenWebText,32步無蒸餾) | ~35(1024步)/ ~60(32步無蒸餾) | ~30(128步) |
| 架構設計 | 去噪與解碼共享同一網絡,無額外模塊 | 每步在詞表空間做離散狀態轉移 | 基於掩碼預測的Transformer,每步預測被掩碼token |
| 核心優勢 | 數據效率極高、採樣極快、架構最簡 | 與語言離散性天然契合,理論直觀 | 大規模參數帶來強表達能力,可擴展性好 |
| 主要劣勢 | 依賴預訓練encoder提供embedding | 訓練數據需求大、採樣步數多、生成質量對步數敏感 | 推理成本高、需要大量訓練數據、推理步數仍較多 |
ELF的應用場景
-
低資源高效文本生成:用 45B token 可訓練出高質量模型,適合數據預算有限的企業和研究者快速部署自然語言生成能力。
-
機器翻譯:在 WMT14 等翻譯任務上超越現有擴散模型和部分自迴歸基線,可作爲非自迴歸翻譯系統的核心引擎。
-
文本摘要與內容改寫:在 XSum 等摘要任務中表現穩定,適合新聞摘要、文檔提煉等需要保留關鍵信息的場景。
-
創意寫作與對話生成:生成困惑度低至 24,文本自然度高、AI 痕跡弱,適合長篇小說、營銷文案等類人風格內容創作。
-
擴散語言模型研究基線:首次驗證”連續到底”路線在文本生成的可行性,爲後續大模型架構探索提供重要參考和基礎框架。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...