ELF – 何愷明團隊推出的首個擴散語言模型

0 0 0

ELF是什麼

ELF（Embedded Language Flows）是何愷明團隊推出的首個擴散語言模型，採用連續擴散範式替代傳統自迴歸路線。模型全程在連續 embedding 空間中去噪生成文本，在最後一步離散化爲 token。模型用 105M 參數、45B 訓練 token 和 32 步採樣，在 OpenWebText 上實現 24 的生成困惑度，用少近 10 倍的訓練數據超越主流離散擴散模型，在無條件生成、翻譯和摘要等任務上表現優異。

ELF的主要功能

連續空間文本生成：全程在連續 embedding 空間執行去噪，在最終時間步（t=1）通過 unembedding 層將連續表示投影爲離散 token。
無條件語言生成：從純高斯噪聲出發，經 32 步迭代生成自然、低困惑度的人類風格文本。
條件文本任務：支持機器翻譯（WMT14）、文本摘要（XSum）等條件生成任務，性能超越現有擴散語言模型及部分自迴歸基線。
訓練-推理統一架構：去噪網絡與最終解碼網絡共享同一套參數，通過二值 mode token（去噪/解碼模式）切換，無需額外訓練獨立 decoder。

ELF的技術原理

Continuous Embedding 編碼：離散 token 先經 T5 預訓練編碼器映射爲雙向 contextual embedding，僅在訓練階段使用，推理時不增加額外模塊。
Flow Matching + x-prediction：在連續空間定義從噪聲到乾淨數據的 rectified flow 軌跡；網絡直接預測乾淨 embedding（x-prediction），非速度場，訓練目標爲 MSE 損失，在高維表示上更穩定。
Final-step Discretization：最後一步將連續 embedding 通過可學習的 unembedding 矩陣投影爲 token logits，訓練時加入 token-level corruption 防止任務過簡，損失爲交叉熵。
Self-conditioning CFG：引入圖像生成中的 classifier-free guidance 思想，採用 training-time CFG作爲條件信號，無推理開銷。

如何使用ELF

訪問代碼倉庫：訪問 GitHub克隆項目代碼。
準備環境：安裝依賴庫（PyTorch 等），配置 GPU 環境。
數據預處理：將文本數據經 T5 編碼器轉換爲連續 embedding 格式。
模型訓練：使用 Flow Matching + x-prediction 目標函數訓練去噪網絡，支持 MSE 或 CE 損失。
文本生成：從高斯噪聲出發，調用 ELF 去噪網絡迭代 32 步，最後一步切換爲解碼模式輸出 token。
下游任務微調：在 WMT14、XSum 等數據集上進行條件生成微調。

ELF的核心優勢

數據效率極高：用 45B token 訓練，相比 MDLM、Duo、FLM 等對手的 500B+ token 少一個數量級。
採樣步數極少：32 步可達到甚至超越對手 1024 步的生成質量。
生成質量更優：OpenWebText 生成困惑度低至 24，文本更自然、AI 痕跡更弱。
架構簡潔統一：去噪與解碼共享網絡，無需額外 decoder 模塊，避免 latent diffusion 中 decoder 訓練的開銷與誤差累積。

ELF的項目地址

GitHub倉庫：https://github.com/lillian039/ELF
arXiv技術論文：https://arxiv.org/pdf/2605.10938

ELF的同類競品對比

對比維度	ELF	MDLM	LLaDA
技術路線	連續擴散（embedding空間全程去噪，最後一步離散化）	離散擴散（直接在token空間操作，每步維護離散狀態）	離散擴散（基於BERT架構的掩碼擴散語言模型）
參數規模	105M	350M / 1.3B	8B
訓練數據	45B token（少一個數量級）	500B+ token	數萬億 token
採樣步數	32步	1024步（標準）/ 64步（需蒸餾）	64~128步
生成困惑度	24（OpenWebText，32步無蒸餾）	~35（1024步）/ ~60（32步無蒸餾）	~30（128步）
架構設計	去噪與解碼共享同一網絡，無額外模塊	每步在詞表空間做離散狀態轉移	基於掩碼預測的Transformer，每步預測被掩碼token
核心優勢	數據效率極高、採樣極快、架構最簡	與語言離散性天然契合，理論直觀	大規模參數帶來強表達能力，可擴展性好
主要劣勢	依賴預訓練encoder提供embedding	訓練數據需求大、採樣步數多、生成質量對步數敏感	推理成本高、需要大量訓練數據、推理步數仍較多