LayerSkip – Meta推出加速大型語言模型推理過程的技術

AI工具1年前 (2024)發佈新公告 AI管理員

5 0 0

LayerSkip是什麼

LayerSkip是一種用在加速大型語言模型（LLMs）推理過程的技術。基於在訓練階段應用層dropout和早期退出損失，讓模型在推理時從早期層開始更準確地退出，不需要遍歷所有層。提高模型的推理速度，減少計算資源的消耗。LayerSkip引入一種自我推測解碼方法，方法基於早期層退出生成令牌，用剩餘層進行驗證和糾正，提高解碼的效率，內存佔用更少，從共享計算和激活中獲益。LayerSkip在多種任務上顯示出顯著的速度提升，如文檔摘要、編程任務和語義解析等，保持較高的準確性。

LayerSkip的主要功能

加速大型語言模型的推理：減少模型在生成輸出時需要遍歷的層數，LayerSkip能提高模型的推理速度。
早期退出推理：在訓練期間應用層dropout和早期退出損失，讓模型在推理時從早期層準確退出，不必用所有層。
自我推測解碼：LayerSkip提出一種自我推測解碼方法，支持模型在早期層生成預測，用剩餘層進行驗證和糾正，提高解碼效率。

LayerSkip的技術原理

層dropout：在訓練期間，LayerSkip對不同的模型層用不同的dropout率，早期層的dropout率較低，後期層的dropout率較高。差異化的dropout策略鼓勵模型在早期層學習更多的通用特徵，減少對深層的依賴。
早期退出損失：爲提高早期層的預測準確性，LayerSkip在訓練時引入早期退出損失，讓模型的輸出層（LM頭）更好地處理自早期層的嵌入。
自我推測解碼：在推理時，LayerSkip用早期層快速生成預測（草案），用模型的剩餘層驗證和糾正預測。方法基於驗證一組令牌比自迴歸地生成每個令牌更快的事實，減少整體的推理時間。
緩存重用：爲進一步優化自我推測解碼，LayerSkip在草案和驗證階段重用激活和鍵值（KV）緩存，減少內存佔用和計算量。

LayerSkip的項目地址

GitHub倉庫：https://github.com/facebookresearch/LayerSkip
HuggingFace模型庫：https://huggingface.co/collections/facebook/layerskip-666b25c50c8ae90e1965727a
arXiv技術論文：https://arxiv.org/pdf/2404.16710