MARS是什麼
MARS(Make vAriance Reduction Shine)是字節跳動推出的創新的優化框架,提升大型模型訓練的效率。MARS融合預條件梯度方法與方差減少技術,基於縮放隨機遞歸動量技術優化梯度估計。MARS框架靈活,支持全矩陣或對角Hessian近似,衍生出基於AdamW、Lion和Shampoo的三種優化算法實例。實驗結果表明,MARS在訓練GPT-2模型時,相較傳統的AdamW優化器,展現出卓越的性能。

MARS的主要功能
- 提高訓練效率:MARS結合預條件梯度方法和方差減少技術,提高大型模型訓練的效率,尤其是在訓練深度神經網絡和大型語言模型時。
- 統一優化框架:提供適應不同Hessian近似方法的統一框架,包括全矩陣和對角矩陣近似。
- 算法實例化:在MARS框架下,實現三種具體的優化算法實例:MARS-AdamW、MARS-Lion和MARS-Shampoo,分別基於不同的預條件梯度更新策略。
- 方差減少:引入縮放隨機遞歸動量技術,有效減少訓練過程中的梯度方差,加速模型收斂。
MARS的技術原理
- 預條件梯度方法:基於預條件梯度方法調整學習率,讓每個參數或參數組有定製的學習率,適應其局部曲率。
- 方差減少技術:引入方差減少技術,如STORM(Stochastic Recursive Momentum),減少隨機梯度的方差,加速優化過程。
- 縮放隨機遞歸動量:在STORM的基礎上引入縮放參數,調整方差減少的強度,定義新的梯度估計器。
- 梯度裁剪和指數移動平均:爲優化訓練穩定性,MARS在梯度估計器中應用梯度裁剪,用指數移動平均(EMA)計算遞歸動量。
MARS的項目地址
- arXiv技術論文:https://arxiv.org/pdf/2411.10438
MARS的應用場景
- 深度學習模型訓練:訓練深度神經網絡,尤其是參數衆多的複雜模型。
- 大規模語言模型:優化大型語言模型的訓練過程,如GPT系列模型,提高訓練效率和模型性能。
- 計算機視覺任務:在圖像分類、目標檢測等計算機視覺領域中,加速模型的訓練和提高模型的泛化能力。
- 強化學習算法:在強化學習中,優化策略網絡或價值函數的參數,尤其是在面對高方差梯度時。
- 推薦系統模型:在構建推薦系統時,優化模型參數,更好地處理大規模用戶和物品特徵。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...