MoE++ – 崑崙萬維和北大聯合推出的混合專家架構

AI工具3周前發佈新公告 AI管理員
3 0

MoE++是什麼

MoE++是一種新型的混合專家(Mixture-of-Experts)架構,由崑崙萬維2050研究院與北大袁粒團隊聯合推出。基於引入零計算量專家,零專家、複製專家和常數專家,降低計算成本、提升模型性能。MoE++支持每個Token動態地與不同數量的前饋網絡專家交互,甚至跳過某些層,優化計算資源分配。MoE++基於門控殘差幫助Token在選擇專家時考慮前一層的路由路徑,實現更穩定的路由。實驗表明,MoE++在相同模型大小下比傳統MoE模型性能更優,專家吞吐速度提升1.1到2.1倍,且易於部署。

MoE++ – 崑崙萬維和北大聯合推出的混合專家架構

MoE++的主要功能

  • 降低計算成本:MoE++引入零計算量專家,支持模型中的每個Token動態地與不同數量的前饋網絡(FFN)專家交互,甚至跳過某些層,減少不必要的計算。
  • 提升模型性能:減少簡單Token所需的FFN專家數量,MoE++釋放出更多的專家資源專注於處理複雜的Token,提升模型的整體性能。
  • 優化資源分配:MoE++通過靈活的計算分配,讓模型將計算資源集中在更需要的Token上,提高計算效率。
  • 穩定路由:MoE++基於門控殘差(gating residuals)機制,讓Token在選擇專家時參考前一層的路由路徑,實現更穩定的專家選擇。
  • 易於部署:由於零計算量專家的參數極小,MoE++在同一GPU上部署所有這類專家,避免分佈式FFN專家部署帶來的通信開銷和負載不均問題。

MoE++的技術原理

  • 零計算量專家:MoE++引入三種類型的零計算量專家,包括零專家(輸出空向量)、複製專家(將輸入直接作爲輸出)、常數專家(用可訓練的向量替代輸入)。
  • 動態專家選擇:與傳統MoE方法不同,MoE++支持每個Token根據其複雜性動態選擇不同數量的FFN專家進行處理。
  • 門控殘差:MoE++在專家選擇過程中加入門控殘差,讓Token在選擇當前層的專家時考慮前一層的路由路徑,增強模型在不同層之間的信息流動。
  • 異構專家結構:MoE++的專家結構是異構的,不同類型的專家(FFN專家和零計算量專家)在同一模型中協同工作,提高模型的適應性和靈活性。
  • 負載平衡:MoE++基於引入負載平衡損失和專家容量分配策略,確保模型在訓練過程中專家的負載均衡,避免某些專家過載而其他專家閒置的問題。

MoE++的項目地址

  • GitHub倉庫:https://github.com/SkyworkAI/MoE-plus-plus
  • HuggingFace模型庫:https://huggingface.co/Chat-UniVi/MoE-Plus-Plus-7B
  • arXiv技術論文:https://arxiv.org/pdf/2410.07348

MoE++的應用場景

  • 自然語言處理(NLP)研究者:研究者構建和訓練更高效的大型語言模型,進行語言理解、文本生成、機器翻譯、問答系統等研究。
  • 企業開發者:企業開發者開發高性能的NLP應用,如智能客服、內容推薦系統、自動摘要、情感分析等,提高產品的智能化水平。
  • 雲計算和AI服務提供商:提供商集成MoE++架構,爲客戶提供更高效、成本更低的AI服務,尤其是在需要處理大量語言數據的場景中。
  • 學術機構:學術機構進行各種NLP任務的教學和研究,幫助學生和研究人員理解先進的深度學習模型和算法。
© 版權聲明

相關文章

暫無評論

暫無評論...