OpenELM – 蘋果開源的高效語言模型系列

AI工具5個月前發佈新公告 AI管理員
11 0

OpenELM是什麼

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本(分爲預訓練版和指令微調版)。該大模型利用層間縮放策略在Transformer模型的每一層中進行參數的非均勻分配,以此提高模型的準確度和效率。該模型在公共數據集上進行了預訓練,並且在多個自然語言處理任務上展現出了優異的性能。OpenELM的代碼、預訓練模型權重以及訓練和評估流程全部開放,旨在促進開放研究和社區的進一步發展。

OpenELM - 蘋果開源的高效語言模型系列

OpenELM的基本信息

  • 參數規模:OpenELM總共有八個模型,其中四個是預訓練的,四個是指令微調的,涵蓋了 2.7 億到 30 億個參數之間的不同參數規模(270M、450M、1.1B和3B)。
  • 技術架構:OpenELM採用了基於Transformer的架構,使用了層間縮放(layer-wise scaling)策略,通過調整注意力頭數和前饋網絡(FFN)的乘數來實現參數的非均勻分配。該模型採用了分組查詢注意力(Grouped Query Attention, GQA)代替多頭注意力(Multi-Head Attention, MHA),使用SwiGLU激活函數代替傳統的ReLU,以及RMSNorm作爲歸一化層。
  • 預訓練數據:OpenELM使用了多個公共數據集進行預訓練,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,總計約1.8萬億個token。
  • 開源許可:OpenELM的代碼、預訓練模型權重和訓練指南都是在開放源代碼許可證下發布的。此外,蘋果還發布了將模型轉換爲 MLX 庫的代碼,從而在蘋果設備上進行推理和微調。

OpenELM的官網入口

  • arXiv研究論文:https://arxiv.org/abs/2404.14619
  • GitHub模型權重和訓練配置:https://github.com/apple/corenet
  • 指令微調版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca
  • 預訓練版模型Hugging Face地址:https://huggingface.co/collections/apple/openelm-pretrained-models-6619ac6ca12a10bd0d0df89e

OpenELM - 蘋果開源的高效語言模型系列

OpenELM的技術架構

  • Transformer架構:OpenELM採用了僅解碼器(decoder-only)的Transformer模型架構,這是一種在自然語言處理中廣泛使用的架構,特別適用於處理序列數據。
  • 層間縮放(Layer-wise Scaling):OpenELM通過層間縮放技術有效地在模型的每一層分配參數。這意味着模型的早期層(接近輸入端)使用較小的注意力維度和前饋網絡維度,而接近輸出端的層則逐漸增加這些維度的大小。
  • 分組查詢注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替傳統的多頭注意力(Multi-Head Attention, MHA)。GQA是一種注意力機制的變體,旨在提高模型處理長距離依賴的能力。
  • RMSNorm歸一化:OpenELM使用了RMSNorm作爲其歸一化層,一種有助於穩定訓練過程的技術。
  • SwiGLU激活函數:在前饋網絡(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函數,一種門控激活函數,有助於模型捕捉複雜的模式。
  • RoPE位置編碼:爲了編碼位置信息,OpenELM使用了旋轉位置編碼(Rotary Positional Embedding, RoPE),一種可以處理序列中元素順序的編碼方式。
  • Flash注意力:在計算縮放點積注意力(scaled dot-product attention)時,OpenELM使用了Flash注意力,這是一種快速且內存高效的注意力計算方法。

OpenELM的性能表現

研究人員將OpenELM與PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型進行了比較。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任務測試中的多數任務上展現出了更高的準確度。尤其是,與OLMo模型相比,OpenELM在參數數量和預訓練數據更少的情況下,準確率依然更高。

OpenELM - 蘋果開源的高效語言模型系列

© 版權聲明

相關文章

暫無評論

暫無評論...