OpenELM – 蘋果開源的高效語言模型系列

AI工具1年前 (2024)發佈新公告 AI管理員

15 0 0

OpenELM是什麼

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數規模的版本（分爲預訓練版和指令微調版）。該大模型利用層間縮放策略在Transformer模型的每一層中進行參數的非均勻分配，以此提高模型的準確度和效率。該模型在公共數據集上進行了預訓練，並且在多個自然語言處理任務上展現出了優異的性能。OpenELM的代碼、預訓練模型權重以及訓練和評估流程全部開放，旨在促進開放研究和社區的進一步發展。

OpenELM - 蘋果開源的高效語言模型系列

OpenELM的基本信息

參數規模：OpenELM總共有八個模型，其中四個是預訓練的，四個是指令微調的，涵蓋了 2.7 億到 30 億個參數之間的不同參數規模（270M、450M、1.1B和3B）。
技術架構：OpenELM採用了基於Transformer的架構，使用了層間縮放（layer-wise scaling）策略，通過調整注意力頭數和前饋網絡（FFN）的乘數來實現參數的非均勻分配。該模型採用了分組查詢注意力（Grouped Query Attention, GQA）代替多頭注意力（Multi-Head Attention, MHA），使用SwiGLU激活函數代替傳統的ReLU，以及RMSNorm作爲歸一化層。
預訓練數據：OpenELM使用了多個公共數據集進行預訓練，包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集，總計約1.8萬億個token。
開源許可：OpenELM的代碼、預訓練模型權重和訓練指南都是在開放源代碼許可證下發布的。此外，蘋果還發布了將模型轉換爲 MLX 庫的代碼，從而在蘋果設備上進行推理和微調。

OpenELM的官網入口

arXiv研究論文：https://arxiv.org/abs/2404.14619
GitHub模型權重和訓練配置：https://github.com/apple/corenet
指令微調版模型Hugging Face地址：https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca
預訓練版模型Hugging Face地址：https://huggingface.co/collections/apple/openelm-pretrained-models-6619ac6ca12a10bd0d0df89e

OpenELM - 蘋果開源的高效語言模型系列

OpenELM的技術架構

Transformer架構：OpenELM採用了僅解碼器（decoder-only）的Transformer模型架構，這是一種在自然語言處理中廣泛使用的架構，特別適用於處理序列數據。
層間縮放（Layer-wise Scaling）：OpenELM通過層間縮放技術有效地在模型的每一層分配參數。這意味着模型的早期層（接近輸入端）使用較小的注意力維度和前饋網絡維度，而接近輸出端的層則逐漸增加這些維度的大小。
分組查詢注意力（Grouped Query Attention, GQA）：OpenELM使用了GQA代替傳統的多頭注意力（Multi-Head Attention, MHA）。GQA是一種注意力機制的變體，旨在提高模型處理長距離依賴的能力。
RMSNorm歸一化：OpenELM使用了RMSNorm作爲其歸一化層，一種有助於穩定訓練過程的技術。
SwiGLU激活函數：在前饋網絡（Feed Forward Network, FFN）中，OpenELM使用了SwiGLU激活函數，一種門控激活函數，有助於模型捕捉複雜的模式。
RoPE位置編碼：爲了編碼位置信息，OpenELM使用了旋轉位置編碼（Rotary Positional Embedding, RoPE），一種可以處理序列中元素順序的編碼方式。
Flash注意力：在計算縮放點積注意力（scaled dot-product attention）時，OpenELM使用了Flash注意力，這是一種快速且內存高效的注意力計算方法。

OpenELM的性能表現

研究人員將OpenELM與PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型進行了比較。在相似的模型大小下，OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任務測試中的多數任務上展現出了更高的準確度。尤其是，與OLMo模型相比，OpenELM在參數數量和預訓練數據更少的情況下，準確率依然更高。

OpenELM - 蘋果開源的高效語言模型系列

# AI工具