Jamba是什麼
Jamba是由AI21 Labs推出的首個基於Mamba架構的生產級別的大語言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基於 Transformer 結構。而 Jamba 結合了 Mamba 結構化狀態空間模型(SSM)和 傳統Transformer 架構,兼具了高質量輸出、高吞吐量和低內存佔用的優點。該混合結構的模型提供了256K的上下文窗口,顯著提升了處理長文本時的吞吐量和效率。
Jamba 以開放權重的形式發佈,遵循Apache 2.0開源許可,鼓勵社區進行進一步的研究和優化。目前,Jamba 目前作爲研究模型發佈,沒有必要的商業用途保障。AI21 Labs 計劃在未來幾周內發佈一個經過微調、更安全的版本。
Jamba的官網入口
- 官方項目主頁:https://www.ai21.com/jamba
- 官方博客介紹:https://www.ai21.com/blog/announcing-jamba
- Hugging Face地址:https://huggingface.co/ai21labs/Jamba-v0.1
Jamba的主要特性
- SSM-Transformer混合架構:Jamba是首個採用Mamba SSM(結構化狀態空間模型)與Transformer架構相結合的生產級模型,這種創新的混合架構旨在提升模型的性能和效率。
- 大容量上下文窗口:Jamba提供了256K的上下文窗口,這使得模型能夠處理更長的文本序列,適用於更復雜的自然語言處理任務。
- 高吞吐量:相比於同等規模的Mixtral 8x7B模型,Jamba在處理長上下文時實現了3倍的吞吐量提升,可以更高效地處理大量數據。
- 單GPU大容量處理:Jamba能夠在單個GPU上處理高達140K的上下文,顯著提高了模型的可訪問性和部署的靈活性。
- 開放權重許可:Jamba的權重以Apache 2.0許可發佈,爲研究者和開發者提供了自由使用、修改和優化模型的權限,促進了技術的共享和創新。
- NVIDIA API集成:Jamba將作爲NVIDIA NIM推理微服務在NVIDIA API目錄中提供,使得企業開發者可以利用NVIDIA AI Enterprise軟件平台輕鬆部署Jamba模型。
- 優化的MoE層:Jamba利用混合結構中的MoE(混合專家)層,在推理時只激活部分參數,提高了模型的運行效率和性能。
Jamba的技術架構
Jamba 架構採用塊和層方法,使 Jamba 能夠成功集成 Mamba SSM 和 Transformer兩種架構。每個 Jamba 塊包含一個注意力層或一個 Mamba 層,後跟一個多層感知器 (MLP),從而產生每八層中一個 Transformer 層的總體比例。
此外,Jamba 利用 MoE 來增加模型參數的總數,同時簡化推理中使用的活動參數的數量,從而在計算需求沒有相應增加的情況下獲得更高的模型容量。爲了最大限度地提高單個 80GB GPU 上的模型質量和吞吐量,AI21 Labs 優化了所使用的 MoE 層和專家的數量,爲常見推理工作負載留下了足夠的可用內存。
Jamba的性能對比
根據 AI21 Labs 的報告,Jamba 模型在各種基準測試(如HellaSwag、ArcChallenge、MLLU等)中展示了優秀的結果,在廣泛的任務測試(如語言理解、科學推理、常識推理等)中與同尺寸類別中最先進的模型相當甚至超越(如Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B)。