Jamba – AI21開源的首個基於Mamba架構的大模型

AI工具2年前 (2024)發佈新公告 AI管理員

17 0 0

Jamba是什麼

Jamba是由AI21 Labs推出的首個基於Mamba架構的生產級別的大語言模型，目前大部分的大模型（如GPT、Gemini 和 Llama）都是基於 Transformer 結構。而 Jamba 結合了 Mamba 結構化狀態空間模型（SSM）和傳統Transformer 架構，兼具了高質量輸出、高吞吐量和低內存佔用的優點。該混合結構的模型提供了256K的上下文窗口，顯著提升了處理長文本時的吞吐量和效率。

Jamba 以開放權重的形式發佈，遵循Apache 2.0開源許可，鼓勵社區進行進一步的研究和優化。目前，Jamba 目前作爲研究模型發佈，沒有必要的商業用途保障。AI21 Labs 計劃在未來幾周內發佈一個經過微調、更安全的版本。

Jamba - AI21開源的首個基於Mamba架構的大模型

Jamba的官網入口

官方項目主頁：https://www.ai21.com/jamba
官方博客介紹：https://www.ai21.com/blog/announcing-jamba
Hugging Face地址：https://huggingface.co/ai21labs/Jamba-v0.1

Jamba的主要特性

SSM-Transformer混合架構：Jamba是首個採用Mamba SSM（結構化狀態空間模型）與Transformer架構相結合的生產級模型，這種創新的混合架構旨在提升模型的性能和效率。
大容量上下文窗口：Jamba提供了256K的上下文窗口，這使得模型能夠處理更長的文本序列，適用於更復雜的自然語言處理任務。
高吞吐量：相比於同等規模的Mixtral 8x7B模型，Jamba在處理長上下文時實現了3倍的吞吐量提升，可以更高效地處理大量數據。
單GPU大容量處理：Jamba能夠在單個GPU上處理高達140K的上下文，顯著提高了模型的可訪問性和部署的靈活性。
開放權重許可：Jamba的權重以Apache 2.0許可發佈，爲研究者和開發者提供了自由使用、修改和優化模型的權限，促進了技術的共享和創新。
NVIDIA API集成：Jamba將作爲NVIDIA NIM推理微服務在NVIDIA API目錄中提供，使得企業開發者可以利用NVIDIA AI Enterprise軟件平台輕鬆部署Jamba模型。
優化的MoE層：Jamba利用混合結構中的MoE（混合專家）層，在推理時只激活部分參數，提高了模型的運行效率和性能。

Jamba的技術架構

Jamba 架構採用塊和層方法，使 Jamba 能夠成功集成 Mamba SSM 和 Transformer兩種架構。每個 Jamba 塊包含一個注意力層或一個 Mamba 層，後跟一個多層感知器 (MLP)，從而產生每八層中一個 Transformer 層的總體比例。

Jamba - AI21開源的首個基於Mamba架構的大模型

此外，Jamba 利用 MoE 來增加模型參數的總數，同時簡化推理中使用的活動參數的數量，從而在計算需求沒有相應增加的情況下獲得更高的模型容量。爲了最大限度地提高單個 80GB GPU 上的模型質量和吞吐量，AI21 Labs 優化了所使用的 MoE 層和專家的數量，爲常見推理工作負載留下了足夠的可用內存。

Jamba的性能對比

根據 AI21 Labs 的報告，Jamba 模型在各種基準測試（如HellaSwag、ArcChallenge、MLLU等）中展示了優秀的結果，在廣泛的任務測試（如語言理解、科學推理、常識推理等）中與同尺寸類別中最先進的模型相當甚至超越（如Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B）。

Jamba - AI21開源的首個基於Mamba架構的大模型

# AI工具