Grok-1 – 馬斯克旗下xAI開源的大模型，參數量3140億

AI工具1年前 (2024)發佈新公告 AI管理員

16 0 0

Grok-1是什麼

Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型，是一個混合專家（MoE）模型，擁有 3140 億參數，使其成爲目前參數量最大的開源大語言模型。Grok-1 的開發和訓練過程遵循了開源的原則，其權重和網絡架構已經公開，基於Apache 2.0許可，允許用戶自由地使用、修改和分發，用於個人和商業用途。

Grok-1 - 馬斯克旗下xAI開源的大模型，參數量3140億

Grok-1的官網入口

官方文章介紹：https://x.ai/blog/grok-os
GitHub地址：https://github.com/xai-org/grok-1
Hugging Face地址：https://huggingface.co/xai-org/grok-1
模型權重下載：magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Grok-1的模型信息

根據xAI官方的模型介紹（https://x.ai/model-card/），Grok-1的信息如下：

項目	詳細信息
模型細節	Grok-1是一個基於Transformer的自迴歸模型，預訓練用於下一個token預測。該模型通過來自人類和早期Grok-0模型的廣泛反饋進行了微調。初始版本的Grok-1具有8192個token的上下文長度，並在2023年11月發佈。
預期用途	Grok-1旨在用作Grok聊天機器人背後的引擎，用於包括問答、信息檢索、創意寫作和編碼輔助在內的自然語言處理任務。
侷限性	雖然Grok-1在信息處理方面表現出色，但是需要人類審查Grok-1的工作以確保準確性。Grok-1語言模型沒有能力獨立搜索網絡。在Grok中部署時，搜索工具和數據庫增強了模型的能力和事實性。即使在訪問外部信息源的情況下，模型仍然可能產生幻覺。
訓練數據	Grok-1發佈版本使用的訓練數據來自截至2023年第三季度的互聯網和xAI的AI訓練人員提供的數據。
評估	Grok-1在一系列推理基準任務和精選的外國數學考試問題上進行了評估。xAI已與早期alpha測試者接觸，評估了包括對抗性測試在內的Grok-1版本。xAI正在通過Grok早期訪問擴大我們的早期採用者範圍，以便進行封閉beta測試。

Grok-1的技術細節

基礎模型和訓練：Grok-1是基於大量文本數據進行訓練的，沒有針對任何具體任務進行微調。這意味着它是一個通用的語言模型，可以應用於多種不同的自然語言處理任務。它的訓練從頭開始，使用JAX庫和Rust語言組成的自定義訓練堆棧。
參數數量：Grok-1擁有3140億個參數，是目前參數量最大的開源大語言模型。這些參數在給定token上的激活權重爲25%，表明瞭模型的規模和複雜性。
混合專家模型（MoE）：Grok-1採用了混合專家系統的設計，這是一種將多個專家網絡（expert networks）結合起來的方法，以提高模型的效率和性能。在Grok-1中，每個token從8個專家中選擇2個進行處理。
激活參數：Grok-1的激活參數數量爲860億，這比Llama-2的70B參數還要多，表明其在處理語言任務時的潛在能力。
嵌入和位置嵌入：Grok-1使用旋轉嵌入而非固定位置嵌入，這是一種處理序列數據的方法，可以提高模型處理長文本的能力。Tokenizer詞彙大小爲131,072，類似於GPT-4，嵌入大小爲6,144。
Transformer層：模型包含64個Transformer層，每層都包含一個解碼器層，由多頭注意力塊和密集塊組成。多頭注意力塊有48個頭用於查詢，8個頭用於鍵/值（KV），KV大小爲128。密集塊（密集前饋塊）的加寬因子爲8，隱藏層大小爲32,768。
量化：Grok-1還提供了一些權重的8bit量化內容，這有助於減少模型的存儲和計算需求，使其更適合在資源有限的環境中運行。
運行要求：由於Grok-1是一個規模較大的模型（314B參數），因此需要有足夠的GPU內存的機器才能運行。據估計，可能需要一台擁有628GB GPU內存的機器（每個參數2字節）。