Grok-1 – 馬斯克旗下xAI開源的大模型,參數量3140億

AI工具8個月前發佈新公告 AI管理員
6 0

Grok-1是什麼

Grok-1 是由馬斯克旗下的人工智能初創公司 xAI 開發的一款大型語言模型,是一個混合專家(MoE)模型,擁有 3140 億參數,使其成爲目前參數量最大的開源大語言模型。Grok-1 的開發和訓練過程遵循了開源的原則,其權重和網絡架構已經公開,基於Apache 2.0許可,允許用戶自由地使用、修改和分發,用於個人和商業用途。

Grok-1 - 馬斯克旗下xAI開源的大模型,參數量3140億

Grok-1的官網入口

  • 官方文章介紹:https://x.ai/blog/grok-os
  • GitHub地址:https://github.com/xai-org/grok-1
  • Hugging Face地址:https://huggingface.co/xai-org/grok-1
  • 模型權重下載magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Grok-1的模型信息

根據xAI官方的模型介紹(https://x.ai/model-card/),Grok-1的信息如下:

項目 詳細信息
模型細節 Grok-1是一個基於Transformer的自迴歸模型,預訓練用於下一個token預測。該模型通過來自人類和早期Grok-0模型的廣泛反饋進行了微調。初始版本的Grok-1具有8192個token的上下文長度,並在2023年11月發佈。
預期用途 Grok-1旨在用作Grok聊天機器人背後的引擎,用於包括問答、信息檢索、創意寫作和編碼輔助在內的自然語言處理任務。
侷限性 雖然Grok-1在信息處理方面表現出色,但是需要人類審查Grok-1的工作以確保準確性。Grok-1語言模型沒有能力獨立搜索網絡。在Grok中部署時,搜索工具和數據庫增強了模型的能力和事實性。即使在訪問外部信息源的情況下,模型仍然可能產生幻覺。
訓練數據 Grok-1發佈版本使用的訓練數據來自截至2023年第三季度的互聯網和xAI的AI訓練人員提供的數據。
評估 Grok-1在一系列推理基準任務和精選的外國數學考試問題上進行了評估。xAI已與早期alpha測試者接觸,評估了包括對抗性測試在內的Grok-1版本。xAI正在通過Grok早期訪問擴大我們的早期採用者範圍,以便進行封閉beta測試。

Grok-1的技術細節

  • 基礎模型和訓練:Grok-1是基於大量文本數據進行訓練的,沒有針對任何具體任務進行微調。這意味着它是一個通用的語言模型,可以應用於多種不同的自然語言處理任務。它的訓練從頭開始,使用JAX庫和Rust語言組成的自定義訓練堆棧。
  • 參數數量:Grok-1擁有3140億個參數,是目前參數量最大的開源大語言模型。這些參數在給定token上的激活權重爲25%,表明瞭模型的規模和複雜性。
  • 混合專家模型(MoE):Grok-1採用了混合專家系統的設計,這是一種將多個專家網絡(expert networks)結合起來的方法,以提高模型的效率和性能。在Grok-1中,每個token從8個專家中選擇2個進行處理。
  • 激活參數:Grok-1的激活參數數量爲860億,這比Llama-2的70B參數還要多,表明其在處理語言任務時的潛在能力。
  • 嵌入和位置嵌入:Grok-1使用旋轉嵌入而非固定位置嵌入,這是一種處理序列數據的方法,可以提高模型處理長文本的能力。Tokenizer詞彙大小爲131,072,類似於GPT-4,嵌入大小爲6,144。
  • Transformer層:模型包含64個Transformer層,每層都包含一個解碼器層,由多頭注意力塊和密集塊組成。多頭注意力塊有48個頭用於查詢,8個頭用於鍵/值(KV),KV大小爲128。密集塊(密集前饋塊)的加寬因子爲8,隱藏層大小爲32,768。
  • 量化:Grok-1還提供了一些權重的8bit量化內容,這有助於減少模型的存儲和計算需求,使其更適合在資源有限的環境中運行。
  • 運行要求:由於Grok-1是一個規模較大的模型(314B參數),因此需要有足夠的GPU內存的機器才能運行。據估計,可能需要一台擁有628GB GPU內存的機器(每個參數2字節)。
© 版權聲明

相關文章

暫無評論

暫無評論...