AI訓練模型

Llama 3

Llama 3是什麼 Llama 3是Meta...

標籤:

Llama 3是什麼

Llama 3是Meta公司最新開源推出的新一代大型語言模型(LLM),包含8B和70B兩種參數規模的模型,標誌着開源人工智能領域的又一重大進步。作爲Llama系列的第三代產品,Llama 3不僅繼承了前代模型的強大功能,還通過一系列創新和改進,提供了更高效、更可靠的AI解決方案,旨在通過先進的自然語言處理技術,支持廣泛的應用場景,包括但不限於編程、問題解決、翻譯和對話生成。

Llama 3

Llama 3的系列型號

Llama 3目前提供了兩種型號,分別爲8B(80億參數)和70B(700億參數)的版本,這兩種型號旨在滿足不同層次的應用需求,爲用戶提供了靈活性和選擇的自由度。

  • Llama-3-8B:8B參數模型,這是一個相對較小但高效的模型,擁有80億個參數。專爲需要快速推理和較少計算資源的應用場景設計,同時保持了較高的性能標準。
  • Llama-3-70B:70B參數模型,這是一個更大規模的模型,擁有700億個參數。它能夠處理更復雜的任務,提供更深入的語言理解和生成能力,適合對性能要求更高的應用。

後續,Llama 3 還會推出 400B 參數規模的模型,目前還在訓練中。Meta 還表示等完成 Llama 3 的訓練,還將發佈一份詳細的研究論文。

Llama 3的官網入口

Llama 3的改進地方

  • 參數規模:Llama 3提供了8B和70B兩種參數規模的模型,相比Llama 2,參數數量的增加使得模型能夠捕捉和學習更復雜的語言模式。
  • 訓練數據集:Llama 3的訓練數據集比Llama 2大了7倍,包含了超過15萬億個token,其中包括4倍的代碼數據,這使得Llama 3在理解和生成代碼方面更加出色。
  • 模型架構:Llama 3採用了更高效的分詞器和分組查詢注意力(Grouped Query Attention, GQA)技術,提高了模型的推理效率和處理長文本的能力。
  • 性能提升:通過改進的預訓練和後訓練過程,Llama 3在減少錯誤拒絕率、提升響應對齊和增加模型響應多樣性方面取得了進步。
  • 安全性:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增強了模型的安全性和可靠性。
  • 多語言支持:Llama 3在預訓練數據中加入了超過30種語言的高質量非英語數據,爲未來的多語言能力打下了基礎。
  • 推理和代碼生成:Llama 3在推理、代碼生成和指令跟隨等方面展現了大幅提升的能力,使其在複雜任務處理上更加精準和高效。

Llama 3的性能評估

根據Meta的官方博客,經指令微調後的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等數據集基準測試中都優於同等級參數規模的模型(Gemma 7B、Mistral 7B),而微調後的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基準測試中也都優於同等規模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。

Llama 3

此外,Meta還開發了一套新的高質量人類評估集,包含 1800 個提示,涵蓋 12 個關鍵用例:尋求建議、頭腦風暴、分類、封閉式問答、編碼、創意寫作、提取、塑造角色/角色、開放式問答、推理、重寫和總結。通過與Claude Sonnet、Mistral Medium和GPT-3.5等競爭模型的比較,人類評估者基於該評估集進行了偏好排名,結果顯示Llama 3在真實世界場景中的性能非常出色,最低都有52.9%的勝出率。

Llama 3

Llama 3的技術架構

  • 解碼器架構:Llama 3採用瞭解碼器(decoder-only)架構,這是一種標準的Transformer模型架構,主要用於處理自然語言生成任務。
  • 分詞器和詞彙量:Llama 3使用了具有128K個token的分詞器,這使得模型能夠更高效地編碼語言,從而顯著提升性能。
  • 分組查詢注意力(Grouped Query Attention, GQA):爲了提高推理效率,Llama 3在8B和70B模型中都採用了GQA技術。這種技術通過將注意力機制中的查詢分組,減少了計算量,同時保持了模型的性能。
  • 長序列處理:Llama 3支持長達8,192個token的序列,使用掩碼(masking)技術確保自注意力(self-attention)不會跨越文檔邊界,這對於處理長文本尤其重要。
  • 預訓練數據集:Llama 3在超過15TB的token上進行了預訓練,這個數據集不僅規模巨大,而且質量高,爲模型提供了豐富的語言信息。
  • 多語言數據:爲了支持多語言能力,Llama 3的預訓練數據集包含了超過5%的非英語高質量數據,涵蓋了超過30種語言。
  • 數據過濾和質量控制:Llama 3的開發團隊開發了一系列數據過濾管道,包括啓發式過濾器、NSFW(不適合工作場所)過濾器、語義去重方法和文本分類器,以確保訓練數據的高質量。
  • 擴展性和並行化:Llama 3的訓練過程中採用了數據並行化、模型並行化和流水線並行化,這些技術的應用使得模型能夠高效地在大量GPU上進行訓練。
  • 指令微調(Instruction Fine-Tuning):Llama 3在預訓練模型的基礎上,通過指令微調進一步提升了模型在特定任務上的表現,如對話和編程任務。

如何使用Llama 3

開發人員

Meta已在GitHub、Hugging Face、Replicate上開源其Llama 3模型,開發人員可使用torchtune等工具對Llama 3進行定製和微調,以適應特定的用例和需求,感興趣的開發者可以查看官方的入門指南並前往下載部署。

普通用戶

不懂技術的普通用戶想要體驗Llama 3可以通過以下方式使用:

數據統計

相關導航

暫無評論

暫無評論...