Llama 3

Llama 3是什麼

Llama 3是Meta公司最新開源推出的新一代大型語言模型（LLM），包含8B和70B兩種參數規模的模型，標誌着開源人工智能領域的又一重大進步。作爲Llama系列的第三代產品，Llama 3不僅繼承了前代模型的強大功能，還通過一系列創新和改進，提供了更高效、更可靠的AI解決方案，旨在通過先進的自然語言處理技術，支持廣泛的應用場景，包括但不限於編程、問題解決、翻譯和對話生成。

Llama 3

Llama 3的系列型號

Llama 3目前提供了兩種型號，分別爲8B（80億參數）和70B（700億參數）的版本，這兩種型號旨在滿足不同層次的應用需求，爲用戶提供了靈活性和選擇的自由度。

Llama-3-8B：8B參數模型，這是一個相對較小但高效的模型，擁有80億個參數。專爲需要快速推理和較少計算資源的應用場景設計，同時保持了較高的性能標準。
Llama-3-70B：70B參數模型，這是一個更大規模的模型，擁有700億個參數。它能夠處理更復雜的任務，提供更深入的語言理解和生成能力，適合對性能要求更高的應用。

後續，Llama 3 還會推出 400B 參數規模的模型，目前還在訓練中。Meta 還表示等完成 Llama 3 的訓練，還將發佈一份詳細的研究論文。

Llama 3的官網入口

官方項目主頁：https://llama.meta.com/llama3/
GitHub模型權重和代碼：https://github.com/meta-llama/llama3/
Hugging Face模型：https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Llama 3的改進地方

參數規模：Llama 3提供了8B和70B兩種參數規模的模型，相比Llama 2，參數數量的增加使得模型能夠捕捉和學習更復雜的語言模式。
訓練數據集：Llama 3的訓練數據集比Llama 2大了7倍，包含了超過15萬億個token，其中包括4倍的代碼數據，這使得Llama 3在理解和生成代碼方面更加出色。
模型架構：Llama 3採用了更高效的分詞器和分組查詢注意力（Grouped Query Attention, GQA）技術，提高了模型的推理效率和處理長文本的能力。
性能提升：通過改進的預訓練和後訓練過程，Llama 3在減少錯誤拒絕率、提升響應對齊和增加模型響應多樣性方面取得了進步。
安全性：引入了Llama Guard 2等新的信任和安全工具，以及Code Shield和CyberSec Eval 2，增強了模型的安全性和可靠性。
多語言支持：Llama 3在預訓練數據中加入了超過30種語言的高質量非英語數據，爲未來的多語言能力打下了基礎。
推理和代碼生成：Llama 3在推理、代碼生成和指令跟隨等方面展現了大幅提升的能力，使其在複雜任務處理上更加精準和高效。

Llama 3的性能評估

根據Meta的官方博客，經指令微調後的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等數據集基準測試中都優於同等級參數規模的模型（Gemma 7B、Mistral 7B），而微調後的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基準測試中也都優於同等規模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。

Llama 3

此外，Meta還開發了一套新的高質量人類評估集，包含 1800 個提示，涵蓋 12 個關鍵用例：尋求建議、頭腦風暴、分類、封閉式問答、編碼、創意寫作、提取、塑造角色/角色、開放式問答、推理、重寫和總結。通過與Claude Sonnet、Mistral Medium和GPT-3.5等競爭模型的比較，人類評估者基於該評估集進行了偏好排名，結果顯示Llama 3在真實世界場景中的性能非常出色，最低都有52.9%的勝出率。

Llama 3

Llama 3的技術架構

解碼器架構：Llama 3採用瞭解碼器（decoder-only）架構，這是一種標準的Transformer模型架構，主要用於處理自然語言生成任務。
分詞器和詞彙量：Llama 3使用了具有128K個token的分詞器，這使得模型能夠更高效地編碼語言，從而顯著提升性能。
分組查詢注意力（Grouped Query Attention, GQA）：爲了提高推理效率，Llama 3在8B和70B模型中都採用了GQA技術。這種技術通過將注意力機制中的查詢分組，減少了計算量，同時保持了模型的性能。
長序列處理：Llama 3支持長達8,192個token的序列，使用掩碼（masking）技術確保自注意力（self-attention）不會跨越文檔邊界，這對於處理長文本尤其重要。
預訓練數據集：Llama 3在超過15TB的token上進行了預訓練，這個數據集不僅規模巨大，而且質量高，爲模型提供了豐富的語言信息。
多語言數據：爲了支持多語言能力，Llama 3的預訓練數據集包含了超過5%的非英語高質量數據，涵蓋了超過30種語言。
數據過濾和質量控制：Llama 3的開發團隊開發了一系列數據過濾管道，包括啓發式過濾器、NSFW（不適合工作場所）過濾器、語義去重方法和文本分類器，以確保訓練數據的高質量。
擴展性和並行化：Llama 3的訓練過程中採用了數據並行化、模型並行化和流水線並行化，這些技術的應用使得模型能夠高效地在大量GPU上進行訓練。
指令微調（Instruction Fine-Tuning）：Llama 3在預訓練模型的基礎上，通過指令微調進一步提升了模型在特定任務上的表現，如對話和編程任務。