Llama3.1 – Meta最新發布的最強開源AI模型

AI項目和框架2年前 (2024)發佈新公告 AI管理員

10 0 0

Llama3.1是什麼

Llama 3.1是Meta最新發布的開源AI模型，包括8B、70B和405B三個版本，其中405B版本以其4050億參數量成爲目前最大的開源模型之一。Llama 3.1支持128K的上下文長度，能夠處理長文本並具備多語言翻譯能力。在多個AI基準測試中表現卓越，尤其在數學、推理和長文本處理方面，與市場上頂尖的閉源模型如GPT-4o和Claude 3.5 Sonnet相媲美。此外，Meta還提供了Llama Stack API和安全工具，推動了AI創新應用的開發。

Llama3.1的功能特色

上下文長度：Llama 3.1支持高達128K的上下文長度，能夠處理和理解更長的文本信息，對於長文本摘要和多語言對話等高級應用非常有利。
多語言能力：模型支持八種語言，包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語，在多語言翻譯和跨文化交流中表現出色。
數學和推理能力：在GSM8K和ARC Challenge等數學和推理測試中，Llama 3.1的得分非常高，在解決複雜數學問題和邏輯推理方面有非常強大的能力。
長文本處理：在ZeroSCROLLS/QuALITY測試中，Llama 3.1的得分與GPT-4持平，優於其他模型，在長文本理解方面具有很強的能力。
工具使用：Llama 3.1在BFCL測試中得分較高，在使用工具和執行編程任務方面能力很強。
特殊測試：在NIH/Multi-needle測試中，Llama 3.1的得分接近滿分，在特定領域的高度專業化能力非常突出。
量化優化：爲了支持大規模推理，Llama 3.1的模型從BF16量化到FP8，有效減少了計算資源需求，使得模型能夠在更廣泛的硬件上運行。

Llama3.1的性能表現

Meta 評估了超過了 150 個基準數據集的性能，比較了 Llama 3.1 與其他模型在現實情況下的能力表現，405B 模型在包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 在內的一系列任務中與領先的基礎模型具有競爭力。此外，較小模型與具有相似參數數量的封閉和開放模型具有競爭力。

Llama3.1 – Meta最新發布的最強開源AI模型

8B 和 70B 模型在基準測試中取得了顯著進步：Llama 3.1 在基準測試中表現優異。8B 模型在 MMLU 測試中從 65 分提升到 73 分（提高 8 分），70B 模型從 81 分提升到 86 分（提高 5 分）。在 MATH (數學問題解決) 測試中，8B 模型的得分從 29 分大幅提升到 52 分（提高 23 分）。

Llama 3.1 405B 在通用任務、知識推理、閱讀理解上創下最新紀錄。尤其在，MMLU、SQuAD 細分基準上，提升最爲明顯。Llama 3.1 8B 和 70B 參數版本，相較於 Llama 3，得到了細微地改善。Llama 3.1 405B 比預訓練模型更強。在推理、代碼、數學、工具使用、多語言基準上，紛紛碾壓微調後的 8B 和 70B 版本。