Phi-3 – 微軟最新推出的新一代小模型系列

AI工具1年前 (2024)發佈新公告 AI管理員

1 0 0

Phi-3是什麼

Phi-3是微軟研究院推出的新一代系列先進的小語言模型，包括phi-3-mini、phi-3-small和phi-3-medium三個不同規模的版本。這些模型在保持較小的參數規模的同時，通過精心設計的訓練數據集和優化的算法，實現了與大型模型相媲美的語言理解和推理能力。特別是phi-3-mini模型，僅3.8億參數，卻能在多項基準測試中超越參數量更大的模型，並且由於其小巧的體積，甚至可以在智能手機上運行。Phi-3系列模型的研發，展示了在數據工程和模型優化方面的最新進展，爲未來小型化、高效能AI模型的發展提供了新的可能性。

技術報告：https://arxiv.org/abs/2404.14219

Hugging Face Phi-3模型地址：https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama Phi-3模型地址：https://ollama.com/library/phi3

Phi-3的模型系列

phi-3-mini：最小的語言模型，擁有3.8億參數。儘管體積小巧，但它在多項語言理解任務上的基準測試表現卻能與參數量更大的模型如Mixtral 8x7B和GPT-3.5相媲美。它的設計允許在手機上部署，且在iPhone 14 Pro和iPhone 15使用的A16芯片上能夠達到每秒12個token的處理速度。
phi-3-small：該模型的參數量爲7億，它使用了tiktoken分詞器以支持多語言，並額外增加了10%的多語種數據。phi-3-small在MMLU測試中的得分爲75.3%，表現出色，超越了Meta最近發佈的Llama 3 8B Instruct模型。
phi-3-medium：擁有14億參數的中型模型，在更多數據上進行了訓練，並且在多數測試中超越了GPT-3.5和Mixtral 8x7b MoE。該模型在MMLU測試中的得分達到78.2%，顯示了其強大的語言處理能力。

Phi-3的訓練方法

高質量數據集：Phi-3模型的訓練使用了3.3萬億至4.8萬億tokens的大規模數據集，這些數據集經過了嚴格的篩選和過濾，以確保數據的教育水平和質量。
合成數據生成：利用大型語言模型（LLM）生成合成數據，這些合成數據用於教授模型邏輯推理和多種專業技能。
分階段訓練：訓練過程分爲兩個階段，第一階段主要使用網絡數據，目的是讓模型掌握通用知識和語言理解；第二階段則進一步篩選網絡數據，並結合合成數據進行訓練。
數據優化：訓練數據被校準以接近“數據最優”狀態，這意味着在數據選擇上，會優先考慮能夠提升模型推理能力的網頁數據。
後訓練優化：模型在預訓練之後，還經過了監督指令微調和偏好調整（DPO），以及紅隊測試和自動化測試，以提高模型的安全性、魯棒性和對話格式的適應性。
安全性和對齊：Phi-3-mini的開發遵循了微軟的負責任AI原則，通過後訓練階段的安全性對齊，使用幫助性和無害性偏好數據集進行訓練，並通過獨立紅隊的迭代審查來進一步識別改進領域。
量化處理：爲了使模型能夠在手機上運行，Phi-3-Mini可以進行4-bit量化，顯著減少了模型的內存佔用。
多語言支持：儘管Phi-3-Mini主要針對英語，但微軟也在探索小型語言模型的多語言能力，Phi-3-Small模型就通過包含更多的多語言數據進行了訓練。

Phi-3的性能表現

基準測試得分：phi-3-mini 在MMLU（Massive Multitask Language Understanding）基準測試中得分爲69%，在MT-bench上得分爲8.38。phi-3-small 和 phi-3-medium 分別在MMLU上取得了75.3%和78.2%的得分，顯示了模型規模增長帶來的性能提升。
性能對比其他模型：Phi-3系列在性能上與參數量更大的模型如Mixtral 8x7B和GPT-3.5相媲美。特別是phi-3-mini，儘管只有3.8億參數，卻在多項基準測試中超過了8B參數的Llama 3。在與Meta的Llama-3-8B-Instruct模型的對比中，phi-3-small（7B參數）在MMLU上得分更高（75.3% vs 66%），顯示了Phi-3系列在較小模型尺寸下的性能優勢。
移動設備上的運行：phi-3-mini 特別設計爲能夠在移動設備上運行，經過4-bit量化後，能夠在iPhone 14 Pro和iPhone 15使用的A16芯片上達到每秒12個token的速度，這在之前的大型模型中是難以實現的。
多語言能力：phi-3-small 通過使用tiktoken分詞器和增加10%的多語種數據，增強了模型的多語言處理能力，這在對比中是一個重要的優勢。

Phi-3的侷限與不足

知識存儲限制：由於模型大小的限制，特別是phi-3-mini，它在存儲大量事實知識方面的能力有限，這在需要廣泛背景知識的測試中表現得尤爲明顯，例如在TriviaQA測試中的低分表現。
對搜索功能的依賴：爲了緩解知識存儲的限制，微軟提出可以通過與搜索引擎的結合來增強模型的性能。這表明在沒有外部搜索支持的情況下，模型可能無法獨立提供最佳的答案或信息。
多語言能力的限制：儘管phi-3-small通過增加多語言數據進行了優化，但Phi-3系列模型的主要語言能力仍然主要集中在英語上。對於需要廣泛多語言支持的應用場景，這可能是一個限制。
特定任務的性能：在某些特定的任務或數據集上，Phi-3模型可能還沒有達到最佳性能，這可能需要進一步的訓練數據優化和模型調整。
安全性挑戰：儘管模型在安全性方面進行了優化，但像大多數大型語言模型一樣，Phi-3系列模型可能仍然存在產生幻覺、不適當內容、偏見放大或安全性問題的挑戰。
硬件部署限制：雖然Phi-3-Mini能夠在智能手機上運行，但對於一些需要極高計算資源的任務，即使是小型化的模型也可能面臨硬件性能的限制。