Phi-3.5 – 微軟推出的新一代AI模型，mini、MoE混合和視覺模型

10 0 0

Phi-3.5是什麼

Phi-3.5是微軟推出的新一代AI模型系列，包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三個版本，分別針對輕量級推理、混合專家系統和多模態任務設計。Phi-3.5採用MIT開源許可證，具有不同參數規模，支持128k上下文長度，優化了多語言處理和多輪對話能力，在基準測試中性能表現超越了GPT4o、Llama 3.1、Gemini Flash等同類模型。

Phi-3.5系列模型的性能評估和功能特色

Phi-3.5-mini-instruct
- 參數量：Phi-3.5-mini-instruct 擁有大約 38.2 億參數。
- 設計目的：該模型專爲遵守指令而設計，支持快速推理任務。
- 上下文支持：支持 128k token 的上下文長度，適合處理長文本數據。
- 適用場景：適合在內存或計算資源受限的環境，能執行代碼生成、數學問題求解和基於邏輯的推理等任務。
- 性能：在多語言和多輪對話任務中表現出色，並且在 RepoQA 基準測試中，測量“長上下文代碼理解”的性能超越了其他類似大小的模型，如 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。
- 訓練細節：使用 512 個 H100-80G GPU，在 10 天內訓練了 3.4 萬億個 tokens。

Phi-3.5-MoE-instruct
- 參數量：Phi-3.5-MoE-instruct 擁有大約 419 億參數。
- 架構特點：該模型採用了混合專家架構，將多個不同類型的模型組合成一個，每個模型專門處理不同任務。
- 上下文支持：支持 128k token 的上下文長度，適合處理複雜的多語言和多任務場景。
- 性能表現：在代碼、數學和多語言理解方面表現出色，在特定的基準測試中通常優於大型模型，包括在 RepoQA 基準測試中的優異表現。
- 多任務能力：在 5-shot MMLU（大規模多任務語言理解）基準測試中，在 STEM、人文學科、社會科學等多個學科的不同層次上超越了 GPT-40 mini。
- 訓練細節：使用了 512 個 H100-80G GPU，在 23 天內訓練了 4.9 萬億個 tokens。

Phi-3.5-vision-instruct
- 參數量：Phi-3.5-vision-instruct 擁有大約 41.5 億參數。
- 功能集成：該模型集成了文本和圖像處理功能，使其能夠處理多模態數據。
- 適用任務：特別適用於一般圖像理解、光學字符識別（OCR）、圖表和表格理解以及視頻摘要等任務。
- 上下文支持：支持 128k token 的上下文長度，允許模型管理複雜的多幀視覺任務。
- 訓練數據：模型使用合成數據集和篩選後的公開數據集進行訓練，重點放在高質量、推理密集的數據上。
- 訓練細節：使用了 256 個 A100-80G GPU，在 6 天內訓練了 5000 億個 tokens。

Phi-3.5的項目地址

GitHub倉庫：https://github.com/microsoft/Phi-3CookBook
Phi-3.5-mini-instruct 模型地址：https://huggingface.co/microsoft/Phi-3.5-mini-instruct
Phi-3.5-MoE-instruct 模型地址：https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
Phi-3.5-vision-instruct 模型地址：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

如何使用Phi-3.5

環境準備：確保開發環境滿足模型運行所需的硬件和軟件要求，例如Python環境、必要的庫和框架。
獲取模型：訪問Phi-3.5模型的Hugging Face模型庫，下載模型代碼。
安裝依賴：根據模型的文檔說明，安裝所需的依賴庫，例如Transformers庫、PyTorch或TensorFlow。
加載模型：使用API或代碼片段加載Phi-3.5模型。例如，如果使用Hugging Face的Transformers庫，可以使用模型的名稱或路徑來加載模型。
數據處理：準備輸入數據，根據模型的要求進行預處理，如分詞、編碼等。
模型配置：根據應用場景配置模型參數，例如設置上下文長度、選擇特定的任務配置等。
執行任務：使用模型執行所需的任務，如文本生成、問答、文本分類等。