Pixtral 12B – Mistral AI推出的首款多模態AI模型

1 0 0

Pixtral 12B是什麼

Pixtral 12B 是法國AI初創公司Mistral推出的首款多模態AI模型，能同時處理圖像和文本。模型擁有 120 億參數，模型大小約爲 24GB，基於文本模型 Nemo 12B構建，能回答任意數量、任意尺寸圖像的問題。Pixtral 12B 能執行爲圖像添加描述、統計照片中物體數量等任務。用戶可以下載、微調 Pixtral 12B 模型，依據 Apache 2.0 許可證使用。Pixtral 12B 將很快在 Mistral 的聊天機器人和 API 服務平台 Le Chat 及 Le Plateforme 上開放測試。

Pixtral 12B的主要功能

圖像和文本處理：Pixtral 12B 能同時處理圖像和文本數據，能理解和回應與圖像內容相關的問題。
多模態交互：模型支持通過自然語言處理圖像，用戶可以上傳圖片或提供圖片鏈接，對圖像內容提出問題。
高參數量：擁有 120 億參數，模型在處理複雜任務時具有更高的能力和靈活性。
輕量級設計：儘管參數衆多，但模型的大小約爲 24GB，相對較小的體積部署更加便捷，降低了能耗和硬件要求。
專用視覺編碼器：模型配備了專用視覺編碼器，支持處理高達 1024×1024 分辨率的圖像，適用高級圖像處理任務。
開源和可定製：Pixtral 12B 根據 Apache 2.0 許可證開源，用戶可以自由下載、微調和部署模型，適應特定的應用場景。
高性能：在多項基準測試中表現出色，包括 MMMU、Mathvista、ChartQA、DocVQA 等，顯示在多模態理解方面的強大性能。

Pixtral 12B的技術原理

多模態能力：Pixtral 12B 能理解和處理圖像和文本數據，能回答與圖像內容相關的複雜問題。
參數和架構：模型擁有120億參數，模型大小約爲24GB，這些參數爲模型提供了強大的解題能力。基於40層的網絡結構，具有14,336個隱藏維度和32個注意力頭。
視覺編碼器：Pixtral 12B 配備了專門的視覺編碼器，可以處理高達 1024×1024 分辨率的圖像。
優化推理：模型使用 TensorRT-LLM 引擎進行優化，提高推理性能。包括動態批處理、KV 緩存和量化支持，在 NVIDIA GPU 上的後訓練量化。