DeepEyesV2 – 小紅書開源的多模態智能體模型

0 0 0

DeepEyesV2是什麼

DeepEyesV2 是小紅書團隊推出的多模態智能體模型，通過兩階段訓練法實現強大的工具調用和多模態推理能力。模型能理解圖文信息，支持主動調用代碼執行、網絡搜索等外部工具，將工具返回的結果融入推理過程，解決複雜的真實世界問題。模型第一階段通過監督微調讓模型建立工具使用的基本認知，第二階段通過強化學習提升模型的工具調用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基準測試中表現出色，展現出強大的多技能協調能力。

DeepEyesV2的主要功能

多模態理解：模型能同時處理文本和圖像信息，理解複雜的圖文內容。
主動工具調用：在需要時主動調用外部工具，如代碼執行環境和網絡搜索，獲取額外信息或執行復雜任務。
動態推理與決策：將工具調用的結果融入推理過程，通過迭代的方式逐步解決問題。
任務自適應：根據不同任務類型（如感知、推理等）智能選擇合適的工具，提升效率和準確性。
複雜任務解決：通過工具的組合和迭代推理，解決需要多種能力協同的複雜任務，如結合感知、搜索和推理的綜合任務。

DeepEyesV2的技術原理

冷啓動階段（Cold Start）：
- 監督微調（Supervised Fine-tuning, SFT）：通過大量包含工具使用步驟的樣本數據（如感知型、推理型和長思維鏈數據）對模型進行微調，幫助模型建立對工具使用的基本認知。
- 數據設計：數據覆蓋多種任務類型，確保模型在不同場景下都能學習到合適的工具調用策略。
強化學習階段（Reinforcement Learning）：
- 策略優化：在冷啓動的基礎上，通過強化學習進一步優化模型的工具調用策略，提升效率和泛化能力。
- 目標：減少不必要的工具調用，同時在未見過的複雜場景中創造性地組合工具，提升模型的靈活性和適應性。