DeepEyesV2是什麼
DeepEyesV2 是小紅書團隊推出的多模態智能體模型,通過兩階段訓練法實現強大的工具調用和多模態推理能力。模型能理解圖文信息,支持主動調用代碼執行、網絡搜索等外部工具,將工具返回的結果融入推理過程,解決複雜的真實世界問題。模型第一階段通過監督微調讓模型建立工具使用的基本認知,第二階段通過強化學習提升模型的工具調用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基準測試中表現出色,展現出強大的多技能協調能力。

DeepEyesV2的主要功能
-
多模態理解:模型能同時處理文本和圖像信息,理解複雜的圖文內容。
-
主動工具調用:在需要時主動調用外部工具,如代碼執行環境和網絡搜索,獲取額外信息或執行復雜任務。
-
動態推理與決策:將工具調用的結果融入推理過程,通過迭代的方式逐步解決問題。
-
任務自適應:根據不同任務類型(如感知、推理等)智能選擇合適的工具,提升效率和準確性。
-
複雜任務解決:通過工具的組合和迭代推理,解決需要多種能力協同的複雜任務,如結合感知、搜索和推理的綜合任務。
DeepEyesV2的技術原理
-
冷啓動階段(Cold Start):
-
監督微調(Supervised Fine-tuning, SFT):通過大量包含工具使用步驟的樣本數據(如感知型、推理型和長思維鏈數據)對模型進行微調,幫助模型建立對工具使用的基本認知。
-
數據設計:數據覆蓋多種任務類型,確保模型在不同場景下都能學習到合適的工具調用策略。
-
-
強化學習階段(Reinforcement Learning):
-
策略優化:在冷啓動的基礎上,通過強化學習進一步優化模型的工具調用策略,提升效率和泛化能力。
-
目標:減少不必要的工具調用,同時在未見過的複雜場景中創造性地組合工具,提升模型的靈活性和適應性。
-
DeepEyesV2的項目地址
- 項目官網:https://visual-agent.github.io/
- GitHub倉庫:https://github.com/Visual-Agent/DeepEyesV2
- arXiv技術論文:https://arxiv.org/pdf/2511.05271
DeepEyesV2的應用場景
-
智能問答與信息檢索:用戶上傳圖片提問,DeepEyesV2 能結合圖像識別和網絡搜索提供精準答案。
-
教育與學習輔助:通過圖像識別和推理,爲學生提供作業輔導和知識探索支持。
-
內容創作與編輯:分析圖片內容,提供圖像編輯建議和相關文案生成。
-
智能客服與技術支持:用圖像識別和網絡搜索,爲用戶提供故障診斷和諮詢解答。
-
醫療健康:輔助醫生分析醫學影像,結合網絡搜索提供健康諮詢和初步診斷。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...