DeepEyesV2 – 小紅書開源的多模態智能體模型

AI工具8個月前發佈新公告 AI管理員
0 0

DeepEyesV2是什麼

DeepEyesV2 是小紅書團隊推出的多模態智能體模型,通過兩階段訓練法實現強大的工具調用和多模態推理能力。模型能理解圖文信息,支持主動調用代碼執行、網絡搜索等外部工具,將工具返回的結果融入推理過程,解決複雜的真實世界問題。模型第一階段通過監督微調讓模型建立工具使用的基本認知,第二階段通過強化學習提升模型的工具調用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基準測試中表現出色,展現出強大的多技能協調能力。

DeepEyesV2 – 小紅書開源的多模態智能體模型

DeepEyesV2的主要功能

  • 多模態理解:模型能同時處理文本和圖像信息,理解複雜的圖文內容。
  • 主動工具調用:在需要時主動調用外部工具,如代碼執行環境和網絡搜索,獲取額外信息或執行復雜任務。
  • 動態推理與決策:將工具調用的結果融入推理過程,通過迭代的方式逐步解決問題。
  • 任務自適應:根據不同任務類型(如感知、推理等)智能選擇合適的工具,提升效率和準確性。
  • 複雜任務解決:通過工具的組合和迭代推理,解決需要多種能力協同的複雜任務,如結合感知、搜索和推理的綜合任務。

DeepEyesV2的技術原理

  • 冷啓動階段(Cold Start)
    • 監督微調(Supervised Fine-tuning, SFT):通過大量包含工具使用步驟的樣本數據(如感知型、推理型和長思維鏈數據)對模型進行微調,幫助模型建立對工具使用的基本認知。
    • 數據設計:數據覆蓋多種任務類型,確保模型在不同場景下都能學習到合適的工具調用策略。
  • 強化學習階段(Reinforcement Learning)
    • 策略優化:在冷啓動的基礎上,通過強化學習進一步優化模型的工具調用策略,提升效率和泛化能力。
    • 目標:減少不必要的工具調用,同時在未見過的複雜場景中創造性地組合工具,提升模型的靈活性和適應性。

DeepEyesV2的項目地址

  • 項目官網:https://visual-agent.github.io/
  • GitHub倉庫:https://github.com/Visual-Agent/DeepEyesV2
  • arXiv技術論文:https://arxiv.org/pdf/2511.05271

DeepEyesV2的應用場景

  • 智能問答與信息檢索:用戶上傳圖片提問,DeepEyesV2 能結合圖像識別和網絡搜索提供精準答案。
  • 教育與學習輔助:通過圖像識別和推理,爲學生提供作業輔導和知識探索支持。
  • 內容創作與編輯:分析圖片內容,提供圖像編輯建議和相關文案生成。
  • 智能客服與技術支持:用圖像識別和網絡搜索,爲用戶提供故障診斷和諮詢解答。
  • 醫療健康:輔助醫生分析醫學影像,結合網絡搜索提供健康諮詢和初步診斷。
© 版權聲明

相關文章

暫無評論

暫無評論...