MMSkills – 上海交大與小紅書聯合推出的多模態技能框架

AI工具11小時前發佈新公告 AI管理員
0 0

MMSkills是什麼

MMSkills 是上海交通大學與小紅書聯合推出的面向通用視覺 Agent 的多模態技能框架,支持將可複用技能從純文本步驟擴展爲包含文本流程、運行時狀態卡片和多視角關鍵幀的多模態程序性知識,通過 branch loading 機制在運行時高效調用視覺證據,在 OSWorld、macOSWorld、VAB-Minecraft 等 GUI 與遊戲任務上爲 Gemini、Qwen、Kimi、GLM 等多模型家族帶來穩定提升。

MMSkills – 上海交大與小紅書聯合推出的多模態技能框架

MMSkills的主要功能

  • 多模態技能包構建:整合文本流程、運行時狀態卡片與多視角關鍵幀,形成可複用的視覺程序性知識單元。
  • 自動化技能生成:基於公開非測試交互軌跡,通過任務聚類、技能規劃、合併泛化與視覺審計五階段,自動提煉多模態技能庫。
  • Branch Loading 分支加載:主 Agent 在運行時臨時開啓 skill branch,按需調用技能而非一次性注入完整上下文,避免視覺證據污染主決策流程。
  • View Selection 視角篩選:根據當前截圖、歷史動作與狀態卡片,從技能包中智能選擇最相關的關鍵幀與視角進行對齊。
  • 結構化決策指導:分支完成視覺對齊後,向主 Agent 返回包含 applicable、subgoal、plan、do_not_do 和 verify 的緊湊決策支持。
  • 跨領域任務覆蓋:同時支持 GUI 桌面自動化與視覺遊戲任務,如 Minecraft、Super Mario Bros,實現多模態技能的跨場景遷移複用。

MMSkills的技術原理

  • 多模態技能包定義:MMSkills 將傳統文本技能擴展爲包含 SKILL.md 文本流程、State_cards.json 運行時狀態卡片和 Images 多視角關鍵幀的完整單元,使 Agent 能基於視覺狀態判斷何時使用技能、如何驗證進度。
  • 自動化技能生成:通過任務聚類、簇內技能規劃、技能合併泛化、文本草案生成、視覺 grounding 與審計五階段,從公開軌跡中自動抽取可複用的診斷性狀態知識,而非簡單保存原始演示。
  • Branch Loading 運行時機制:主 Agent 判斷技能可能有用時,臨時打開 skill branch 執行 View Selection 選擇關鍵狀態視角,再由 Branch Planning 將視覺證據與當前環境對齊,返回壓縮後的結構化決策支持。

MMSkills – 上海交大與小紅書聯合推出的多模態技能框架

微信關注回覆 “開源”,加入AI開源項目交流羣

如何使用MMSkills

  • 獲取技能庫:訪問 Hugging Face 數據集下載預生成的多模態技能包。
  • 集成主 Agent:將 MMSkills 分支加載機制接入現有視覺 Agent 的推理流程。
  • 觸發技能調用:主 Agent 在運行時判斷當前任務可能匹配某技能,發起 branch loading 請求。
  • 接收結構化指導:臨時分支完成視覺證據對齊後,返回 applicable、subgoal、plan 等決策支持。
  • 執行並驗證:主 Agent 依據返回指導執行動作,並通過狀態卡片驗證任務進度。

MMSkills的核心優勢

  • 狀態感知決策:技能包包含運行時狀態卡片,Agent 能判斷當前界面是否滿足技能前置條件。
  • 視覺證據對齊:多視角關鍵幀幫助 Agent 將文本條件 grounding 到真實畫面,避免誤操作。
  • 上下文高效管理:Branch Loading 避免完整技能包直接注入主上下文,防止參考圖片污染當前決策。
  • 小模型增益顯著:外部多模態程序性知識在 Qwen3-VL-8B 等小模型上提升超一倍,補充其內部過程先驗不足。
  • 行爲模式優化:顯著減少無效點擊和重複動作,使 Agent 從探索式試錯轉向狀態感知執行。

MMSkills的項目地址

  • 項目官網:https://zkangning.github.io/MMSkills_for_Visual_Agents/
  • GitHub倉庫:https://github.com/zkangning/MMSkills_for_Visual_Agents
  • HuggingFace模型庫:https://huggingface.co/datasets/zhangkangning/mmskills
  • arXiv技術論文:https://arxiv.org/pdf/2605.13527

MMSkills的同類競品對比

維度 MMSkills Text-only Skills
技能表示 文本流程 + 狀態卡片 + 多視角關鍵幀 純文本步驟或動作圖
狀態判斷 通過運行時狀態卡片和截圖判斷當前界面狀態 僅靠文本描述推斷,易忽略界面實際狀態
運行時加載 Branch Loading 臨時分支選擇性加載視覺證據 通常直接注入完整文本技能到主上下文
上下文污染 通過 View Selection 過濾,避免參考圖片污染主 Agent 文本雖無圖片污染,但缺乏視覺 grounding
典型失敗案例 能識別當前激活工作表、按鈕可用狀態等 易在錯誤工作表創建圖表、誤點灰色按鈕
OSWorld 整體表現 Gemini 3.1 Pro: 50.11%;Qwen3-VL-235B: 39.17% Gemini 3.1 Pro: 40.76%;Qwen3-VL-235B: 28.57%

MMSkills的應用場景

  • 桌面 GUI 自動化:在 Ubuntu / macOS 環境中完成跨應用複雜操作(如 LibreOffice 圖表創建、文件權限修改)。
  • 遊戲 AI 智能體:在 Minecraft 生存模式中執行長程物品獲取與合成規劃,或在平台跳躍遊戲中基於視覺狀態決策。
  • 企業 RPA 增強:爲現有機器人流程自動化系統增加視覺狀態感知能力,提升跨軟件操作的穩定性。
  • 視覺任務教學:將人工操作經驗沉澱爲可複用多模態技能庫,用於培訓或輔助其他 Agent 學習。
© 版權聲明

相關文章

暫無評論

暫無評論...