MMSkills – 上海交大與小紅書聯合推出的多模態技能框架

0 0 0

MMSkills是什麼

MMSkills 是上海交通大學與小紅書聯合推出的面向通用視覺 Agent 的多模態技能框架，支持將可複用技能從純文本步驟擴展爲包含文本流程、運行時狀態卡片和多視角關鍵幀的多模態程序性知識，通過 branch loading 機制在運行時高效調用視覺證據，在 OSWorld、macOSWorld、VAB-Minecraft 等 GUI 與遊戲任務上爲 Gemini、Qwen、Kimi、GLM 等多模型家族帶來穩定提升。

MMSkills的主要功能

多模態技能包構建：整合文本流程、運行時狀態卡片與多視角關鍵幀，形成可複用的視覺程序性知識單元。
自動化技能生成：基於公開非測試交互軌跡，通過任務聚類、技能規劃、合併泛化與視覺審計五階段，自動提煉多模態技能庫。
Branch Loading 分支加載：主 Agent 在運行時臨時開啓 skill branch，按需調用技能而非一次性注入完整上下文，避免視覺證據污染主決策流程。
View Selection 視角篩選：根據當前截圖、歷史動作與狀態卡片，從技能包中智能選擇最相關的關鍵幀與視角進行對齊。
結構化決策指導：分支完成視覺對齊後，向主 Agent 返回包含 applicable、subgoal、plan、do_not_do 和 verify 的緊湊決策支持。
跨領域任務覆蓋：同時支持 GUI 桌面自動化與視覺遊戲任務，如 Minecraft、Super Mario Bros，實現多模態技能的跨場景遷移複用。

MMSkills的技術原理

多模態技能包定義：MMSkills 將傳統文本技能擴展爲包含 SKILL.md 文本流程、State_cards.json 運行時狀態卡片和 Images 多視角關鍵幀的完整單元，使 Agent 能基於視覺狀態判斷何時使用技能、如何驗證進度。
自動化技能生成：通過任務聚類、簇內技能規劃、技能合併泛化、文本草案生成、視覺 grounding 與審計五階段，從公開軌跡中自動抽取可複用的診斷性狀態知識，而非簡單保存原始演示。
Branch Loading 運行時機制：主 Agent 判斷技能可能有用時，臨時打開 skill branch 執行 View Selection 選擇關鍵狀態視角，再由 Branch Planning 將視覺證據與當前環境對齊，返回壓縮後的結構化決策支持。

MMSkills – 上海交大與小紅書聯合推出的多模態技能框架

微信關注回覆 “開源”，加入AI開源項目交流羣

如何使用MMSkills

獲取技能庫：訪問 Hugging Face 數據集下載預生成的多模態技能包。
集成主 Agent：將 MMSkills 分支加載機制接入現有視覺 Agent 的推理流程。
觸發技能調用：主 Agent 在運行時判斷當前任務可能匹配某技能，發起 branch loading 請求。
接收結構化指導：臨時分支完成視覺證據對齊後，返回 applicable、subgoal、plan 等決策支持。
執行並驗證：主 Agent 依據返回指導執行動作，並通過狀態卡片驗證任務進度。

MMSkills的核心優勢

狀態感知決策：技能包包含運行時狀態卡片，Agent 能判斷當前界面是否滿足技能前置條件。
視覺證據對齊：多視角關鍵幀幫助 Agent 將文本條件 grounding 到真實畫面，避免誤操作。
上下文高效管理：Branch Loading 避免完整技能包直接注入主上下文，防止參考圖片污染當前決策。
小模型增益顯著：外部多模態程序性知識在 Qwen3-VL-8B 等小模型上提升超一倍，補充其內部過程先驗不足。
行爲模式優化：顯著減少無效點擊和重複動作，使 Agent 從探索式試錯轉向狀態感知執行。

MMSkills的項目地址

項目官網：https://zkangning.github.io/MMSkills_for_Visual_Agents/
GitHub倉庫：https://github.com/zkangning/MMSkills_for_Visual_Agents
HuggingFace模型庫：https://huggingface.co/datasets/zhangkangning/mmskills
arXiv技術論文：https://arxiv.org/pdf/2605.13527

MMSkills的同類競品對比

維度	MMSkills	Text-only Skills
技能表示	文本流程 + 狀態卡片 + 多視角關鍵幀	純文本步驟或動作圖
狀態判斷	通過運行時狀態卡片和截圖判斷當前界面狀態	僅靠文本描述推斷，易忽略界面實際狀態
運行時加載	Branch Loading 臨時分支選擇性加載視覺證據	通常直接注入完整文本技能到主上下文
上下文污染	通過 View Selection 過濾，避免參考圖片污染主 Agent	文本雖無圖片污染，但缺乏視覺 grounding
典型失敗案例	能識別當前激活工作表、按鈕可用狀態等	易在錯誤工作表創建圖表、誤點灰色按鈕
OSWorld 整體表現	Gemini 3.1 Pro: 50.11%；Qwen3-VL-235B: 39.17%	Gemini 3.1 Pro: 40.76%；Qwen3-VL-235B: 28.57%