Mano-P 1.0 – 明略科技開源的 GUI-VLA 智能體模型

AI工具4天前發佈新公告 AI管理員
0 0

Mano-P 1.0是什麼

Mano-P 1.0是明略科技開源的GUI-VLA智能體模型,採用純視覺驅動,無需API可直接操控桌面軟件與網頁界面。模型提供72B完整版與4B量化版,支持Apple M4芯片本地部署,實現數據零上雲與物理隔離級隱私保護。Mano-P 1.0在OSWorld等13項國際基準測試中取得SOTA成績,以Apache 2.0協議開源,支持商業應用與二次開發。

Mano-P 1.0 – 明略科技開源的 GUI-VLA 智能體模型

Mano-P 1.0的主要功能

  • GUI全鏈路操控:模型具備感知、理解、規劃、操作與驗證的完整能力,可直接操控桌面軟件、網頁界面及複雜圖形化工作流,支持點擊、文本輸入、窗口切換、視覺驗證等閉環動作。
  • 純視覺理解:不依賴底層API、CDP協議或HTML解析,通過像素級視覺理解直接”看懂”屏幕內容,打破傳統瀏覽器生態邊界,可處理非標準應用、3D軟件及跨系統協作場景。
  • 端側本地部署:支持Apple M4芯片設備(Mac mini/MacBook)本地運行,也可通過USB 4.0連接算力棒。數據零上雲,實現物理隔離級隱私保護,無網環境下仍可自主執行長任務。
  • Agent生態集成:作爲Skill無縫接入OpenClaw、Claude Code等AI Agent,爲其提供GUI執行能力底座,解決複雜工作流中的人工干預瓶頸。

Mano-P 1.0的技術原理

  • GUI-VLA 架構:基於視覺-語言-動作多模態框架,模型直接解析屏幕像素信息,結合自然語言指令輸出具體操作座標與動作,無需依賴 API 或 HTML 解析即可跨平台操控任意圖形界面。
  • 三階段漸進訓練:採用監督微調奠定基礎能力,經離線強化學習優化策略,最終通過在線強化學習實現實時環境反饋與動態糾錯,形成從感知到執行的閉環優化。
  • GSPruning 剪枝加速:通過專有視覺 Token 剪枝技術壓縮冗餘視覺信息,配合 4-bit 量化方案,使 4B 模型在 M4 芯片端側實現 476 tokens/s 推理速度,內存佔用僅 4.3GB。
  • 端雲雙版本設計:72B 完整模型部署於雲端處理複雜任務,4B 量化模型專注端側本地運行,結合長上下文理解能力,支持離線環境下的自主任務規劃與多步決策。

如何使用Mano-P 1.0

  • 獲取代碼:訪問 GitHub 倉庫克隆項目源碼與文檔。
  • 選擇模式:當前可將 Mano-CUA Skill 配置至 OpenClaw 或 Claude Code。
  • 配置集成:將 Skill 接入目標 Agent,使模型獲得跨應用 GUI 感知與自動化操作能力。
  • 本地部署:在 Apple M4 芯片設備(32GB+ 內存)上運行 4B 量化模型,實現數據零上雲的離線操作。
  • 開始使用:通過自然語言指令驅動 AI 自動解析屏幕,完成點擊、輸入、窗口切換等複雜工作流。

Mano-P 1.0的關鍵信息和使用要求

  • 產品定位:Mano-P 1.0 是明略科技開源的 GUI-VLA 智能體模型,通過純視覺理解直接操控桌面軟件與網頁界面,無需依賴 API 接口。
  • 開源協議:採用 Apache 2.0 協議全面開源,完整代碼可審計,支持商業使用與二次開發。
  • 模型版本:提供 72B 完整模型(雲端高性能)與 4B 量化模型(端側本地部署)雙版本架構。
  • 性能表現:在 OSWorld、ScreenSpot-V2 等 13 個國際權威基準測試中取得 SOTA 成績,OSWorld 任務成功率達 58.2%。
  • 核心優勢:純視覺驅動打破傳統自動化邊界,支持跨應用工作流與複雜圖形界面操作。
  • 硬件配置:本地部署需 Apple M4 芯片及以上設備,配備 32GB 以上內存,或通過 USB 4.0 連接 Mano-P 算力棒。

Mano-P 1.0的核心優勢

  • 純視覺驅動:無需 API、HTML 或底層協議,直接通過像素級理解操控任意桌面軟件與 3D 應用,打破傳統自動化邊界。
  • 端側本地部署:支持 Apple M4 芯片設備本地運行,4B 量化模型僅需 4.3GB 內存,實現數據零上雲的物理隔離級隱私保護。
  • 離線自主能力:無網絡環境下可自主規劃並執行復雜長任務,具備實時決策與自我糾錯能力。
  • 性能標杆:72B 版本在 OSWorld 等 13 項國際基準測試中取得 SOTA,OSWorld 任務成功率 58.2%,領先同類模型 13.2 個百分點。
  • 開源生態:Apache 2.0 協議全面開源,完整代碼可審計,支持商業應用與二次開發,無縫接入 OpenClaw、Claude Code 等 Agent 生態。

Mano-P 1.0的項目地址

  • GitHub倉庫:https://github.com/Mininglamp-AI/Mano-P

Mano-P 1.0的同類競品對比

對比維度 Mano-P 1.0 OpenCUA-72B Claude Computer Use
開發方 明略科技 開源社區 Anthropic
模型版本 72B 完整版 / 4B 量化版 72B Claude 3.5 Sonnet(閉源)
開源協議 Apache 2.0(可商用) 開源 閉源
OSWorld 成績 58.2% 45.0% 未公開/約 40% 區間
部署方式 本地端側 + 雲端 本地 GPU / 雲端 僅雲端 API
端側硬件要求 Apple M4 芯片,32GB 內存,4.3GB 峯值顯存 需高配 GPU(如 A100),無專用量化版 不支持本地部署
離線能力 支持長任務離線自主執行 支持離線 必須聯網
視覺方案 純視覺理解(像素級) 純視覺 視覺 + 文本混合
集成方式 Skill 接入 OpenClaw/Claude Code 需自行開發接口 僅限 Claude Code 生態

Mano-P 1.0的應用場景

  • 跨應用辦公自動化:自動在 Excel、ERP、郵件客戶端間遷移數據,完成報表生成、郵件分發等跨系統辦公流。
  • 複雜軟件操控:直接操控 Photoshop、CAD、3D 建模等專業設計軟件,以及無 API 接口的 legacy 系統。
  • 端到端軟件測試:自動執行 UI 界麪點擊、表單填寫、結果驗證,完成無人工干預的全流程應用測試。
  • 隱私敏感業務處理:本地運行處理財務報表、醫療記錄等敏感數據,確保信息不出本機,滿足合規要求。
  • 離線場景自動化:在無網絡環境下自主完成數據錄入、文檔處理、系統運維等長週期複雜任務。
© 版權聲明

相關文章

暫無評論

暫無評論...