Wall-OSS-0.5 – 自變量機器人開源的國產具身智能模型

AI工具1天前發佈新公告 AI管理員
0 0

Wall-OSS-0.5是什麼

Wall-OSS-0.5是自變量機器人開源的國產具身智能模型,屬於視覺-語言-動作(VLA)大模型,具備無需任務微調即可在真實機器人上部署的”零樣本”能力。模型通過創新的Gradient-Bridge協同訓練方法,將動作能力融入基礎模型backbone,使機器人能直接執行搬運、分揀等17個真實任務,其中4個任務完成率超過80%。

Wall-OSS-0.5 – 自變量機器人開源的國產具身智能模型

Wall-OSS-0.5的主要功能

  • 零樣本真實機器人操作:預訓練檢查點可直接部署到物理硬件,無需針對特定任務微調即可執行抓取、排序、整理等操作,實現”預訓練即可部署”。
  • 多形態統一適配:單個預訓練檢查點即可適配桌面雙臂、移動操作等 20 多種機器人形態,打破傳統模型需爲每種硬件單獨訓練的侷限。
  • 三目標協同訓練:通過離散動作預測、多模態預測與連續流匹配三者互補優化,形成”梯度橋接”,讓動作學習與視覺語言理解互不干擾、協同提升。
  • 混合專家架構(MoT):視覺-語言令牌由 VL Expert 路由處理,連續動作計算由 Action Expert 負責,聯合注意力機制實現端到端梯度流動,兼顧語言理解與動作生成。
  • 視覺語言能力保持:動作訓練不會侵蝕基礎 VLM 能力,實體 grounding 能力提升 21.8 個百分點,通用視覺-語言理解與推理能力完整保留。
  • 高效微調適配:在 LeRobot 數據集上微調後,15 項真實機器人任務平均進度達 60.5%,領先同類模型 π0.5 達 17.5 個百分點。
  • 強泛化與長程執行:在 3 項未見過的任務(如變形物體操作)上依然保持高進度,支持多階段連續操作(如繩索收緊、抹布摺疊、果籃整理等長程任務)。

Wall-OSS-0.5的技術原理

  • 4B 參數 VLA 架構:基於 30 億參數的 Qwen2.5-VL 視覺語言模型作爲骨幹,疊加動作生成組件,總參數量達 40 億,實現視覺感知、語言理解與機器人動作生成的端到端統一。
  • 混合專家路由(MoT):採用 Mixture-of-Experts 架構,視覺-語言令牌通過 VL Expert 路由處理,連續動作計算通過獨立的 Action Expert 處理,二者通過聯合注意力機制實現端到端梯度流動,避免動作訓練干擾語言理解。
  • 梯度橋接協同訓練:創新性地將離散動作預測、多模態預測與連續流匹配(Flow Matching)三者作爲互補優化目標進行協同訓練,形成”梯度橋接”,使動作策略學習與視覺語言預訓練知識相互增強而非衝突。
  • 連續流匹配動作生成:使用 Flow Matching 技術對連續動作空間進行建模,相比傳統的離散化或迴歸方法,能夠更精確地生成平滑、高維的機器人控制信號。
  • 預訓練即部署設計:通過大規模異構數據預訓練,使模型在預訓練階段就習得通用的物理操作先驗,檢查點可直接在真實機器人硬件上執行零樣本推理,無需任務特定的微調後處理。
  • 大規模異構訓練數據:覆蓋 20 多種機器人形態,每輪訓練包含超 100 萬條真實機器人軌跡;同時融合 9000 萬條多模態語料(含 1200 萬實體橋接樣本),實現約 60% 自採數據與 40% 開源數據的任務平衡採樣。
  • 聯合注意力與端到端優化:VL Expert 與 Action Expert 共享注意力計算圖,確保語言指令、視覺場景與動作輸出在特徵層面深度耦合,梯度可跨模態雙向傳播。
  • 能力解耦保持機制:通過三目標協同與專家分離設計,動作訓練不會侵蝕基礎 VLM 能力,實體 grounding 能力提升 21.8 個百分點,同時完整保留通用視覺-語言理解與推理能力。

如何使用Wall-OSS-0.5

  • 環境準備:創建 Python 3.10 的 conda 環境,安裝 PyTorch 等基礎依賴,並確保安裝 Flash Attention 2.7.4 及以上版本以加速推理。
  • 安裝 LeRobot 庫:克隆 Hugging Face 的 LeRobot 倉庫,checkout 到指定兼容版本後執行 pip install -e . 完成安裝。
  • 安裝 Wall-X 工具鏈:克隆 wall-x 開源倉庫,運行 git submodule update --init --recursive 拉取子模塊後,執行安裝命令完成工具鏈部署。
  • 下載預訓練權重:從 Hugging Face(x-square-robot/wall-oss-0.5)下載官方發佈的預訓練模型檢查點。
  • 配置機器人蔘數:根據目標機器人類型(如桌面雙臂、移動操作等)設置自由度(DOF)配置、模型路徑、數據路徑及訓練超參數。
  • 執行微調(可選):如需針對特定任務優化,在 LeRobot 格式的數據集上運行微調腳本(如 bash ./workspace/lerobot_example/run.sh)以提升任務表現。
  • 部署到真實硬件:加載預訓練或微調後的檢查點,在真實機器人硬件上執行零樣本推理或微調後推理,直接輸出可執行的機器人控制策略。

Wall-OSS-0.5的核心優勢

  • 部署即用:區別於傳統 VLA 模型必須微調後才能使用,預訓練檢查點直接產生可執行的機器人策略。
  • 高效適應:在 15 項真實機器人任務上微調後平均進度 60.5%,比 π0.5 的 43.0% 高出 17.5 個百分點。
  • 強泛化能力:在 3 項未見過的任務(如變形物體操作)上依然保持高進度,繩索收緊任務達 82%。
  • 視覺語言能力保持:動作訓練不會侵蝕基礎 VLM 能力,實體 grounding 能力提升 21.8 個百分點,通用 VL 能力完整保留。
  • 數據規模領先:覆蓋 20+ 種機器人形態,每輪 100 萬+ 軌跡,9000 萬多模態樣本。

Wall-OSS-0.5的項目地址

  • 項目地址:https://x2robot.com/oss#resources
  • Github倉庫:https://github.com/X-Square-Robot/wall-x
  • 論文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同類競品對比

對比維度 Wall-OSS-0.5 π0.5 OpenVLA
開發機構 自變量機器人(X Square Robot) Physical Intelligence(PI) Stanford 等學術機構
參數規模 40 億(3B Qwen2.5-VL 骨幹) 未公開(基於 π0 架構擴展) 70 億(LLaMA 2-7B 骨幹)
核心架構 MoT 混合專家 + 梯度橋接協同訓練 Transformer 分層推理 + 動作專家 Prismatic VLM(SigLIP + DINOv2 + LLaMA 2)
動作生成方式 離散 token 與連續流匹配協同優化 高層離散 token 自迴歸 + 低層流匹配去噪 將動作視爲語言模型詞彙表中的離散 token 預測
訓練數據規模 20+ 種機器人形態,每輪 100 萬+ 軌跡,9000 萬多模態樣本 網絡數據 + 跨機器人經驗 + 口頭指令多源協同 Open X-Embodiment 數據集 97 萬條軌跡
零樣本部署能力 預訓練檢查點直接部署,17 項任務中 4 項進度超 80% 預訓練後需後訓練/微調,不直接支持零樣本硬件部署 預訓練模型需任務特定微調,不支持直接零樣本部署
微調後性能 15 項真實任務平均進度 60.5%,領先 π0.5 達 17.5 個百分點 真實家庭環境任務成功率 60%-88%,複雜指令遵循率高 WidowX / Google Robot 多任務成功率領先 RT-2-X 16.5%
開源程度 完全開源(權重、訓練代碼、配方、消融實驗) 研究發佈,部分技術細節公開 完全開源(模型權重、代碼、LoRA/量化微調方案)
核心創新點 梯度橋接實現預訓練即部署,動作與 VL 能力協同增強不互損 開放世界泛化與層次化推理(高層語義規劃 + 低層動作執行) 首個全面開源的通用 VLA,驗證 VLM 直接微調生成動作的可行性
VLM 能力保持 實體 grounding 提升 21.8%,通用 VL 理解與推理能力完整保留 依賴網絡數據維持語義理解,動作訓練後需專門保持 基於預訓練 VLM 微調,語言能力基線較高

Wall-OSS-0.5的應用場景

  • 家庭服務:積木排序、水果分類、抽屜整理、戒指堆疊等日常家務操作。
  • 柔性物體處理:繩索收緊、抹布摺疊、插花等變形物體操作任務。
  • 工業裝配:精密零件抓取、顏色分類、工具歸位等重複性製造流程。
  • 雙臂協作:需要雙手配合完成的複雜裝配、整理及長程組合動作。
  • 長程任務執行:多階段連續操作,如果籃整理等多步驟需要持久注意力的任務。
© 版權聲明

相關文章

暫無評論

暫無評論...