Wall-OSS-0.5是什麼
Wall-OSS-0.5是自變量機器人開源的國產具身智能模型,屬於視覺-語言-動作(VLA)大模型,具備無需任務微調即可在真實機器人上部署的”零樣本”能力。模型通過創新的Gradient-Bridge協同訓練方法,將動作能力融入基礎模型backbone,使機器人能直接執行搬運、分揀等17個真實任務,其中4個任務完成率超過80%。

Wall-OSS-0.5的主要功能
-
零樣本真實機器人操作:預訓練檢查點可直接部署到物理硬件,無需針對特定任務微調即可執行抓取、排序、整理等操作,實現”預訓練即可部署”。
-
多形態統一適配:單個預訓練檢查點即可適配桌面雙臂、移動操作等 20 多種機器人形態,打破傳統模型需爲每種硬件單獨訓練的侷限。
-
三目標協同訓練:通過離散動作預測、多模態預測與連續流匹配三者互補優化,形成”梯度橋接”,讓動作學習與視覺語言理解互不干擾、協同提升。
-
混合專家架構(MoT):視覺-語言令牌由 VL Expert 路由處理,連續動作計算由 Action Expert 負責,聯合注意力機制實現端到端梯度流動,兼顧語言理解與動作生成。
-
視覺語言能力保持:動作訓練不會侵蝕基礎 VLM 能力,實體 grounding 能力提升 21.8 個百分點,通用視覺-語言理解與推理能力完整保留。
-
高效微調適配:在 LeRobot 數據集上微調後,15 項真實機器人任務平均進度達 60.5%,領先同類模型 π0.5 達 17.5 個百分點。
-
強泛化與長程執行:在 3 項未見過的任務(如變形物體操作)上依然保持高進度,支持多階段連續操作(如繩索收緊、抹布摺疊、果籃整理等長程任務)。
Wall-OSS-0.5的技術原理
-
4B 參數 VLA 架構:基於 30 億參數的 Qwen2.5-VL 視覺語言模型作爲骨幹,疊加動作生成組件,總參數量達 40 億,實現視覺感知、語言理解與機器人動作生成的端到端統一。
-
混合專家路由(MoT):採用 Mixture-of-Experts 架構,視覺-語言令牌通過 VL Expert 路由處理,連續動作計算通過獨立的 Action Expert 處理,二者通過聯合注意力機制實現端到端梯度流動,避免動作訓練干擾語言理解。
-
梯度橋接協同訓練:創新性地將離散動作預測、多模態預測與連續流匹配(Flow Matching)三者作爲互補優化目標進行協同訓練,形成”梯度橋接”,使動作策略學習與視覺語言預訓練知識相互增強而非衝突。
-
連續流匹配動作生成:使用 Flow Matching 技術對連續動作空間進行建模,相比傳統的離散化或迴歸方法,能夠更精確地生成平滑、高維的機器人控制信號。
-
預訓練即部署設計:通過大規模異構數據預訓練,使模型在預訓練階段就習得通用的物理操作先驗,檢查點可直接在真實機器人硬件上執行零樣本推理,無需任務特定的微調後處理。
-
大規模異構訓練數據:覆蓋 20 多種機器人形態,每輪訓練包含超 100 萬條真實機器人軌跡;同時融合 9000 萬條多模態語料(含 1200 萬實體橋接樣本),實現約 60% 自採數據與 40% 開源數據的任務平衡採樣。
-
聯合注意力與端到端優化:VL Expert 與 Action Expert 共享注意力計算圖,確保語言指令、視覺場景與動作輸出在特徵層面深度耦合,梯度可跨模態雙向傳播。
-
能力解耦保持機制:通過三目標協同與專家分離設計,動作訓練不會侵蝕基礎 VLM 能力,實體 grounding 能力提升 21.8 個百分點,同時完整保留通用視覺-語言理解與推理能力。
如何使用Wall-OSS-0.5
-
環境準備:創建 Python 3.10 的 conda 環境,安裝 PyTorch 等基礎依賴,並確保安裝 Flash Attention 2.7.4 及以上版本以加速推理。
-
安裝 LeRobot 庫:克隆 Hugging Face 的 LeRobot 倉庫,checkout 到指定兼容版本後執行
pip install -e .完成安裝。 -
安裝 Wall-X 工具鏈:克隆
wall-x開源倉庫,運行git submodule update --init --recursive拉取子模塊後,執行安裝命令完成工具鏈部署。 -
下載預訓練權重:從 Hugging Face(
x-square-robot/wall-oss-0.5)下載官方發佈的預訓練模型檢查點。 -
配置機器人蔘數:根據目標機器人類型(如桌面雙臂、移動操作等)設置自由度(DOF)配置、模型路徑、數據路徑及訓練超參數。
-
執行微調(可選):如需針對特定任務優化,在 LeRobot 格式的數據集上運行微調腳本(如
bash ./workspace/lerobot_example/run.sh)以提升任務表現。 -
部署到真實硬件:加載預訓練或微調後的檢查點,在真實機器人硬件上執行零樣本推理或微調後推理,直接輸出可執行的機器人控制策略。
Wall-OSS-0.5的核心優勢
-
部署即用:區別於傳統 VLA 模型必須微調後才能使用,預訓練檢查點直接產生可執行的機器人策略。
-
高效適應:在 15 項真實機器人任務上微調後平均進度 60.5%,比 π0.5 的 43.0% 高出 17.5 個百分點。
-
強泛化能力:在 3 項未見過的任務(如變形物體操作)上依然保持高進度,繩索收緊任務達 82%。
-
視覺語言能力保持:動作訓練不會侵蝕基礎 VLM 能力,實體 grounding 能力提升 21.8 個百分點,通用 VL 能力完整保留。
-
數據規模領先:覆蓋 20+ 種機器人形態,每輪 100 萬+ 軌跡,9000 萬多模態樣本。
Wall-OSS-0.5的項目地址
- 項目地址:https://x2robot.com/oss#resources
- Github倉庫:https://github.com/X-Square-Robot/wall-x
- 論文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf
Wall-OSS-0.5的同類競品對比
| 對比維度 | Wall-OSS-0.5 | π0.5 | OpenVLA |
|---|---|---|---|
| 開發機構 | 自變量機器人(X Square Robot) | Physical Intelligence(PI) | Stanford 等學術機構 |
| 參數規模 | 40 億(3B Qwen2.5-VL 骨幹) | 未公開(基於 π0 架構擴展) | 70 億(LLaMA 2-7B 骨幹) |
| 核心架構 | MoT 混合專家 + 梯度橋接協同訓練 | Transformer 分層推理 + 動作專家 | Prismatic VLM(SigLIP + DINOv2 + LLaMA 2) |
| 動作生成方式 | 離散 token 與連續流匹配協同優化 | 高層離散 token 自迴歸 + 低層流匹配去噪 | 將動作視爲語言模型詞彙表中的離散 token 預測 |
| 訓練數據規模 | 20+ 種機器人形態,每輪 100 萬+ 軌跡,9000 萬多模態樣本 | 網絡數據 + 跨機器人經驗 + 口頭指令多源協同 | Open X-Embodiment 數據集 97 萬條軌跡 |
| 零樣本部署能力 | 預訓練檢查點直接部署,17 項任務中 4 項進度超 80% | 預訓練後需後訓練/微調,不直接支持零樣本硬件部署 | 預訓練模型需任務特定微調,不支持直接零樣本部署 |
| 微調後性能 | 15 項真實任務平均進度 60.5%,領先 π0.5 達 17.5 個百分點 | 真實家庭環境任務成功率 60%-88%,複雜指令遵循率高 | WidowX / Google Robot 多任務成功率領先 RT-2-X 16.5% |
| 開源程度 | 完全開源(權重、訓練代碼、配方、消融實驗) | 研究發佈,部分技術細節公開 | 完全開源(模型權重、代碼、LoRA/量化微調方案) |
| 核心創新點 | 梯度橋接實現預訓練即部署,動作與 VL 能力協同增強不互損 | 開放世界泛化與層次化推理(高層語義規劃 + 低層動作執行) | 首個全面開源的通用 VLA,驗證 VLM 直接微調生成動作的可行性 |
| VLM 能力保持 | 實體 grounding 提升 21.8%,通用 VL 理解與推理能力完整保留 | 依賴網絡數據維持語義理解,動作訓練後需專門保持 | 基於預訓練 VLM 微調,語言能力基線較高 |
Wall-OSS-0.5的應用場景
-
家庭服務:積木排序、水果分類、抽屜整理、戒指堆疊等日常家務操作。
-
柔性物體處理:繩索收緊、抹布摺疊、插花等變形物體操作任務。
-
工業裝配:精密零件抓取、顏色分類、工具歸位等重複性製造流程。
-
雙臂協作:需要雙手配合完成的複雜裝配、整理及長程組合動作。
-
長程任務執行:多階段連續操作,如果籃整理等多步驟需要持久注意力的任務。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...