Wall-OSS-0.5 – 自變量機器人開源的國產具身智能模型

0 0 0

Wall-OSS-0.5是什麼

Wall-OSS-0.5是自變量機器人開源的國產具身智能模型，屬於視覺-語言-動作(VLA)大模型，具備無需任務微調即可在真實機器人上部署的”零樣本”能力。模型通過創新的Gradient-Bridge協同訓練方法，將動作能力融入基礎模型backbone，使機器人能直接執行搬運、分揀等17個真實任務，其中4個任務完成率超過80%。

Wall-OSS-0.5的主要功能

零樣本真實機器人操作：預訓練檢查點可直接部署到物理硬件，無需針對特定任務微調即可執行抓取、排序、整理等操作，實現”預訓練即可部署”。
多形態統一適配：單個預訓練檢查點即可適配桌面雙臂、移動操作等 20 多種機器人形態，打破傳統模型需爲每種硬件單獨訓練的侷限。
三目標協同訓練：通過離散動作預測、多模態預測與連續流匹配三者互補優化，形成”梯度橋接”，讓動作學習與視覺語言理解互不干擾、協同提升。
混合專家架構（MoT）：視覺-語言令牌由 VL Expert 路由處理，連續動作計算由 Action Expert 負責，聯合注意力機制實現端到端梯度流動，兼顧語言理解與動作生成。
視覺語言能力保持：動作訓練不會侵蝕基礎 VLM 能力，實體 grounding 能力提升 21.8 個百分點，通用視覺-語言理解與推理能力完整保留。
高效微調適配：在 LeRobot 數據集上微調後，15 項真實機器人任務平均進度達 60.5%，領先同類模型 π0.5 達 17.5 個百分點。
強泛化與長程執行：在 3 項未見過的任務（如變形物體操作）上依然保持高進度，支持多階段連續操作（如繩索收緊、抹布摺疊、果籃整理等長程任務）。

Wall-OSS-0.5的技術原理

4B 參數 VLA 架構：基於 30 億參數的 Qwen2.5-VL 視覺語言模型作爲骨幹，疊加動作生成組件，總參數量達 40 億，實現視覺感知、語言理解與機器人動作生成的端到端統一。
混合專家路由（MoT）：採用 Mixture-of-Experts 架構，視覺-語言令牌通過 VL Expert 路由處理，連續動作計算通過獨立的 Action Expert 處理，二者通過聯合注意力機制實現端到端梯度流動，避免動作訓練干擾語言理解。
梯度橋接協同訓練：創新性地將離散動作預測、多模態預測與連續流匹配（Flow Matching）三者作爲互補優化目標進行協同訓練，形成”梯度橋接”，使動作策略學習與視覺語言預訓練知識相互增強而非衝突。
連續流匹配動作生成：使用 Flow Matching 技術對連續動作空間進行建模，相比傳統的離散化或迴歸方法，能夠更精確地生成平滑、高維的機器人控制信號。
預訓練即部署設計：通過大規模異構數據預訓練，使模型在預訓練階段就習得通用的物理操作先驗，檢查點可直接在真實機器人硬件上執行零樣本推理，無需任務特定的微調後處理。
大規模異構訓練數據：覆蓋 20 多種機器人形態，每輪訓練包含超 100 萬條真實機器人軌跡；同時融合 9000 萬條多模態語料（含 1200 萬實體橋接樣本），實現約 60% 自採數據與 40% 開源數據的任務平衡採樣。
聯合注意力與端到端優化：VL Expert 與 Action Expert 共享注意力計算圖，確保語言指令、視覺場景與動作輸出在特徵層面深度耦合，梯度可跨模態雙向傳播。
能力解耦保持機制：通過三目標協同與專家分離設計，動作訓練不會侵蝕基礎 VLM 能力，實體 grounding 能力提升 21.8 個百分點，同時完整保留通用視覺-語言理解與推理能力。

如何使用Wall-OSS-0.5

環境準備：創建 Python 3.10 的 conda 環境，安裝 PyTorch 等基礎依賴，並確保安裝 Flash Attention 2.7.4 及以上版本以加速推理。
安裝 LeRobot 庫：克隆 Hugging Face 的 LeRobot 倉庫，checkout 到指定兼容版本後執行 pip install -e . 完成安裝。
安裝 Wall-X 工具鏈：克隆 wall-x 開源倉庫，運行 git submodule update --init --recursive 拉取子模塊後，執行安裝命令完成工具鏈部署。
下載預訓練權重：從 Hugging Face（x-square-robot/wall-oss-0.5）下載官方發佈的預訓練模型檢查點。
配置機器人蔘數：根據目標機器人類型（如桌面雙臂、移動操作等）設置自由度（DOF）配置、模型路徑、數據路徑及訓練超參數。
執行微調（可選）：如需針對特定任務優化，在 LeRobot 格式的數據集上運行微調腳本（如 bash ./workspace/lerobot_example/run.sh）以提升任務表現。
部署到真實硬件：加載預訓練或微調後的檢查點，在真實機器人硬件上執行零樣本推理或微調後推理，直接輸出可執行的機器人控制策略。

Wall-OSS-0.5的核心優勢

部署即用：區別於傳統 VLA 模型必須微調後才能使用，預訓練檢查點直接產生可執行的機器人策略。
高效適應：在 15 項真實機器人任務上微調後平均進度 60.5%，比 π0.5 的 43.0% 高出 17.5 個百分點。
強泛化能力：在 3 項未見過的任務（如變形物體操作）上依然保持高進度，繩索收緊任務達 82%。
視覺語言能力保持：動作訓練不會侵蝕基礎 VLM 能力，實體 grounding 能力提升 21.8 個百分點，通用 VL 能力完整保留。
數據規模領先：覆蓋 20+ 種機器人形態，每輪 100 萬+ 軌跡，9000 萬多模態樣本。

Wall-OSS-0.5的項目地址

項目地址：https://x2robot.com/oss#resources
Github倉庫：https://github.com/X-Square-Robot/wall-x
論文地址：https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同類競品對比

對比維度	Wall-OSS-0.5	π0.5	OpenVLA
開發機構	自變量機器人（X Square Robot）	Physical Intelligence（PI）	Stanford 等學術機構
參數規模	40 億（3B Qwen2.5-VL 骨幹）	未公開（基於 π0 架構擴展）	70 億（LLaMA 2-7B 骨幹）
核心架構	MoT 混合專家 + 梯度橋接協同訓練	Transformer 分層推理 + 動作專家	Prismatic VLM（SigLIP + DINOv2 + LLaMA 2）
動作生成方式	離散 token 與連續流匹配協同優化	高層離散 token 自迴歸 + 低層流匹配去噪	將動作視爲語言模型詞彙表中的離散 token 預測
訓練數據規模	20+ 種機器人形態，每輪 100 萬+ 軌跡，9000 萬多模態樣本	網絡數據 + 跨機器人經驗 + 口頭指令多源協同	Open X-Embodiment 數據集 97 萬條軌跡
零樣本部署能力	預訓練檢查點直接部署，17 項任務中 4 項進度超 80%	預訓練後需後訓練/微調，不直接支持零樣本硬件部署	預訓練模型需任務特定微調，不支持直接零樣本部署
微調後性能	15 項真實任務平均進度 60.5%，領先 π0.5 達 17.5 個百分點	真實家庭環境任務成功率 60%-88%，複雜指令遵循率高	WidowX / Google Robot 多任務成功率領先 RT-2-X 16.5%
開源程度	完全開源（權重、訓練代碼、配方、消融實驗）	研究發佈，部分技術細節公開	完全開源（模型權重、代碼、LoRA/量化微調方案）
核心創新點	梯度橋接實現預訓練即部署，動作與 VL 能力協同增強不互損	開放世界泛化與層次化推理（高層語義規劃 + 低層動作執行）	首個全面開源的通用 VLA，驗證 VLM 直接微調生成動作的可行性
VLM 能力保持	實體 grounding 提升 21.8%，通用 VL 理解與推理能力完整保留	依賴網絡數據維持語義理解，動作訓練後需專門保持	基於預訓練 VLM 微調，語言能力基線較高