GO-2 – 智元機器人推出的具身智能基座大模型

0 0 0

GO-2是什麼

GO-2（Genie Operator-2）是智元機器人推出的第二代具身智能基座大模型，能打通”理解-規劃-執行”鏈路，彌合語義與動作間的鴻溝。模型首創”動作思維鏈”直接在動作空間推理規劃，結合”異步雙系統”架構實現低頻規劃與高頻執行的穩定協同。在LIBERO等多項基準測試中刷新SOTA，通過Genie Studio平台實現真實場景的持續學習與規模化落地，讓機器人從”看懂”真正走向”穩定執行”。

GO-2的主要功能

動作思維鏈推理：在動作空間直接進行規劃推理，生成結構化高層動作序列，將複雜任務拆解爲有序步驟，實現”想清楚再做”。
異步雙系統執行：慢系統（低頻）生成”意圖流”規劃，快系統（高頻）實時跟蹤執行並動態調整，確保規劃被穩定兌現。
語義-動作統一建模：打通視覺-語言-動作鏈路，彌合”理解”與”執行”間的鴻溝，使抽象指令精準轉化爲物理世界動作。
閉環持續進化：依託Genie Studio平台，通過”預訓練+後訓練+數據閉環”架構，在真實交互中持續採集數據並在線優化模型。
跨域零樣本遷移：具備從仿真到真實環境的強泛化能力，無需重新訓練適應新場景、新物體和新紋理。
複雜任務執行：支持長程任務規劃與精準物理交互（如抓取、放置、操作物體），在真實環境中保持穩定可靠的動作執行。

GO-2的技術原理

動作思維鏈（Action Chain-of-Thought）：傳統具身模型通常直接從視覺-語言輸入生成底層控制信號，將”理解”與”執行”壓縮在同一時刻完成，導致規劃與執行斷層。GO-2引入動作思維鏈，顯式模擬人類的認知過程：在執行動作前，先在內部形成清晰的動作計劃。
異步雙系統架構
- 慢系統（Semantic Planner）：較低頻率運行，負責持續生成並細化高層動作規劃。它不輸出一次性結果，而是以”意圖流”形式提供持續約束，從宏觀動作逐步細化到子動作，形成層次化的動作表示。
- 快系統（Action Refiner）：較高頻率運行，持續接收慢系統的規劃指導，結合實時視覺觀測生成具體控制信號。執行過程並非簡單復現規劃，而是圍繞規劃進行實時對齊與局部修正——當桌面高度與預期不一致時自動調整手臂下探幅度，當物體摩擦特性變化時實時調整抓取力度。
帶噪聲強制教學訓練機制：爲確保快系統在”接近正確但不完美”的規劃條件下仍能保持穩定執行，GO-2在訓練階段引入帶噪聲的強制教學機制。在訓練執行模塊時，使用真實的高層動作序列作爲條件，同時加入一定擾動以模擬規劃誤差，使模型具備在動態環境中持續跟隨規劃。
整體技術閉環：上述組件形成完整鏈路：VLM與視覺編碼器處理多模態輸入 → 動作思維鏈在動作空間生成可執行規劃 → 異步雙系統確保規劃被穩定兌現 → 執行數據迴流至雲端進行後訓練，實現模型在真實環境中的持續進化。

如何使用GO-2

平台接入部署：開發者需通過Genie Studio官網https://genie.agibot.com/geniestudio接入GO-2基座模型，無需本地配置複雜的訓練環境即可直接調用模型能力。
多模態任務輸入：用時向系統輸入自然語言指令和當前視覺觀測數據，VLM模塊會自動解析任務意圖和理解場景信息。
動作思維鏈規劃：模型基於動作思維鏈在動作空間內進行推理規劃，生成從宏觀到微觀的多層級結構化動作序列作爲執行藍圖。
異步雙系統執行：異步雙系統自動啓動，慢系統用低頻持續提供意圖流指導，快系統用高頻實時跟蹤並結合視覺反饋動態調整執行細節。
閉環持續進化：任務執行過程中系統自動採集真實交互數據，通過雲端後訓練機制持續優化模型參數，實現從仿真到真實場景的閉環進化。

GO-2的關鍵信息和使用要求

全稱：Genie Operator-2（GO-2）
發佈方：智元機器人
定位：新一代具身智能基座大模型
核心技術：動作思維鏈（在動作空間推理規劃）+ 異步雙系統（低頻規劃+高頻執行）
解決痛點：彌合”語義-運動鴻溝”，讓機器人從”想得明白”到”做得穩定”
性能指標：LIBERO 98.5%、LIBERO-Plus 86.6%、GenieSim真實環境82.9%，全面SOTA
學術認可：CVPR 2026、ACL 2026雙頂會接收
部署形態：內置Genie Studio開發平台，支持雲端後訓練與數據閉環

GO-2的核心優勢

彌合鴻溝，實現知行合一：GO-2通過統一架構打通邏輯推理與精準動作執行的鏈路，徹底彌合傳統機器人”高層理解”與”底層執行”之間的語義-運動鴻溝，實現真正的”知行合一”。
首創動作思維鏈，顯式推理規劃：GO-2首創動作思維鏈機制，在動作空間內顯式完成推理規劃，將複雜任務拆解爲結構化動作序列，使機器人從”邊看邊做”轉變爲”想清楚再做”，顯著降低執行偏差。
異步雙系統，確保執行穩定：GO-2採用異步雙系統架構，慢系統以低頻持續生成”意圖流”規劃，快系統以高頻實時跟隨並結合視覺反饋動態調整，確保高層規劃在真實擾動中始終被穩定執行。
全面刷新SOTA，性能行業領先：GO-2在LIBERO（98.5%）、LIBERO-Plus（86.6%）、GenieSim真實環境（82.9%）等多項基準測試中全面刷新SOTA，顯著超越GR00T、π0.5等主流模型。
數據閉環進化，零樣本強泛化：GO-2支持在真實場景中持續採集交互數據進行在線優化，並具備強零樣本跨域遷移能力，在僅使用仿真數據訓練的前提下於真實環境取得82.9%成功率。

GO-2的同類競品對比

對比維度	GO-2（智元機器人）	π0.5（Physical Intelligence）	RT-2（Google DeepMind）
核心架構	動作思維鏈 + 異步雙系統	流匹配（Flow Matching）架構	VLA端到端（基於PaLI-X）
規劃方式	在動作空間顯式推理，生成結構化高層動作序列	直接生成動作，無顯式中間規劃層	直接從像素和指令映射爲動作標記
執行機制	異步雙系統：慢系統低頻提供”意圖流”+快系統高頻實時跟隨修正	單一生成模型端到端同時完成理解與執行	端到端直接輸出控制信號
關鍵優勢	彌合語義-運動鴻溝，規劃與執行強制對齊，真實場景穩定性強	互聯網規模視覺-語言預訓練，高頻動作生成能力強	經典VLA先驅，架構簡潔，端到端訓練
主要侷限	商業閉源，需配套智元硬件生態	規劃與執行壓縮在同一時刻，真實場景穩定性待提升	高層推理與底層控制斷層，長程任務誤差累積明顯
LIBERO成功率	98.7%	96.9%	未公開/顯著較低
GenieSim真實環境	82.9%（零樣本遷移）	77.5%	通常低於60%
進化能力	支持數據閉環持續進化（預訓練+後訓練）	依賴離線靜態數據	依賴離線靜態數據

GO-2的應用場景

工業製造場景：在工廠產線中，GO-2可驅動機器人完成零部件裝配、質量檢測、工具操作等精細化作業，通過數據閉環持續學習適應不同工位特性，實現從仿真訓練到真實產線的零樣本遷移，降低產線切換時的調試成本。
商業服務場景：適用商超、酒店、寫字樓等場所的導引、清潔、零售補貨等服務，用其跨場景泛化能力，在無需針對每個門店重新採集數據的情況下，即可穩定適應不同的貨架佈局、光照條件和人流環境。
物流倉儲場景：支持分揀、搬運、碼垛等重複性操作，異步雙系統架構確保機器人在高速運動中仍能保持動作精準，避免因視覺偏差導致的抓偏或碰撞，同時通過持續數據採集優化對不同包裹形狀和重量的適應能力。
具身智能科研平台：作爲基座模型，GO-2爲高校和研究機構提供開箱即用的具身智能開發平台，研究者可通過Genie Studio快速部署模型進行算法驗證、數據採集和二次開發，加速具身智能領域的學術研究和技術迭代。

# AI工具