GO-2是什麼
GO-2(Genie Operator-2)是智元機器人推出的第二代具身智能基座大模型,能打通”理解-規劃-執行”鏈路,彌合語義與動作間的鴻溝。模型首創”動作思維鏈”直接在動作空間推理規劃,結合”異步雙系統”架構實現低頻規劃與高頻執行的穩定協同。在LIBERO等多項基準測試中刷新SOTA,通過Genie Studio平台實現真實場景的持續學習與規模化落地,讓機器人從”看懂”真正走向”穩定執行”。

GO-2的主要功能
- 動作思維鏈推理:在動作空間直接進行規劃推理,生成結構化高層動作序列,將複雜任務拆解爲有序步驟,實現”想清楚再做”。
- 異步雙系統執行:慢系統(低頻)生成”意圖流”規劃,快系統(高頻)實時跟蹤執行並動態調整,確保規劃被穩定兌現。
- 語義-動作統一建模:打通視覺-語言-動作鏈路,彌合”理解”與”執行”間的鴻溝,使抽象指令精準轉化爲物理世界動作。
- 閉環持續進化:依託Genie Studio平台,通過”預訓練+後訓練+數據閉環”架構,在真實交互中持續採集數據並在線優化模型。
- 跨域零樣本遷移:具備從仿真到真實環境的強泛化能力,無需重新訓練適應新場景、新物體和新紋理。
- 複雜任務執行:支持長程任務規劃與精準物理交互(如抓取、放置、操作物體),在真實環境中保持穩定可靠的動作執行。
GO-2的技術原理
- 動作思維鏈(Action Chain-of-Thought):傳統具身模型通常直接從視覺-語言輸入生成底層控制信號,將”理解”與”執行”壓縮在同一時刻完成,導致規劃與執行斷層。GO-2引入動作思維鏈,顯式模擬人類的認知過程:在執行動作前,先在內部形成清晰的動作計劃。
- 異步雙系統架構
- 慢系統(Semantic Planner):較低頻率運行,負責持續生成並細化高層動作規劃。它不輸出一次性結果,而是以”意圖流”形式提供持續約束,從宏觀動作逐步細化到子動作,形成層次化的動作表示。
- 快系統(Action Refiner):較高頻率運行,持續接收慢系統的規劃指導,結合實時視覺觀測生成具體控制信號。執行過程並非簡單復現規劃,而是圍繞規劃進行實時對齊與局部修正——當桌面高度與預期不一致時自動調整手臂下探幅度,當物體摩擦特性變化時實時調整抓取力度。
- 帶噪聲強制教學訓練機制:爲確保快系統在”接近正確但不完美”的規劃條件下仍能保持穩定執行,GO-2在訓練階段引入帶噪聲的強制教學機制。在訓練執行模塊時,使用真實的高層動作序列作爲條件,同時加入一定擾動以模擬規劃誤差,使模型具備在動態環境中持續跟隨規劃。
- 整體技術閉環:上述組件形成完整鏈路:VLM與視覺編碼器處理多模態輸入 → 動作思維鏈在動作空間生成可執行規劃 → 異步雙系統確保規劃被穩定兌現 → 執行數據迴流至雲端進行後訓練,實現模型在真實環境中的持續進化。
如何使用GO-2
- 平台接入部署:開發者需通過Genie Studio官網https://genie.agibot.com/geniestudio接入GO-2基座模型,無需本地配置複雜的訓練環境即可直接調用模型能力。
- 多模態任務輸入:用時向系統輸入自然語言指令和當前視覺觀測數據,VLM模塊會自動解析任務意圖和理解場景信息。
- 動作思維鏈規劃:模型基於動作思維鏈在動作空間內進行推理規劃,生成從宏觀到微觀的多層級結構化動作序列作爲執行藍圖。
- 異步雙系統執行:異步雙系統自動啓動,慢系統用低頻持續提供意圖流指導,快系統用高頻實時跟蹤並結合視覺反饋動態調整執行細節。
- 閉環持續進化:任務執行過程中系統自動採集真實交互數據,通過雲端後訓練機制持續優化模型參數,實現從仿真到真實場景的閉環進化。
GO-2的關鍵信息和使用要求
- 全稱:Genie Operator-2(GO-2)
- 發佈方:智元機器人
- 定位:新一代具身智能基座大模型
- 核心技術:動作思維鏈(在動作空間推理規劃)+ 異步雙系統(低頻規劃+高頻執行)
- 解決痛點:彌合”語義-運動鴻溝”,讓機器人從”想得明白”到”做得穩定”
- 性能指標:LIBERO 98.5%、LIBERO-Plus 86.6%、GenieSim真實環境82.9%,全面SOTA
- 學術認可:CVPR 2026、ACL 2026雙頂會接收
- 部署形態:內置Genie Studio開發平台,支持雲端後訓練與數據閉環
GO-2的核心優勢
- 彌合鴻溝,實現知行合一:GO-2通過統一架構打通邏輯推理與精準動作執行的鏈路,徹底彌合傳統機器人”高層理解”與”底層執行”之間的語義-運動鴻溝,實現真正的”知行合一”。
- 首創動作思維鏈,顯式推理規劃:GO-2首創動作思維鏈機制,在動作空間內顯式完成推理規劃,將複雜任務拆解爲結構化動作序列,使機器人從”邊看邊做”轉變爲”想清楚再做”,顯著降低執行偏差。
- 異步雙系統,確保執行穩定:GO-2採用異步雙系統架構,慢系統以低頻持續生成”意圖流”規劃,快系統以高頻實時跟隨並結合視覺反饋動態調整,確保高層規劃在真實擾動中始終被穩定執行。
- 全面刷新SOTA,性能行業領先:GO-2在LIBERO(98.5%)、LIBERO-Plus(86.6%)、GenieSim真實環境(82.9%)等多項基準測試中全面刷新SOTA,顯著超越GR00T、π0.5等主流模型。
- 數據閉環進化,零樣本強泛化:GO-2支持在真實場景中持續採集交互數據進行在線優化,並具備強零樣本跨域遷移能力,在僅使用仿真數據訓練的前提下於真實環境取得82.9%成功率。
GO-2的同類競品對比
| 對比維度 | GO-2(智元機器人) | π0.5(Physical Intelligence) | RT-2(Google DeepMind) |
|---|---|---|---|
| 核心架構 | 動作思維鏈 + 異步雙系統 | 流匹配(Flow Matching)架構 | VLA端到端(基於PaLI-X) |
| 規劃方式 | 在動作空間顯式推理,生成結構化高層動作序列 | 直接生成動作,無顯式中間規劃層 | 直接從像素和指令映射爲動作標記 |
| 執行機制 | 異步雙系統:慢系統低頻提供”意圖流”+快系統高頻實時跟隨修正 | 單一生成模型端到端同時完成理解與執行 | 端到端直接輸出控制信號 |
| 關鍵優勢 | 彌合語義-運動鴻溝,規劃與執行強制對齊,真實場景穩定性強 | 互聯網規模視覺-語言預訓練,高頻動作生成能力強 | 經典VLA先驅,架構簡潔,端到端訓練 |
| 主要侷限 | 商業閉源,需配套智元硬件生態 | 規劃與執行壓縮在同一時刻,真實場景穩定性待提升 | 高層推理與底層控制斷層,長程任務誤差累積明顯 |
| LIBERO成功率 | 98.7% | 96.9% | 未公開/顯著較低 |
| GenieSim真實環境 | 82.9%(零樣本遷移) | 77.5% | 通常低於60% |
| 進化能力 | 支持數據閉環持續進化(預訓練+後訓練) | 依賴離線靜態數據 | 依賴離線靜態數據 |
GO-2的應用場景
- 工業製造場景:在工廠產線中,GO-2可驅動機器人完成零部件裝配、質量檢測、工具操作等精細化作業,通過數據閉環持續學習適應不同工位特性,實現從仿真訓練到真實產線的零樣本遷移,降低產線切換時的調試成本。
- 商業服務場景:適用商超、酒店、寫字樓等場所的導引、清潔、零售補貨等服務,用其跨場景泛化能力,在無需針對每個門店重新採集數據的情況下,即可穩定適應不同的貨架佈局、光照條件和人流環境。
- 物流倉儲場景:支持分揀、搬運、碼垛等重複性操作,異步雙系統架構確保機器人在高速運動中仍能保持動作精準,避免因視覺偏差導致的抓偏或碰撞,同時通過持續數據採集優化對不同包裹形狀和重量的適應能力。
- 具身智能科研平台:作爲基座模型,GO-2爲高校和研究機構提供開箱即用的具身智能開發平台,研究者可通過Genie Studio快速部署模型進行算法驗證、數據採集和二次開發,加速具身智能領域的學術研究和技術迭代。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...