GO-2 – 智元機器人推出的具身智能基座大模型

AI工具11小時前發佈新公告 AI管理員
0 0

GO-2是什麼

GO-2(Genie Operator-2)是智元機器人推出的第二代具身智能基座大模型,能打通”理解-規劃-執行”鏈路,彌合語義與動作間的鴻溝。模型首創”動作思維鏈”直接在動作空間推理規劃,結合”異步雙系統”架構實現低頻規劃與高頻執行的穩定協同。在LIBERO等多項基準測試中刷新SOTA,通過Genie Studio平台實現真實場景的持續學習與規模化落地,讓機器人從”看懂”真正走向”穩定執行”。

GO-2 – 智元機器人推出的具身智能基座大模型

GO-2的主要功能

  • 動作思維鏈推理:在動作空間直接進行規劃推理,生成結構化高層動作序列,將複雜任務拆解爲有序步驟,實現”想清楚再做”。
  • 異步雙系統執行:慢系統(低頻)生成”意圖流”規劃,快系統(高頻)實時跟蹤執行並動態調整,確保規劃被穩定兌現。
  • 語義-動作統一建模:打通視覺-語言-動作鏈路,彌合”理解”與”執行”間的鴻溝,使抽象指令精準轉化爲物理世界動作。
  • 閉環持續進化:依託Genie Studio平台,通過”預訓練+後訓練+數據閉環”架構,在真實交互中持續採集數據並在線優化模型。
  • 跨域零樣本遷移:具備從仿真到真實環境的強泛化能力,無需重新訓練適應新場景、新物體和新紋理。
  • 複雜任務執行:支持長程任務規劃與精準物理交互(如抓取、放置、操作物體),在真實環境中保持穩定可靠的動作執行。

GO-2的技術原理

  •  動作思維鏈(Action Chain-of-Thought):傳統具身模型通常直接從視覺-語言輸入生成底層控制信號,將”理解”與”執行”壓縮在同一時刻完成,導致規劃與執行斷層。GO-2引入動作思維鏈,顯式模擬人類的認知過程:在執行動作前,先在內部形成清晰的動作計劃。
  • 異步雙系統架構
    • 慢系統(Semantic Planner):較低頻率運行,負責持續生成並細化高層動作規劃。它不輸出一次性結果,而是以”意圖流”形式提供持續約束,從宏觀動作逐步細化到子動作,形成層次化的動作表示。
    • 快系統(Action Refiner):較高頻率運行,持續接收慢系統的規劃指導,結合實時視覺觀測生成具體控制信號。執行過程並非簡單復現規劃,而是圍繞規劃進行實時對齊與局部修正——當桌面高度與預期不一致時自動調整手臂下探幅度,當物體摩擦特性變化時實時調整抓取力度。
  • 帶噪聲強制教學訓練機制:爲確保快系統在”接近正確但不完美”的規劃條件下仍能保持穩定執行,GO-2在訓練階段引入帶噪聲的強制教學機制。在訓練執行模塊時,使用真實的高層動作序列作爲條件,同時加入一定擾動以模擬規劃誤差,使模型具備在動態環境中持續跟隨規劃。
  • 整體技術閉環:上述組件形成完整鏈路:VLM與視覺編碼器處理多模態輸入 → 動作思維鏈在動作空間生成可執行規劃 → 異步雙系統確保規劃被穩定兌現 → 執行數據迴流至雲端進行後訓練,實現模型在真實環境中的持續進化。

如何使用GO-2

  • 平台接入部署:開發者需通過Genie Studio官網https://genie.agibot.com/geniestudio接入GO-2基座模型,無需本地配置複雜的訓練環境即可直接調用模型能力。
  • 多模態任務輸入:用時向系統輸入自然語言指令和當前視覺觀測數據,VLM模塊會自動解析任務意圖和理解場景信息。
  • 動作思維鏈規劃:模型基於動作思維鏈在動作空間內進行推理規劃,生成從宏觀到微觀的多層級結構化動作序列作爲執行藍圖。
  • 異步雙系統執行:異步雙系統自動啓動,慢系統用低頻持續提供意圖流指導,快系統用高頻實時跟蹤並結合視覺反饋動態調整執行細節。
  • 閉環持續進化:任務執行過程中系統自動採集真實交互數據,通過雲端後訓練機制持續優化模型參數,實現從仿真到真實場景的閉環進化。

GO-2的關鍵信息和使用要求

  • 全稱:Genie Operator-2(GO-2)
  • 發佈方:智元機器人
  • 定位:新一代具身智能基座大模型
  • 核心技術:動作思維鏈(在動作空間推理規劃)+ 異步雙系統(低頻規劃+高頻執行)
  • 解決痛點:彌合”語義-運動鴻溝”,讓機器人從”想得明白”到”做得穩定”
  • 性能指標:LIBERO 98.5%、LIBERO-Plus 86.6%、GenieSim真實環境82.9%,全面SOTA
  • 學術認可:CVPR 2026、ACL 2026雙頂會接收
  • 部署形態:內置Genie Studio開發平台,支持雲端後訓練與數據閉環

GO-2的核心優勢

  • 彌合鴻溝,實現知行合一:GO-2通過統一架構打通邏輯推理與精準動作執行的鏈路,徹底彌合傳統機器人”高層理解”與”底層執行”之間的語義-運動鴻溝,實現真正的”知行合一”。
  • 首創動作思維鏈,顯式推理規劃:GO-2首創動作思維鏈機制,在動作空間內顯式完成推理規劃,將複雜任務拆解爲結構化動作序列,使機器人從”邊看邊做”轉變爲”想清楚再做”,顯著降低執行偏差。
  • 異步雙系統,確保執行穩定:GO-2採用異步雙系統架構,慢系統以低頻持續生成”意圖流”規劃,快系統以高頻實時跟隨並結合視覺反饋動態調整,確保高層規劃在真實擾動中始終被穩定執行。
  • 全面刷新SOTA,性能行業領先:GO-2在LIBERO(98.5%)、LIBERO-Plus(86.6%)、GenieSim真實環境(82.9%)等多項基準測試中全面刷新SOTA,顯著超越GR00T、π0.5等主流模型。
  • 數據閉環進化,零樣本強泛化:GO-2支持在真實場景中持續採集交互數據進行在線優化,並具備強零樣本跨域遷移能力,在僅使用仿真數據訓練的前提下於真實環境取得82.9%成功率。

GO-2的同類競品對比

對比維度 GO-2(智元機器人) π0.5(Physical Intelligence) RT-2(Google DeepMind)
核心架構 動作思維鏈 + 異步雙系統 流匹配(Flow Matching)架構 VLA端到端(基於PaLI-X)
規劃方式 在動作空間顯式推理,生成結構化高層動作序列 直接生成動作,無顯式中間規劃層 直接從像素和指令映射爲動作標記
執行機制 異步雙系統:慢系統低頻提供”意圖流”+快系統高頻實時跟隨修正 單一生成模型端到端同時完成理解與執行 端到端直接輸出控制信號
關鍵優勢 彌合語義-運動鴻溝,規劃與執行強制對齊,真實場景穩定性強 互聯網規模視覺-語言預訓練,高頻動作生成能力強 經典VLA先驅,架構簡潔,端到端訓練
主要侷限 商業閉源,需配套智元硬件生態 規劃與執行壓縮在同一時刻,真實場景穩定性待提升 高層推理與底層控制斷層,長程任務誤差累積明顯
LIBERO成功率 98.7% 96.9% 未公開/顯著較低
GenieSim真實環境 82.9%(零樣本遷移) 77.5% 通常低於60%
進化能力 支持數據閉環持續進化(預訓練+後訓練) 依賴離線靜態數據 依賴離線靜態數據

GO-2的應用場景

  • 工業製造場景:在工廠產線中,GO-2可驅動機器人完成零部件裝配、質量檢測、工具操作等精細化作業,通過數據閉環持續學習適應不同工位特性,實現從仿真訓練到真實產線的零樣本遷移,降低產線切換時的調試成本。
  • 商業服務場景:適用商超、酒店、寫字樓等場所的導引、清潔、零售補貨等服務,用其跨場景泛化能力,在無需針對每個門店重新採集數據的情況下,即可穩定適應不同的貨架佈局、光照條件和人流環境。
  • 物流倉儲場景:支持分揀、搬運、碼垛等重複性操作,異步雙系統架構確保機器人在高速運動中仍能保持動作精準,避免因視覺偏差導致的抓偏或碰撞,同時通過持續數據採集優化對不同包裹形狀和重量的適應能力。
  • 具身智能科研平台:作爲基座模型,GO-2爲高校和研究機構提供開箱即用的具身智能開發平台,研究者可通過Genie Studio快速部署模型進行算法驗證、數據採集和二次開發,加速具身智能領域的學術研究和技術迭代。
© 版權聲明

相關文章

暫無評論

暫無評論...