GO-1 – 智元機器人推出的首個通用具身基座模型

0 0 0

GO-1是什麼

GO-1（Genie Operator-1，智元啓元大模型）是智元機器人推出的首個通用具身基座模型。模型採用Vision-Language-Latent-Action（ViLLA）架構，由VLM（多模態大模型）和MoE（混合專家）組成。VLM藉助海量互聯網圖文數據，賦予模型通用場景感知和語言理解能力；MoE中的Latent Planner（隱式規劃器）通過大量跨本體和人類操作視頻數據，獲得通用的動作理解能力；Action Expert（動作專家）則基於百萬真機數據，實現精細的動作執行。

GO-1的主要功能

人類視頻學習：通過分析大量人類操作視頻數據，模型能學習並理解真實世界中的動作知識，快速適應新任務。
小樣本快速泛化：在極少數據或零樣本的情況下，GO-1能快速泛化到新場景和任務，降低了具身智能的應用門檻。
一腦多形，跨本體應用：GO-1能靈活部署到不同類型的機器人本體上，支持多種機器人形態，展現出極高的通用性和靈活性。
持續進化：在實際使用中，GO-1能不斷學習和優化自身性能，通過數據迴流系統從實際執行中遇到的問題數據中持續進化，越用越聰明。
高效動作執行：基於百萬級真機數據訓練的Action Expert（動作專家），模型具備精細且高效的動作執行能力。

GO-1的計算原理

VLM（多模態大模型）：VLM通過深度挖掘海量互聯網圖文數據，賦予模型卓越的通用場景感知和語言理解能力。能準確識別理解圖像中的信息，同時與文本數據進行高效融合，實現對複雜場景的全面理解。
MoE（混合專家系統）：MoE系統進一步增強了模型的動作理解與執行能力。其中：
- Latent Planner（隱式規劃器）：通過分析大量跨本體和人類操作視頻數據，掌握了通用的動作規劃邏輯。
- Action Expert（動作專家）：依託百萬級真機數據訓練，具備精細且高效的動作執行能力。