Xiaomi OneVL – 小米具身智能團隊開源的自動駕駛大模型

0 0 0

Xiaomi OneVL是什麼

Xiaomi OneVL是小米具身智能團隊推出的開源自動駕駛大模型，在業內首次將VLA視覺-語言-動作、世界模型與潛空間推理三大技術路線統一於單一框架。模型通過雙輔助解碼器監督緊湊潛變量，實現思考速度與不思考一樣快，效果比思考更好的突破，車端推理延遲僅0.24秒，在NAVSIM等四項基準上達到SOTA，模型權重與代碼以Apache 2.0協議全面開源。

Xiaomi OneVL的主要功能

視覺-語言-動作（VLA）統一推理：將場景理解、語言推理與駕駛動作輸出集成到單一框架，實現從感知到決策到執行的一步式端到端閉環。
世界模型未來預測：內置視覺世界模型解碼器，可預測未來0.5秒和1.0秒的場景幀，強迫模型內化道路幾何、車輛運動與環境變化的因果動力學。
潛空間思維鏈（Latent CoT）推理：在緊湊潛變量中完成深度推理，推理時丟棄輔助解碼器，所有潛變量token通過單次並行預填完成，延遲僅0.24秒，與”直接預測”速度相當但精度更高。
雙輔助解碼器監督訓練：訓練階段通過語言解碼器重建文本思維鏈、視覺解碼器預測未來幀，雙維度監督確保潛變量同時編碼語義推理與物理世界因果規律。
高精度軌跡預測：基於Qwen3-VL-4B-Instruct主幹網絡，頂部附加MLP頭輸出軌跡，在NAVSIM基準PDM-score達88.84，超越8B競品。

Xiaomi OneVL的技術原理

三大技術路線統一：Xiaomi OneVL 首次將 VLA（視覺-語言-動作）、世界模型與潛空間推理三條獨立技術路線融合到單一框架中，使模型在理解當前場景的同時，能基於物理因果規律預測未來環境演變，輸出駕駛動作，實現從感知、推理到決策的端到端閉環。
雙輔助解碼器監督架構：模型在訓練階段引入兩個輔助解碼器：語言解碼器負責重建文本思維鏈，確保潛變量編碼語義推理能力；視覺世界模型解碼器負責預測未來幀（T+0.5s、T+1.0s），強迫潛變量內化道路幾何、車輛運動等物理動力學規律。推理時兩個解碼器被丟棄，僅保留緊湊潛變量進行預測。
三階段漸進式訓練：訓練分爲軌跡對齊、語言推理對齊、視覺世界模型對齊三個階段，逐步將潛變量與軌跡輸出、語言推理目標、視覺預測目標對齊。跳過任一階段都會導致性能災難性下降（最高達 21.71 分），證明三階段聯合優化對穩定訓練至關重要。
一步式潛空間並行推理：推理階段所有潛變量 token 通過單次並行預填完成，無需自迴歸逐 token 生成，車端延遲僅 0.24 秒（4.16Hz），與”直接輸出答案”的速度相當，精度顯著超越顯式思維鏈方法，成爲首個在性能上超過顯式 CoT 的潛空間推理方案。
輕量化模型底座：主幹網絡採用 Qwen3-VL-4B-Instruct，頂部附加緊湊 MLP 頭進行軌跡預測，視覺分詞器使用 Emu3.5-VisionTokenizer（碼本大小 131072）。4B 參數規模在 NAVSIM 基準上 PDM-score 達到 88.84，超越 8B 競品 AdaThinkDrive 與 LaST-VLA。

Xiaomi OneVL的核心優勢

速度與精度兼得：Xiaomi OneVL 是業內首個精度超越顯式思維鏈的潛空間推理方法，車端推理延遲僅 0.24 秒，與直接預測速度相當但效果更優，比顯式自迴歸 CoT 快 32%。
三大技術路線統一：Xiaomi OneVL 首次將 VLA、世界模型與潛空間推理三條獨立技術路線融合到單一框架，使模型同時具備場景理解、物理因果推演和未來預測能力。
雙維度可解釋決策：Xiaomi OneVL 同時提供語言解釋和視覺預測兩種決策依據，能用文字說明駕駛邏輯，也能用生成畫面展示未來場景，解決自動駕駛的”黑盒”不可解釋問題。
輕量化與高性能並存：模型基於 4B 參數的 Qwen3-VL-4B-Instruct 主幹網絡，在 NAVSIM 基準 PDM-score 達 88.84，超越 8B 競品，用更小模型規模實現更高性能。
全面開源可商用：模型的模型權重、訓練與推理代碼均以 Apache 2.0 協議全面開源，支持學術界與產業界自由二次開發與商業應用。
四項基準全面 SOTA：Xiaomi OneVL在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 四項權威基準測試中均達到當前最優水平，其中 Alpamayo-R1 的 ADE 爲所有方法中最佳。

Xiaomi OneVL的項目地址

項目官網：https://xiaomi-embodied-intelligence.github.io/OneVL/
GitHub倉庫：https://github.com/xiaomi-research/onevl
arXiv技術論文：https://arxiv.org/pdf/2604.18486

Xiaomi OneVL的同類競品對比

對比維度	Xiaomi OneVL	EMMA (Waymo)
所屬機構	小米具身智能	Waymo（Google）
模型定位	端到端 VLA + 世界模型統一框架	端到端多模態通用ist 自動駕駛模型
基礎模型	Qwen3-VL-4B-Instruct（4B）	Gemini / PaLI-X（大規模，未公開具體參數）
核心架構	潛空間推理 + 雙輔助解碼器（語言 + 視覺世界模型）	純文本 VQA 範式，所有輸入輸出表示爲自然語言文本
推理方式	單次並行預填，0.24 秒延遲（4.16Hz）	自迴歸 CoT 逐 token 生成，延遲高，計算昂貴
世界模型	內置視覺解碼器，可預測未來 0.5s/1.0s 幀	無顯式世界模型，不具備未來場景生成能力
動作輸出	連續軌跡預測（MLP 頭直接輸出）	文本形式的 BEV 座標（waypoints），需文本到浮點轉換
可解釋性	語言 + 視覺雙維度（文本解釋 + 未來畫面預測）	文本 CoT 推理鏈（rationale）+ 視覺定位（3D/BEV 位置標註）
多任務能力	專注運動規劃，四項基準 SOTA	通用ist 模型，聯合訓練規劃、3D 檢測、路圖估計、場景理解
訓練方式	三階段漸進式對齊（軌跡→語言→視覺）	端到端微調，多任務 co-training，利用 Gemini 預訓練世界知識
傳感器輸入	視覺（相機）	視覺（相機），不支持 LiDAR / radar