Xiaomi OneVL – 小米具身智能團隊開源的自動駕駛大模型

AI工具2周前發佈新公告 AI管理員
0 0

Xiaomi OneVL是什麼

Xiaomi OneVL是小米具身智能團隊推出的開源自動駕駛大模型,在業內首次將VLA視覺-語言-動作、世界模型與潛空間推理三大技術路線統一於單一框架。模型通過雙輔助解碼器監督緊湊潛變量,實現思考速度與不思考一樣快,效果比思考更好的突破,車端推理延遲僅0.24秒,在NAVSIM等四項基準上達到SOTA,模型權重與代碼以Apache 2.0協議全面開源。

Xiaomi OneVL – 小米具身智能團隊開源的自動駕駛大模型

Xiaomi OneVL的主要功能

  • 視覺-語言-動作(VLA)統一推理:將場景理解、語言推理與駕駛動作輸出集成到單一框架,實現從感知到決策到執行的一步式端到端閉環。
  • 世界模型未來預測:內置視覺世界模型解碼器,可預測未來0.5秒和1.0秒的場景幀,強迫模型內化道路幾何、車輛運動與環境變化的因果動力學。
  • 潛空間思維鏈(Latent CoT)推理:在緊湊潛變量中完成深度推理,推理時丟棄輔助解碼器,所有潛變量token通過單次並行預填完成,延遲僅0.24秒,與”直接預測”速度相當但精度更高。
  • 雙輔助解碼器監督訓練:訓練階段通過語言解碼器重建文本思維鏈、視覺解碼器預測未來幀,雙維度監督確保潛變量同時編碼語義推理與物理世界因果規律。
  • 高精度軌跡預測:基於Qwen3-VL-4B-Instruct主幹網絡,頂部附加MLP頭輸出軌跡,在NAVSIM基準PDM-score達88.84,超越8B競品。

Xiaomi OneVL的技術原理

  • 三大技術路線統一:Xiaomi OneVL 首次將 VLA(視覺-語言-動作)、世界模型與潛空間推理三條獨立技術路線融合到單一框架中,使模型在理解當前場景的同時,能基於物理因果規律預測未來環境演變,輸出駕駛動作,實現從感知、推理到決策的端到端閉環。
  • 雙輔助解碼器監督架構:模型在訓練階段引入兩個輔助解碼器:語言解碼器負責重建文本思維鏈,確保潛變量編碼語義推理能力;視覺世界模型解碼器負責預測未來幀(T+0.5s、T+1.0s),強迫潛變量內化道路幾何、車輛運動等物理動力學規律。推理時兩個解碼器被丟棄,僅保留緊湊潛變量進行預測。
  • 三階段漸進式訓練:訓練分爲軌跡對齊、語言推理對齊、視覺世界模型對齊三個階段,逐步將潛變量與軌跡輸出、語言推理目標、視覺預測目標對齊。跳過任一階段都會導致性能災難性下降(最高達 21.71 分),證明三階段聯合優化對穩定訓練至關重要。
  • 一步式潛空間並行推理:推理階段所有潛變量 token 通過單次並行預填完成,無需自迴歸逐 token 生成,車端延遲僅 0.24 秒(4.16Hz),與”直接輸出答案”的速度相當,精度顯著超越顯式思維鏈方法,成爲首個在性能上超過顯式 CoT 的潛空間推理方案。
  • 輕量化模型底座:主幹網絡採用 Qwen3-VL-4B-Instruct,頂部附加緊湊 MLP 頭進行軌跡預測,視覺分詞器使用 Emu3.5-VisionTokenizer(碼本大小 131072)。4B 參數規模在 NAVSIM 基準上 PDM-score 達到 88.84,超越 8B 競品 AdaThinkDrive 與 LaST-VLA。

Xiaomi OneVL的核心優勢

  • 速度與精度兼得:Xiaomi OneVL 是業內首個精度超越顯式思維鏈的潛空間推理方法,車端推理延遲僅 0.24 秒,與直接預測速度相當但效果更優,比顯式自迴歸 CoT 快 32%。
  • 三大技術路線統一:Xiaomi OneVL 首次將 VLA、世界模型與潛空間推理三條獨立技術路線融合到單一框架,使模型同時具備場景理解、物理因果推演和未來預測能力。
  • 雙維度可解釋決策:Xiaomi OneVL 同時提供語言解釋和視覺預測兩種決策依據,能用文字說明駕駛邏輯,也能用生成畫面展示未來場景,解決自動駕駛的”黑盒”不可解釋問題。
  • 輕量化與高性能並存:模型基於 4B 參數的 Qwen3-VL-4B-Instruct 主幹網絡,在 NAVSIM 基準 PDM-score 達 88.84,超越 8B 競品,用更小模型規模實現更高性能。
  • 全面開源可商用:模型的模型權重、訓練與推理代碼均以 Apache 2.0 協議全面開源,支持學術界與產業界自由二次開發與商業應用。
  • 四項基準全面 SOTA:Xiaomi OneVL在 NAVSIM、ROADWork、Impromptu、Alpamayo-R1 四項權威基準測試中均達到當前最優水平,其中 Alpamayo-R1 的 ADE 爲所有方法中最佳。

Xiaomi OneVL的項目地址

  • 項目官網:https://xiaomi-embodied-intelligence.github.io/OneVL/
  • GitHub倉庫:https://github.com/xiaomi-research/onevl
  • arXiv技術論文:https://arxiv.org/pdf/2604.18486

Xiaomi OneVL的同類競品對比

對比維度 Xiaomi OneVL EMMA (Waymo)
所屬機構 小米具身智能 Waymo(Google)
模型定位 端到端 VLA + 世界模型統一框架 端到端多模態通用ist 自動駕駛模型
基礎模型 Qwen3-VL-4B-Instruct(4B) Gemini / PaLI-X(大規模,未公開具體參數)
核心架構 潛空間推理 + 雙輔助解碼器(語言 + 視覺世界模型) 純文本 VQA 範式,所有輸入輸出表示爲自然語言文本
推理方式 單次並行預填,0.24 秒延遲(4.16Hz) 自迴歸 CoT 逐 token 生成,延遲高,計算昂貴
世界模型 內置視覺解碼器,可預測未來 0.5s/1.0s 幀 無顯式世界模型,不具備未來場景生成能力
動作輸出 連續軌跡預測(MLP 頭直接輸出) 文本形式的 BEV 座標(waypoints),需文本到浮點轉換
可解釋性 語言 + 視覺雙維度(文本解釋 + 未來畫面預測) 文本 CoT 推理鏈(rationale)+ 視覺定位(3D/BEV 位置標註)
多任務能力 專注運動規劃,四項基準 SOTA 通用ist 模型,聯合訓練規劃、3D 檢測、路圖估計、場景理解
訓練方式 三階段漸進式對齊(軌跡→語言→視覺) 端到端微調,多任務 co-training,利用 Gemini 預訓練世界知識
傳感器輸入 視覺(相機) 視覺(相機),不支持 LiDAR / radar

Xiaomi OneVL的應用場景

  • 高階智駕量產部署:解決傳統CoT推理延遲過高、無法實時部署的瓶頸。
  • 複雜路況決策:預判行人意圖、車輛並道等動態場景,規避”黑盒”風險。
  • 模型決策可視化:爲自動駕駛系統提供可審計、可解釋的語言與視覺決策依據。
  • 學術研究二次開發:開源代碼與權重支持學術界與產業界基於Apache 2.0協議商用。
© 版權聲明

相關文章

暫無評論

暫無評論...