LingBot-Map是什麼
LingBot-Map 是螞蟻靈波科技開源的流式三維重建模型,普通 RGB 攝像頭可在視頻採集過程中實時完成相機位姿估計與場景三維結構重建。模型以純自迴歸式建模爲核心,基於幾何上下文 Transformer 架構,在 Oxford Spires 等權威基準上實現軌跡精度較此前最優流式方法提升約 2.8 倍,填補實時空間感知領域關鍵技術空白。

LingBot-Map的主要功能
-
實時流式重建:邊看邊理解,逐幀處理當前及歷史畫面,持續輸出相機位姿和深度信息。
-
長序列穩定運行:支持 10,000+ 幀長視頻連續推理,長序列運行精度幾乎無衰減。
-
純視覺空間感知:無需複雜硬件,單顆普通攝像頭可實現實時三維建圖。
-
相機軌跡估計:支持精準估計相機在三維空間中的運動軌跡(位姿估計)。
如何使用LingBot-Map
- 環境準備:確保本地環境配備 NVIDIA GPU(推薦顯存 ≥ 12GB),安裝 Python 3.8+、PyTorch 2.0+ 及 CUDA 工具鏈。系統需支持 Linux 或 Windows WSL2 環境以兼容依賴庫編譯。
- 安裝部署:訪問 GitHub 倉庫
https://github.com/Robbyant/lingbot-map克隆代碼,進入項目目錄後通過 pip 安裝依賴:pip install -r requirements.txt。環境會自動安裝 DINO backbone、Transformer 架構及三維可視化所需的 Open3D 等庫。 - 模型獲取:從 HuggingFace (
robbyant/lingbot-map) 或 ModelScope 下載預訓練權重,放置於項目checkpoints/目錄。模型包含 Geometric Context Attention (GCA) 核心網絡及 Camera/Depth 預測頭。 - 運行推理:
-
離線視頻模式:輸入單目 RGB 視頻文件,模型逐幀提取 DINO 特徵,經 Frame Attention 與 GCA 層處理,輸出相機位姿軌跡(Trajectory)和深度圖(Depth),最後融合爲三維點雲地圖。
-
實時攝像頭模式:連接普通 USB 攝像頭,設置輸入流分辨率爲 640×480 或 1280×720,模型用 ~20 FPS 實時推理,持續輸出當前相機位姿並增量式更新場景三維結構。
-
- 結果輸出:重建結果包含相機軌跡文件(標準座標格式)和帶尺度的稠密點雲,可通過可視化腳本查看三維重建效果。長序列推理時,GCA 機制會自動管理內存,支持 10,000+ 幀連續處理而無需重啓。
- 高級配置:調整
config.yaml中的anchor_context和trajectory_memory參數可平衡精度與計算開銷;針對大場景可啓用局部窗口優化(Local Pose-Reference Window)提升長軌跡穩定性。具體 API 調用示例與參數說明參考 GitHub 倉庫的README.md與demo.py。
LingBot-Map的關鍵信息和使用要求
-
開發團隊:螞蟻靈波科技(Robbyant)
-
開源協議:模型權重、代碼已開源(GitHub、HuggingFace、ModelScope)
-
硬件要求:需 GPU 支持(推薦顯存充足的環境)
-
推理速度:約 20 FPS 實時推理
LingBot-Map的核心優勢
-
精度領先:Oxford Spires 數據集絕對軌跡誤差(ATE)僅 6.42 米,顯著優於離線方法 DA3(12.87 米)和 VIPE(10.52 米);ETH3D 基準重建 F1 分數達 85.70,較第二名提升超 8%。
-
實時高效:20 FPS 穩定支撐機器人作業,計算與存儲開銷在長序列下幾乎恆定。
-
硬件門檻低:無需深度相機或激光雷達,普通 RGB 攝像頭即可運行。
-
端到端學習:突破傳統 SLAM 依賴手工設計和複雜優化的侷限,核心邏輯交由模型統一學習。
LingBot-Map的項目地址
- 項目官網:https://technology.robbyant.com/lingbot-map
- GitHub倉庫:https://github.com/Robbyant/lingbot-map
- HuggingFace模型庫:https://huggingface.co/robbyant/lingbot-map
- arXiv技術論文:https://arxiv.org/pdf/2604.14141
LingBot-Map的同類競品對比
| 對比維度 | LingBot-Map | TTT3R / WinT3R | 傳統離線方法(DA3/VIPE) |
|---|---|---|---|
| 技術路線 | 自迴歸式 GCA Transformer | 流式重建方法 | 先採集後處理 |
| 推理模式 | 實時流式(邊看邊建) | 流式重建 | 離線處理 |
| Oxford Spires ATE | 6.42 米(領先) | 約 18 米 | 10-13 米 |
| ETH3D F1 分數 | 85.70%(領先) | 約 77% | – |
| 硬件需求 | 普通 RGB 攝像頭 | 通常需深度傳感器 | 多傳感器融合 |
| 序列長度支持 | 10,000+ 幀穩定運行 | 較短序列易漂移 | 受內存限制 |
| 開源情況 | 完全開源(代碼+權重+論文) | 部分開源/閉源 | 部分開源 |
LingBot-Map的應用場景
-
機器人導航與避障:爲移動機器人提供實時空間感知能力,支持連續在線處理。
-
自動駕駛:實時構建環境三維地圖,輔助車輛理解物理空間結構。
-
具身智能:作爲 LingBot 系列(含 Depth、VLA、World、VA 等模型)的空間感知基座,支撐機器人操作與交互。
-
AR/VR 空間計算:實時重建物理環境,實現虛擬與現實世界的精準對齊。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...