SpatialClaw – 英偉達聯合 KAIST 推出的免訓練空間推理框架

AI工具9小時前發佈新公告 AI管理員
0 0

SpatialClaw是什麼

SpatialClaw 是 NVIDIA Research 與 KAIST 聯合推出的免訓練空間推理框架,通過代碼即動作機制在持久化 Python 內核中迭代執行復雜 3D/4D 空間推理任務,在 20 項基準上平均準確率達 59.9%,超越此前最優方法 11.2 個百分點。

SpatialClaw – 英偉達聯合 KAIST 推出的免訓練空間推理框架

SpatialClaw的主要功能

  • 代碼即動作接口:智能體在持久化 Jupyter 內核中逐單元格編寫 Python 代碼,自由組合深度重建、分割掩碼等感知工具輸出。
  • 五階段智能體循環:系統依次執行規劃、代碼生成、AST 安全校驗、執行與反饋組裝、答案提交或迭代修正。
  • 多模態感知集成:原生支持 Depth Anything 3、SAM 3 等視覺工具,配合 NumPy/SciPy 進行實時幾何計算。
  • 完全免訓練部署:同一套系統提示詞與工具集直接運行在 Qwen3.5/3.6、Gemma4 等 6 個骨幹網絡上。
  • 動態 4D 推理支持:覆蓋單圖、多視圖、視頻與 4D 時序場景的空間關係理解與度量計算。

SpatialClaw的技術原理

  • 代碼即動作接口:SpatialClaw 將傳統結構化工具調用替換爲 Python 代碼生成,VLM 在持久化 Jupyter 內核中自由編寫、執行和修正代碼,動作空間不再受限於預定義 JSON 格式,可表達任意複雜的空間計算邏輯。
  • 五階段智能體循環:系統依次執行規劃、代碼生成、AST 安全校驗、執行與反饋組裝、答案提交或迭代修正,形成閉環;執行後的變量狀態與可視化結果作爲多模態反饋回傳 VLM,驅動下一步代碼修正。
  • 持久化 Jupyter 內核:代碼執行後變量與對象保留在內存中,後續單元格可直接複用中間結果,支持多步迭代推理;內核中的 matplotlib 輸出被捕獲爲圖像反饋,使 VLM 能夠”看到”計算過程並據此調整。
  • 感知工具集成:Depth Anything 3、SAM 3 等視覺基礎模型以 Python 模塊形式暴露,VLM 通過代碼自由編排深度估計、分割掩碼生成與 NumPy/SciPy 幾何計算,實現模塊化組合。
  • AST 安全校驗:通過抽象語法樹靜態分析攔截危險調用,僅允許白名單內的感知工具與數學庫執行,防止惡意代碼並控制資源佔用上限。

SpatialClaw – 英偉達聯合 KAIST 推出的免訓練空間推理框架

微信關注回覆 “開源”,加入AI開源項目交流羣

如何使用SpatialClaw

  • 環境準備:克隆 GitHub 倉庫並配置持久化 Jupyter 內核及 Depth Anything 3、SAM 3 等依賴工具。
  • 模型接入:選擇 Qwen3.5/3.6 或 Gemma4 等支持的 VLM 作爲推理骨幹。
  • 任務輸入:提交包含空間推理問題的圖像、多視圖或視頻數據。
  • 智能體循環:系統自動執行規劃、代碼生成、AST 校驗、執行與反饋組裝的迭代循環。
  • 結果獲取:從內核變量狀態與可視化輸出中提取最終空間推理答案。

SpatialClaw的核心優勢

  • 免訓練即插即用:無需任何基準或模型專屬微調,降低部署門檻與算力成本。
  • 代碼動作靈活性:相比固定 JSON 工具調用,Python 代碼可表達任意複雜空間計算邏輯。
  • 顯著性能領先:在 DSI-Bench 和 MindCube 等動態任務上分別提升 17.6 和 15.3 個百分點。
  • 跨模型通用性:同一架構在 26B 至 397B 參數規模的 6 個不同 VLM 上均取得一致增益。
  • 安全執行保障:內置 AST 安全校驗機制,防止惡意代碼執行並確保內核狀態穩定。

SpatialClaw的項目地址

  • 項目官網:https://spatialclaw.github.io/
  • GitHub倉庫:https://github.com/NVlabs/SpatialClaw
  • arXiv技術論文:https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf

SpatialClaw的同類競品對比

維度 SpatialClaw SpaceTools
定位 NVIDIA 與 KAIST 聯合發佈的免訓練空間推理智能體框架。 此前最優的空間智能體基線方法。
動作接口 代碼即動作,在持久化 Jupyter 內核中生成並執行 Python 代碼。 結構化工具調用,以固定 JSON 格式調用預定義感知工具。
訓練需求 完全免訓練,同一套提示詞直接運行在 6 個不同 VLM 上。 需要針對特定基準或模型進行訓練/微調。
支持模態 單圖、多視圖、視頻與 4D 時序場景。 主要支持單圖與多視圖,動態 4D 能力有限。
核心機制 五階段循環(規劃→代碼生成→AST 校驗→執行反饋→迭代修正)。 單步或有限步的工具鏈編排,無代碼級反饋循環。
動態 4D 性能 DSI-Bench 提升 +17.6,MindCube 提升 +15.3,原生支持時序推理。 動態任務表現較弱,缺乏時序狀態累積機制。
迭代糾錯 執行錯誤與變量狀態回傳 VLM,支持代碼級自主修正。 工具調用出錯後難以自動修復,通常需人工干預。

SpatialClaw的應用場景

  • 機器人導航與抓取:爲移動機器人和機械臂提供精確的物體 metric 距離測量與空間關係判斷,輔助路徑規劃與抓取姿態決策。
  • AR/VR 室內佈局:自動識別傢俱、門窗等元素的相對位置與尺寸,生成合理的室內擺放方案並實時疊加於虛擬空間。
  • 自動駕駛感知:融合多攝像頭輸入進行 3D 場景重建,理解道路元素的空間拓撲關係以支持決策規劃。
  • 建築安全巡檢:基於多視角圖像分析工地結構的空間合規性,檢測腳手架間距、防護欄高度等安全指標。
  • 工業精密測量:通過多視圖深度估計對零部件進行非接觸式三維尺寸測量與形位公差檢測。
© 版權聲明

相關文章

暫無評論

暫無評論...