Lyra 2.0 – 英偉達開源的可探索生成式 3D 世界框架

AI工具2天前發佈新公告 AI管理員
0 0

Lyra 2.0是什麼

Lyra 2.0 是 NVIDIA 推出的可探索生成式 3D 世界框架。框架從單張圖像出發,結合相機控制視頻生成與前饋 3D 重建技術,通過”檢索-生成-更新”迭代循環,構建可持久漫遊的大規模 3D 場景。系統採用每幀獨立 3D 幾何緩存進行空間記憶檢索,引入自增強訓練策略抑制時間漂移,實現數百幀長程 3D 一致性生成。Lyra 2.0 生成結果可重建爲高保真 3D Gaussian Splatting 與表面網格,直接導出至 NVIDIA Isaac Sim 等物理引擎,爲具身智能訓練提供可交互的仿真環境。

Lyra 2.0 – 英偉達開源的可探索生成式 3D 世界框架

Lyra 2.0的主要功能

  • 長程 3D 一致視頻生成:沿用戶自定義相機軌跡生成數百幀的漫遊視頻,支持大視角變化與區域重訪。
  • 空間記憶檢索:基於每幀 3D 幾何建立空間緩存,自動檢索與目標視角最相關的歷史幀作爲條件。
  • 抗時間漂移生成:通過自增強訓練策略,使模型在自迴歸推理中主動糾正誤差累積,保持長期視覺一致性。
  • 交互式 3D 探索器:提供 GUI 可視化累積點雲,用戶可規劃軌跡重訪已探索區域或進入未觀察區域。
  • 前饋 3D 重建:將生成視頻通過微調的前饋模型重建爲高保真 3D Gaussian Splatting 與表面網格。
  • 仿真資產導出:支持直接導出至 NVIDIA Isaac Sim 等物理引擎,用於機器人導航與交互訓練。
  • 加速推理版本:提供基於分佈匹配蒸餾的 4 步去噪學生模型,推理速度提升約 13 倍。

Lyra 2.0的技術原理

  • 生成式重建範式:結合相機控制視頻擴散模型的視覺保真度與前饋 3D 重建技術,將單圖+軌跡轉化爲可實時渲染的 3D 輸出。
  • 解耦幾何路由與外觀合成:維護每幀獨立 3D 緩存(深度圖+點雲),僅用於檢索歷史幀和建立密集 3D 對應關係;實際像素合成仍由視頻擴散模型的生成先驗完成,避免渲染僞影傳播。
  • 規範座標扭曲注入:將檢索到的歷史幀通過深度前向扭曲至目標視角,生成規範座標圖與深度圖,經位置編碼和 MLP 處理後注入 DiT 的自注意力層,提供精確幾何對齊信號。
  • 自增強抗漂移訓練:用概率將訓練中的歷史隱變量加噪並通過單步去噪替換爲近似重建,迫使模型在條件不完美時仍能恢復乾淨目標,縮小訓練-推理分佈差異。
  • FramePack 上下文壓縮:採用可變核 patchification 對時間歷史進行壓縮,近幀細粒度、遠幀粗粒度,在固定 token 預算內擴展有效上下文窗口。
  • 微調前饋重建:基於 Depth Anything v3 改進高分辨率下的 Gaussian 預測密度,在 Lyra 2.0 生成數據上微調,提升對生成僞影的魯棒性。

如何使用Lyra 2.0

  • 克隆倉庫:從GitHub倉庫拉取代碼按 README 配置環境依賴。
  • 下載模型:從 Hugging Face 或項目頁獲取 Lyra 2.0 預訓練權重。
  • 準備輸入:提供單張場景圖像,可選配文本提示引導生成風格。
  • 啓動探索器:運行交互式 GUI 加載圖像並規劃相機漫遊軌跡。
  • 迭代生成:系統自動檢索空間記憶中的相關歷史幀並逐段生成長程視頻。
  • 重建 3D:調用微調的前饋模型將視頻序列轉爲 3D Gaussian Splatting。
  • 提取網格:運行腳本輸出表面 Mesh,支持分層稀疏網格提取。
  • 導出部署:將 3D 資產導入 NVIDIA Isaac Sim 等物理引擎進行具身智能訓練。

Lyra 2.0的關鍵信息和使用要求

  • 項目定位:NVIDIA 推出的開源可探索生成式 3D 世界框架,支持從單張圖像迭代構建持久、可漫遊的大規模 3D 場景。
  • 核心技術:基於 Wan 2.1 VAE + DiT 的視頻擴散模型,採用”檢索-生成-更新”自迴歸循環;通過每幀獨立 3D 幾何緩存解決空間遺忘,通過自增強訓練抑制時間漂移。
  • 輸入輸出:輸入爲單張 RGB 圖像 + 可選文本提示 + 相機軌跡;輸出爲長程相機控制視頻,可進一步重建爲 3D Gaussian Splatting 與表面網格,支持導出至物理引擎。
  • 性能優化:提供基於分佈匹配蒸餾的 4 步加速模型,推理速度提升約 13 倍。
  • 硬件環境:需配備 NVIDIA GPU(推薦高顯存顯卡以支持長視頻生成與 3D 重建),CUDA 環境必備。
  • 軟件依賴:PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB 等,具體版本以倉庫 requirements.txt 爲準。

Lyra 2.0的核心優勢

  • 全局空間持久性:通過獨立每幀幾何緩存與可見性檢索,解決長程生成中的空間遺忘問題,重訪區域保持結構一致。
  • 長期視覺穩定性:自增強訓練有效抑制自迴歸誤差累積,相比基線顯著減少顏色漂移與幾何畸變。
  • 高質量 3D 輸出:前饋重建模型針對生成數據微調,容忍輕微多視圖不一致,產出乾淨連貫的 3DGS 與網格。
  • 交互可控:用戶可實時規劃任意長相機軌跡,系統漸進式擴展場景,非一次性黑盒生成。

Lyra 2.0的項目地址

  • 項目官網:https://research.nvidia.com/labs/sil/projects/lyra2/
  • GitHub倉庫:https://github.com/nv-tlabs/lyra
  • HuggingFace模型庫:https://huggingface.co/nvidia/Lyra-2.0
  • arXiv技術論文:https://arxiv.org/pdf/2604.13036

Lyra 2.0的同類競品對比

維度 Lyra 2.0 GEN3C Wonderland
技術路線 視頻生成 + 前饋 3D 重建,解耦幾何路由與外觀合成 視頻生成 + 全局 3D 表示條件生成,緊耦合設計 相機控制視頻擴散 + 專用前饋網絡預測 3DGS
記憶機制 每幀獨立 3D 緩存,僅用於信息路由與對應關係建立 累積全局點雲/深度渲染圖作爲生成條件 無顯式空間記憶,依賴視頻模型自身時間上下文
長程一致性 支持數百幀大視角變化與區域重訪,抗時間漂移 受限於全局 3D 表示質量,誤差易放大 視角覆蓋有限,長程一致性未重點解決
交互方式 顯式相機軌跡規劃 + 可選文本提示 顯式相機軌跡 + 3D 條件 顯式相機軌跡控制
輸出格式 3D Gaussian Splatting + 表面網格,支持物理引擎導出 視頻與 3D 輸出 3D Gaussian Splatting
訓練數據 DL3DV 真實場景長視頻,自增強策略 未公開詳細訓練方案 未公開詳細訓練方案
推理效率 提供 4 步蒸餾模型,速度提升 13 倍 標準擴散採樣 標準擴散採樣

Lyra 2.0的應用場景

  • 具身智能仿真:爲機器人訓練生成可交互的 3D 室內/室外環境,替代高成本真實場景採集。
  • 虛擬世界構建:從單張概念圖快速生成可漫遊的遊戲關卡或元宇宙場景原型。
  • 建築與室內設計:基於平面圖或效果圖生成 3D walkthrough,支持客戶沉浸式預覽空間佈局。
  • 影視預演製作:爲導演提供從靜態概念圖到動態場景漫遊的快速可視化方案。
© 版權聲明

相關文章

暫無評論

暫無評論...