Lyra 2.0是什麼
Lyra 2.0 是 NVIDIA 推出的可探索生成式 3D 世界框架。框架從單張圖像出發,結合相機控制視頻生成與前饋 3D 重建技術,通過”檢索-生成-更新”迭代循環,構建可持久漫遊的大規模 3D 場景。系統採用每幀獨立 3D 幾何緩存進行空間記憶檢索,引入自增強訓練策略抑制時間漂移,實現數百幀長程 3D 一致性生成。Lyra 2.0 生成結果可重建爲高保真 3D Gaussian Splatting 與表面網格,直接導出至 NVIDIA Isaac Sim 等物理引擎,爲具身智能訓練提供可交互的仿真環境。

Lyra 2.0的主要功能
-
長程 3D 一致視頻生成:沿用戶自定義相機軌跡生成數百幀的漫遊視頻,支持大視角變化與區域重訪。
-
空間記憶檢索:基於每幀 3D 幾何建立空間緩存,自動檢索與目標視角最相關的歷史幀作爲條件。
-
抗時間漂移生成:通過自增強訓練策略,使模型在自迴歸推理中主動糾正誤差累積,保持長期視覺一致性。
-
交互式 3D 探索器:提供 GUI 可視化累積點雲,用戶可規劃軌跡重訪已探索區域或進入未觀察區域。
-
前饋 3D 重建:將生成視頻通過微調的前饋模型重建爲高保真 3D Gaussian Splatting 與表面網格。
-
仿真資產導出:支持直接導出至 NVIDIA Isaac Sim 等物理引擎,用於機器人導航與交互訓練。
-
加速推理版本:提供基於分佈匹配蒸餾的 4 步去噪學生模型,推理速度提升約 13 倍。
Lyra 2.0的技術原理
-
生成式重建範式:結合相機控制視頻擴散模型的視覺保真度與前饋 3D 重建技術,將單圖+軌跡轉化爲可實時渲染的 3D 輸出。
-
解耦幾何路由與外觀合成:維護每幀獨立 3D 緩存(深度圖+點雲),僅用於檢索歷史幀和建立密集 3D 對應關係;實際像素合成仍由視頻擴散模型的生成先驗完成,避免渲染僞影傳播。
-
規範座標扭曲注入:將檢索到的歷史幀通過深度前向扭曲至目標視角,生成規範座標圖與深度圖,經位置編碼和 MLP 處理後注入 DiT 的自注意力層,提供精確幾何對齊信號。
-
自增強抗漂移訓練:用概率將訓練中的歷史隱變量加噪並通過單步去噪替換爲近似重建,迫使模型在條件不完美時仍能恢復乾淨目標,縮小訓練-推理分佈差異。
-
FramePack 上下文壓縮:採用可變核 patchification 對時間歷史進行壓縮,近幀細粒度、遠幀粗粒度,在固定 token 預算內擴展有效上下文窗口。
-
微調前饋重建:基於 Depth Anything v3 改進高分辨率下的 Gaussian 預測密度,在 Lyra 2.0 生成數據上微調,提升對生成僞影的魯棒性。
如何使用Lyra 2.0
-
克隆倉庫:從GitHub倉庫拉取代碼按 README 配置環境依賴。
-
下載模型:從 Hugging Face 或項目頁獲取 Lyra 2.0 預訓練權重。
-
準備輸入:提供單張場景圖像,可選配文本提示引導生成風格。
-
啓動探索器:運行交互式 GUI 加載圖像並規劃相機漫遊軌跡。
-
迭代生成:系統自動檢索空間記憶中的相關歷史幀並逐段生成長程視頻。
-
重建 3D:調用微調的前饋模型將視頻序列轉爲 3D Gaussian Splatting。
-
提取網格:運行腳本輸出表面 Mesh,支持分層稀疏網格提取。
-
導出部署:將 3D 資產導入 NVIDIA Isaac Sim 等物理引擎進行具身智能訓練。
Lyra 2.0的關鍵信息和使用要求
- 項目定位:NVIDIA 推出的開源可探索生成式 3D 世界框架,支持從單張圖像迭代構建持久、可漫遊的大規模 3D 場景。
- 核心技術:基於 Wan 2.1 VAE + DiT 的視頻擴散模型,採用”檢索-生成-更新”自迴歸循環;通過每幀獨立 3D 幾何緩存解決空間遺忘,通過自增強訓練抑制時間漂移。
- 輸入輸出:輸入爲單張 RGB 圖像 + 可選文本提示 + 相機軌跡;輸出爲長程相機控制視頻,可進一步重建爲 3D Gaussian Splatting 與表面網格,支持導出至物理引擎。
- 性能優化:提供基於分佈匹配蒸餾的 4 步加速模型,推理速度提升約 13 倍。
- 硬件環境:需配備 NVIDIA GPU(推薦高顯存顯卡以支持長視頻生成與 3D 重建),CUDA 環境必備。
- 軟件依賴:PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB 等,具體版本以倉庫
requirements.txt爲準。
Lyra 2.0的核心優勢
-
全局空間持久性:通過獨立每幀幾何緩存與可見性檢索,解決長程生成中的空間遺忘問題,重訪區域保持結構一致。
-
長期視覺穩定性:自增強訓練有效抑制自迴歸誤差累積,相比基線顯著減少顏色漂移與幾何畸變。
-
高質量 3D 輸出:前饋重建模型針對生成數據微調,容忍輕微多視圖不一致,產出乾淨連貫的 3DGS 與網格。
-
交互可控:用戶可實時規劃任意長相機軌跡,系統漸進式擴展場景,非一次性黑盒生成。
Lyra 2.0的項目地址
- 項目官網:https://research.nvidia.com/labs/sil/projects/lyra2/
- GitHub倉庫:https://github.com/nv-tlabs/lyra
- HuggingFace模型庫:https://huggingface.co/nvidia/Lyra-2.0
- arXiv技術論文:https://arxiv.org/pdf/2604.13036
Lyra 2.0的同類競品對比
| 維度 | Lyra 2.0 | GEN3C | Wonderland |
|---|---|---|---|
| 技術路線 | 視頻生成 + 前饋 3D 重建,解耦幾何路由與外觀合成 | 視頻生成 + 全局 3D 表示條件生成,緊耦合設計 | 相機控制視頻擴散 + 專用前饋網絡預測 3DGS |
| 記憶機制 | 每幀獨立 3D 緩存,僅用於信息路由與對應關係建立 | 累積全局點雲/深度渲染圖作爲生成條件 | 無顯式空間記憶,依賴視頻模型自身時間上下文 |
| 長程一致性 | 支持數百幀大視角變化與區域重訪,抗時間漂移 | 受限於全局 3D 表示質量,誤差易放大 | 視角覆蓋有限,長程一致性未重點解決 |
| 交互方式 | 顯式相機軌跡規劃 + 可選文本提示 | 顯式相機軌跡 + 3D 條件 | 顯式相機軌跡控制 |
| 輸出格式 | 3D Gaussian Splatting + 表面網格,支持物理引擎導出 | 視頻與 3D 輸出 | 3D Gaussian Splatting |
| 訓練數據 | DL3DV 真實場景長視頻,自增強策略 | 未公開詳細訓練方案 | 未公開詳細訓練方案 |
| 推理效率 | 提供 4 步蒸餾模型,速度提升 13 倍 | 標準擴散採樣 | 標準擴散採樣 |
Lyra 2.0的應用場景
-
具身智能仿真:爲機器人訓練生成可交互的 3D 室內/室外環境,替代高成本真實場景採集。
-
虛擬世界構建:從單張概念圖快速生成可漫遊的遊戲關卡或元宇宙場景原型。
-
建築與室內設計:基於平面圖或效果圖生成 3D walkthrough,支持客戶沉浸式預覽空間佈局。
-
影視預演製作:爲導演提供從靜態概念圖到動態場景漫遊的快速可視化方案。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...