Stable Video 3D (SV3D) – 多視角合成和3D生成模型，由Stability AI推出

AI工具2年前 (2024)發佈新公告 AI管理員

8 0 0

Stable Video 3D是什麼

Stable Video 3D（簡稱SV3D）是由Stability AI公司開發的一個多視角合成和3D生成模型，能夠從單張圖片生成一致的多視角圖像，並進一步優化生成高質量的3D網格模型。該模型在之前發佈的Stable Video Diffusion模型的基礎上進行了改進，提供了更好的質量和多視角體驗。相較於其他的3D生成模型，SV3D的主要優勢在於其使用視頻擴散模型而不是圖像擴散模型，這在生成輸出的泛化性和視角一致性方面提供了顯著的好處。

Stable Video 3D (SV3D) - 多視角合成和3D生成模型，由Stability AI推出

Stable Video 3D的功能特性

多視角視頻生成：SV3D能夠從單張圖片輸入生成多個視角的視頻內容。用戶可以從不同的方向和角度查看對象，每個視角都是高質量的，並且保持了視角之間的一致性。
3D網格創建：通過使用生成的多視角視頻和Stable Video 3D模型，用戶可以創建對象的3D網格。這些3D網格是從二維圖像中推斷出來的，可以用於各種3D應用，如遊戲開發、虛擬現實、增強現實等。
軌道視頻生成：Stable Video 3D提供了生成圍繞對象的軌道視頻的能力，允許用戶創建圍繞對象旋轉或移動的視頻，提供了一種動態的視角體驗。
相機路徑控制：SV3D支持沿着指定的相機路徑創建3D視頻，用戶可以精確控制視頻的視角和相機運動，爲創作提供了更高的自由度。
新視角合成（NVS）：SV3D在新視角合成方面取得了顯著進展，能夠從任何給定的角度生成一致且逼真的視圖，提高了3D生成的真實感和準確性。

Stable Video 3D的官網入口

官方項目主頁：https://sv3d.github.io/
技術報告：https://stability.ai/s/SV3D_report.pdf
Hugging Face模型：https://huggingface.co/stabilityai/sv3d

Stable Video 3D的工作原理

Stable Video 3D (SV3D) - 多視角合成和3D生成模型，由Stability AI推出

新視角合成（NVS）:
- 輸入圖像：用戶提供的單張2D圖像作爲輸入，該圖像包含一個或多個對象。
- 相機姿態控制：定義一個相機軌跡，包括一系列的角度（仰角和方位角），用於控制生成圖像的視角。
- 潛在視頻擴散模型：使用一個訓練有素的潛在視頻擴散模型（如Stable Video Diffusion – SVD），該模型能夠根據輸入圖像和相機姿態生成一系列新的視角圖像。這些圖像模擬了圍繞3D對象的軌道視頻。
3D表示優化:
- 粗略3D重建：使用生成的多視角圖像作爲目標，通過訓練一個NeRF（Neural Radiance Fields）模型來重建3D對象的粗略表示。這個步驟在較低分辨率下進行，以捕捉對象的大致形狀和紋理。
- 網格提取：從訓練好的NeRF模型中提取一個初步的3D網格，通常使用Marching Cubes算法。
- 精細優化：採用DMTet（Deep Marching Tetrahedra）表示來進一步細化3D網格，這個步驟在高分辨率下進行，以提高細節的準確性和網格的質量。
改進的3D優化技術:
- 掩蔽分數蒸餾採樣（SDS）損失：爲了提高不可見區域的3D質量，SV3D引入了一種掩蔽分數蒸餾採樣損失。這種損失函數專注於在訓練過程中填充和優化那些在參考視角中不可見的區域。
- 解耦照明模型：SV3D還提出了一種解耦照明模型，該模型獨立於3D形狀和紋理進行優化，以減少由於固定照明條件導致的渲染問題。
訓練和評估:
- 數據集：SV3D在包含多樣化3D對象的數據集上進行訓練，如Objaverse數據集。
- 評估：通過與真實世界的3D數據和其他NVS方法的比較，評估SV3D生成的多視角圖像和3D網格的質量。