LATTE3D是什麼
LATTE3D是由英偉達的多倫多AI實驗室的研究人員推出的一個文本生成3D對象的模型,能夠從文本提示描述快速生成高質量的3D內容(僅需400毫秒)。該技術的核心在於採用了一種稱爲“攤銷優化(amortized)”的方法,即在大量文本提示上同時優化一個共享的文本條件模型,以此提高模型對新提示的泛化能力,從而減少了生成每個3D對象所需的時間。
LATTE3D的官網入口
- 官方項目主頁:https://research.nvidia.com/labs/toronto-ai/LATTE3D/
- 研究論文:https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view
LATTE3D的主要功能
- 文本到3D合成: 能夠根據文本描述生成相應的三維模型。用戶可以通過輸入文本提示,如“一隻穿着禮帽的阿米巴絨絨玩偶螃蟹”,來生成具有特定特徵和風格的3D對象。
- 快速生成: LATTE3D可以在大約400毫秒內生成3D對象,這使得它能夠實時地響應用戶的輸入,爲用戶提供即時的視覺反饋。
- 高質量渲染: 通過結合神經場和紋理表面生成,LATTE3D能夠產生具有高細節水平的紋理網格,提供視覺上令人信服的3D渲染結果。
- 3D風格化: LATTE3D還可以作爲3D風格化工具,允許用戶在現有的3D資產上應用新的風格或主題,從而創造出多樣化的視覺表現。
LATTE3D的架構方法
LATTE3D 的訓練包含兩個階段:首先,使用體積渲染來訓練紋理和幾何形狀。爲了增強提示的穩健性,訓練目標包括來自 3D 感知圖像先驗的 SDS 梯度以及將預測形狀的掩模與庫中的 3D 資產進行比較的正則化損失。然後,使用基於表面的渲染並僅訓練紋理以提高質量。兩個階段都對一組提示使用攤銷優化來保持快速生成。
LATTE3D 的方法使用兩個網絡:紋理網絡 T 和幾何網絡 G,兩者均由 triplanes 和 U-Net 的組合組成。在第一階段,兩個網絡的編碼器共享相同的權重集。在第二階段,凍結幾何網絡 G 並更新紋理網絡 T,並使用輸入文本嵌入的 MLP 進一步對 triplanes 進行上採樣。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...