什麼是LATTE3D
LATTE3D是英偉達的多倫多人工智慧實驗室研究團隊推出的一個模型,可根據文本描述快速生成高品質的3D內容(僅需400毫秒)。該技術的核心在於運用了名為「攤銷優化(amortized)」的方法,在眾多文本描述上同時優化一個共享的文本條件模型,以提高模型對新描述的泛化能力,進而減少生成每個3D對象所需的時間。
LATTE3D的官網入口
- 官方項目主頁:https://research.nvidia.com/labs/toronto-ai/LATTE3D/
- 研究論文:https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view
LATTE3D的主要功能
- 文本轉3D合成:這項技術能夠根據文本描述生成對應的三維模型。用戶只需輸入文本提示,如“一隻戴着禮帽的阿米巴絨絨玩偶螃蟹”,便能夠生成具有特定特徵和風格的3D對象。
- 快速生成:LATTE3D能夠在約400毫秒內完成3D對象的生成,使其能夠即時地回應用戶的輸入,為用戶提供即時的視覺反饋。
- 高質量渲染:LATTE3D結合了神經場和紋理表面生成技術,能夠產生具有高細節水平的紋理網格,呈現出引人入勝的3D渲染效果。
- 3D風格化:LATTE3D還可作爲3D風格化工具,允許用戶在現有的3D資產上應用新的風格或主題,從而創造出多樣化的視覺呈現。
LATTE3D的架構方法
LATTE3D的訓練分為兩個階段:首先,使用體積渲染來訓練紋理和幾何形狀。為了增強提示的穩健性,訓練目標包括來自3D感知圖像先驗的SDS梯度以及將預測形狀的掩模與庫中的3D資產進行比較的正則化損失。然後,使用基於表面的渲染並僅訓練紋理以提高質量。兩個階段都對一組提示使用攤銷優化來保持快速生成。
LATTE3D的方法採用了兩個網絡:紋理網絡T和幾何網絡G,這兩者都由triplanes和U-Net的組合構成。在第一階段,兩個網絡的編碼器共享相同的權重集。在第二階段,凍結幾何網絡G並更新紋理網絡T,同時使用輸入文本嵌入的MLP對triplanes進行進一步的上採樣。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...