LATTE3D – 英偉達推出的文本快速生成3D對象的模型

AI工具1年前 (2024)發佈新公告 AI管理員

3 0 0

LATTE3D是什麼

LATTE3D是由英偉達的多倫多AI實驗室的研究人員推出的一個文本生成3D對象的模型，能夠從文本提示描述快速生成高質量的3D內容（僅需400毫秒）。該技術的核心在於採用了一種稱爲“攤銷優化（amortized）”的方法，即在大量文本提示上同時優化一個共享的文本條件模型，以此提高模型對新提示的泛化能力，從而減少了生成每個3D對象所需的時間。

LATTE3D的官網入口

官方項目主頁：https://research.nvidia.com/labs/toronto-ai/LATTE3D/
研究論文：https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view

LATTE3D的主要功能

文本到3D合成： 能夠根據文本描述生成相應的三維模型。用戶可以通過輸入文本提示，如“一隻穿着禮帽的阿米巴絨絨玩偶螃蟹”，來生成具有特定特徵和風格的3D對象。
快速生成： LATTE3D可以在大約400毫秒內生成3D對象，這使得它能夠實時地響應用戶的輸入，爲用戶提供即時的視覺反饋。
高質量渲染： 通過結合神經場和紋理表面生成，LATTE3D能夠產生具有高細節水平的紋理網格，提供視覺上令人信服的3D渲染結果。
3D風格化： LATTE3D還可以作爲3D風格化工具，允許用戶在現有的3D資產上應用新的風格或主題，從而創造出多樣化的視覺表現。

LATTE3D的架構方法

LATTE3D 的訓練包含兩個階段：首先，使用體積渲染來訓練紋理和幾何形狀。爲了增強提示的穩健性，訓練目標包括來自 3D 感知圖像先驗的 SDS 梯度以及將預測形狀的掩模與庫中的 3D 資產進行比較的正則化損失。然後，使用基於表面的渲染並僅訓練紋理以提高質量。兩個階段都對一組提示使用攤銷優化來保持快速生成。

LATTE3D – 英偉達推出的文本快速生成3D對象的模型

LATTE3D 的方法使用兩個網絡：紋理網絡 T 和幾何網絡 G，兩者均由 triplanes 和 U-Net 的組合組成。在第一階段，兩個網絡的編碼器共享相同的權重集。在第二階段，凍結幾何網絡 G 並更新紋理網絡 T，並使用輸入文本嵌入的 MLP 進一步對 triplanes 進行上採樣。

# AI工具