書生·物華2.0（3DTopia 2.0）- 上海AI實驗室聯合南洋理工推出三維物體生成大模型

8 0 0

書生·物華2.0是什麼

書生·物華2.0（3DTopia 2.0）是由上海人工智能實驗室與南洋理工大學聯合開發的三維物體生成大模型。模型採用創新的原語（primitive-based）三維表示方法PrimX，能將形狀、紋理和材質信息編碼爲緊湊的張量格式，實現高分辨率幾何圖形的建模。3DTopia 2.0基於Diffusion Transformer框架，支持從文本或圖像輸入高效生成具有物理基礎渲染（PBR）特性的高質量三維資產。模型代碼已開源，提供免費商用授權，有潛力革新遊戲、影視、建築和設計等行業的三維內容創作流程。

書生·物華2.0的主要功能

多模態輸入生成三維物體：能根據文本描述或圖像輸入，快速生成對應的三維模型。
高效率的生成過程：模型能在五秒內完成從輸入到三維模型的轉換，大幅提高創作效率。
高質量和精細紋理：生成的三維物體具有平滑的幾何形狀和空間變化的紋理和材質，接近真實物理材質感。
直接應用於遊戲引擎和設計軟件：生成的三維模型可以直接用於遊戲引擎和工業設計軟件，無需額外處理。
支持高分辨率幾何圖形：基於PrimX表示法，能建模高分辨率的三維幾何圖形。

書生·物華2.0的技術原理

PrimX表示法：一種新穎的基於原語的三維表示方法，將三維物體的形狀、反照率（albedo）、材質信息編碼到一個緊湊的張量格式中。每個原語都是一個小體素，通過其三維位置、全局縮放因子和對應的空間變化的有效載荷（包括SDF、RGB和材質信息）來參數化。
原始補丁壓縮：使用三維變分自編碼器（VAE）對每個原語的空間信息進行壓縮，得到潛在的原語標記。過程採用了3D卷積層，將原語的有效載荷從高維空間壓縮到低維潛在空間，爲後續的生成模型提供了高效的輸入。
潛在原語擴散（Latent Primitive Diffusion）：基於Diffusion Transformer（DiT）框架，模型學習瞭如何從隨機噪聲中逐步去除噪聲，生成符合輸入條件的潛在原語標記。過程模擬了物理過程中的擴散和去噪，能生成具有高分辨率幾何圖形和PBR材質的三維物體。
可微分渲染：PrimX表示法支持可微分渲染，模型可以直接從二維圖像數據中學習，提高了模型從現有圖像資源中學習的能力。