混元3D世界模型 2.0 – 騰訊混元開源的多模態世界模型

0 0 0

混元3D世界模型 2.0是什麼

混元3D世界模型 2.0（HY-World 2.0）是騰訊混元推出的開源多模態世界模型，支持從文本、單圖、多視圖或視頻生成可漫遊的3D高斯濺射（3DGS）場景。模型採用四階段架構，全景生成→軌跡規劃→世界擴展→3D重建，實現”文/圖生3D世界”與”視頻重建3D世界”的統一。混元3D世界模型 2.0生成場景支持物理碰撞、角色探索，可導出至Unity/UE引擎，性能對標閉源商業產品Marble。

混元3D世界模型 2.0的主要功能

世界生成：基於文本或單張圖片生成360°可漫遊的3DGS/Mesh沉浸式場景。
世界重建：從多視圖圖像或視頻輸入重建高保真3D數字孿生空間。
全景圖生成：將任意視角圖片或文字轉換爲360°全景圖（HY-Pano 2.0）。
軌跡智能規劃：解析場景語義並規劃探索路徑，避免穿牆等不合理行爲（WorldNav）。
角色冒險模式：支持操控角色在生成場景中自由行走探索。
多格式導出：支持3DGS、Mesh、點雲、視頻等多種格式及主流引擎對接。

混元3D世界模型 2.0的技術原理

全景圖生成（HY-Pano 2.0）：採用端到端隱式學習方案，通過多模態Diffusion Transformer（MMDiT）自主學習從透視圖到360°等距圓柱投影（ERP）的空間映射，無需相機元數據。引入圓形填充（Circle Padding）和像素混合技術解決ERP邊界不連續問題，結合真實全景+UE合成數據混合訓練。
軌跡規劃（WorldNav）：通過幾何與語義場景解析（點雲、Mesh、語義分割、NavMesh）理解空間結構，智能規劃最大化信息覆蓋的漫遊軌跡，確保路徑自然且避開障礙物，支持常規、環繞、重建感知、漫遊、空中等多樣化軌跡類型。
世界擴展（WorldStereo 2.0）：基於關鍵幀生成而非連續視頻生成，引入全局幾何記憶和空間立體記憶機制，確保多視角一致性。通過模型蒸餾提升效率，實現沿規劃路徑的場景擴展與細節補全。
世界重建（WorldMirror 2.0）：採用前饋式3D預測模型，通過歸一化位置編碼、顯式法線監督和深度掩碼預測優化幾何精度。結合3D高斯濺射（3DGS）進行最終場景融合與優化，支持從生成視圖和真實輸入進行魯棒重建。

如何使用混元3D世界模型 2.0

訪問平台：訪問騰訊混元3D官網登錄賬號。。
選擇輸入方式：上傳單張圖片（支持任意視角）或輸入文本描述（如”賽博朋克風格的街道，霓虹燈閃爍”）
參數配置：選擇生成模式（世界生成/世界重建）、場景風格、漫遊範圍等參數。
生成與探索：點擊生成後，系統自動執行四階段流程（全景→軌跡→擴展→重建）。
導出使用：支持下載3DGS/Mesh文件或直接生成Unity/UE引擎可導入的資產包。

混元3D世界模型 2.0的關鍵信息和使用要求

開發團隊：騰訊混元（Tencent Hunyuan）研發推出。
開源情況：模型權重、訓練代碼及完整技術報告已全面開源，可自由下載研究。
輸入模態：支持文本提示、單張圖片、多視角圖片以及視頻流四種輸入方式。
輸出格式：可導出3D高斯濺射（3DGS）、網格模型（Mesh）、點雲數據、360°全景圖及視頻序列。
引擎支持：生成資產原生兼容Unity和Unreal Engine（UE），可直接導入二次編輯。
硬件要求：本地部署需配備NVIDIA GPU，建議使用顯存≥16GB的環境以保證生成效率。

混元3D世界模型 2.0的核心優勢

生成與重建統一：首個開源框架同時支持”無中生有”（生成）和”從實到虛”（重建）兩種範式。
物理可交互：生成場景具備空間邏輯和物理碰撞檢測，支持角色操控探索。
無需相機參數：全景生成階段無需焦距、FOV等元數據，適應真實場景圖片。
高質量邊界處理：360°全景無縫銜接，無傳統ERP圖像的左右邊界斷裂問題。
記憶一致性：世界擴展階段引入記憶機制，確保長軌跡漫遊的視覺連貫性。
工業級兼容：原生支持主流遊戲引擎，可直接用於遊戲開發和機器人仿真。

混元3D世界模型 2.0的項目地址

項目官網：https://3d-models.hunyuan.tencent.com/world/
GitHub倉庫：https://github.com/Tencent-Hunyuan/HY-World-2.0
HuggingFace模型庫：https://huggingface.co/tencent/HY-World-2.0
技術論文：https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf

混元3D世界模型 2.0的同類競品對比

對比維度	混元3D世界模型 2.0	WonderWorld	Marble
開發方	騰訊混元	Snap Research / UC Berkeley	World Labs（李飛飛）
開源狀態	完全開源（權重+代碼）	開源（研究代碼）	閉源/有限開放
輸入模態	文本/單圖/多視圖/視頻	單圖/文本	單圖/文本
核心輸出	3DGS/Mesh	3DGS	3DGS
生成與重建	統一支持	側重生成	側重生成
物理交互	支持角色漫遊+碰撞檢測	基礎漫遊	基礎探索
引擎導出	Unity/UE原生支持	需轉換	有限支持
全景生成	HY-Pano 2.0（無相機參數需求）	需已知相機位姿	依賴深度估計