混元3D世界模型 2.0是什麼
混元3D世界模型 2.0(HY-World 2.0)是騰訊混元推出的開源多模態世界模型,支持從文本、單圖、多視圖或視頻生成可漫遊的3D高斯濺射(3DGS)場景。模型採用四階段架構,全景生成→軌跡規劃→世界擴展→3D重建,實現”文/圖生3D世界”與”視頻重建3D世界”的統一。混元3D世界模型 2.0生成場景支持物理碰撞、角色探索,可導出至Unity/UE引擎,性能對標閉源商業產品Marble。

混元3D世界模型 2.0的主要功能
-
世界生成:基於文本或單張圖片生成360°可漫遊的3DGS/Mesh沉浸式場景。
-
世界重建:從多視圖圖像或視頻輸入重建高保真3D數字孿生空間。
-
全景圖生成:將任意視角圖片或文字轉換爲360°全景圖(HY-Pano 2.0)。
-
軌跡智能規劃:解析場景語義並規劃探索路徑,避免穿牆等不合理行爲(WorldNav)。
-
角色冒險模式:支持操控角色在生成場景中自由行走探索。
-
多格式導出:支持3DGS、Mesh、點雲、視頻等多種格式及主流引擎對接。
混元3D世界模型 2.0的技術原理
- 全景圖生成(HY-Pano 2.0):採用端到端隱式學習方案,通過多模態Diffusion Transformer(MMDiT)自主學習從透視圖到360°等距圓柱投影(ERP)的空間映射,無需相機元數據。引入圓形填充(Circle Padding)和像素混合技術解決ERP邊界不連續問題,結合真實全景+UE合成數據混合訓練。
- 軌跡規劃(WorldNav):通過幾何與語義場景解析(點雲、Mesh、語義分割、NavMesh)理解空間結構,智能規劃最大化信息覆蓋的漫遊軌跡,確保路徑自然且避開障礙物,支持常規、環繞、重建感知、漫遊、空中等多樣化軌跡類型。
- 世界擴展(WorldStereo 2.0):基於關鍵幀生成而非連續視頻生成,引入全局幾何記憶和空間立體記憶機制,確保多視角一致性。通過模型蒸餾提升效率,實現沿規劃路徑的場景擴展與細節補全。
- 世界重建(WorldMirror 2.0):採用前饋式3D預測模型,通過歸一化位置編碼、顯式法線監督和深度掩碼預測優化幾何精度。結合3D高斯濺射(3DGS)進行最終場景融合與優化,支持從生成視圖和真實輸入進行魯棒重建。
如何使用混元3D世界模型 2.0
- 訪問平台:訪問騰訊混元3D官網登錄賬號。。
- 選擇輸入方式:上傳單張圖片(支持任意視角)或輸入文本描述(如”賽博朋克風格的街道,霓虹燈閃爍”)
- 參數配置:選擇生成模式(世界生成/世界重建)、場景風格、漫遊範圍等參數。
- 生成與探索:點擊生成後,系統自動執行四階段流程(全景→軌跡→擴展→重建)。
- 導出使用:支持下載3DGS/Mesh文件或直接生成Unity/UE引擎可導入的資產包。
混元3D世界模型 2.0的關鍵信息和使用要求
- 開發團隊:騰訊混元(Tencent Hunyuan)研發推出。
- 開源情況:模型權重、訓練代碼及完整技術報告已全面開源,可自由下載研究。
- 輸入模態:支持文本提示、單張圖片、多視角圖片以及視頻流四種輸入方式。
- 輸出格式:可導出3D高斯濺射(3DGS)、網格模型(Mesh)、點雲數據、360°全景圖及視頻序列。
- 引擎支持:生成資產原生兼容Unity和Unreal Engine(UE),可直接導入二次編輯。
- 硬件要求:本地部署需配備NVIDIA GPU,建議使用顯存≥16GB的環境以保證生成效率。
混元3D世界模型 2.0的核心優勢
-
生成與重建統一:首個開源框架同時支持”無中生有”(生成)和”從實到虛”(重建)兩種範式。
-
物理可交互:生成場景具備空間邏輯和物理碰撞檢測,支持角色操控探索。
-
無需相機參數:全景生成階段無需焦距、FOV等元數據,適應真實場景圖片。
-
高質量邊界處理:360°全景無縫銜接,無傳統ERP圖像的左右邊界斷裂問題。
-
記憶一致性:世界擴展階段引入記憶機制,確保長軌跡漫遊的視覺連貫性。
-
工業級兼容:原生支持主流遊戲引擎,可直接用於遊戲開發和機器人仿真。
混元3D世界模型 2.0的項目地址
- 項目官網:https://3d-models.hunyuan.tencent.com/world/
- GitHub倉庫:https://github.com/Tencent-Hunyuan/HY-World-2.0
- HuggingFace模型庫:https://huggingface.co/tencent/HY-World-2.0
- 技術論文:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
混元3D世界模型 2.0的同類競品對比
| 對比維度 | 混元3D世界模型 2.0 | WonderWorld | Marble |
|---|---|---|---|
| 開發方 | 騰訊混元 | Snap Research / UC Berkeley | World Labs(李飛飛) |
| 開源狀態 | 完全開源(權重+代碼) | 開源(研究代碼) | 閉源/有限開放 |
| 輸入模態 | 文本/單圖/多視圖/視頻 | 單圖/文本 | 單圖/文本 |
| 核心輸出 | 3DGS/Mesh | 3DGS | 3DGS |
| 生成與重建 | 統一支持 | 側重生成 | 側重生成 |
| 物理交互 | 支持角色漫遊+碰撞檢測 | 基礎漫遊 | 基礎探索 |
| 引擎導出 | Unity/UE原生支持 | 需轉換 | 有限支持 |
| 全景生成 | HY-Pano 2.0(無相機參數需求) | 需已知相機位姿 | 依賴深度估計 |
混元3D世界模型 2.0的應用場景
-
遊戲開發領域:開發者可用模型快速生成具備物理碰撞的可交互3D場景原型,顯著降低傳統關卡設計的時間和技術門檻。
-
虛擬現實應用:系統能構建高保真沉浸式VR/AR空間,支持終端用戶在生成環境中實現自由行走和實時探索。
-
數字孿生構建:用戶僅需提供少量照片或短視頻即可自動重建真實物理世界的高精度3D數字副本。
-
機器人仿真訓練:爲具身智能和自動駕駛系統提供物理一致、可交互的虛擬訓練環境,支持算法安全驗證。
-
影視虛擬製片:模型能生成360°全景虛擬背景資產,用於電影預演、虛擬攝影棚拍攝及後期特效合成製作。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...