daVinci-MagiHuman – Sand.ai等開源的音視頻生成模型

0 0 0

daVinci-MagiHuman是什麼

daVinci-MagiHuman 是上海創智學院 GAIR 實驗室與 Sand.ai 聯合開源的音視頻聯合生成基座模型。模型採用 150 億參數的單流 Transformer 架構，統一建模文本、視頻、音頻三種模態，無需跨注意力機制。模型擅長人物爲中心的生成，支持中英日韓德法等多語言，在單張 H100 上 2 秒即可生成 5 秒 256p 視頻。相比 Ovi 1.1 和 LTX 2.3 分別取得 80% 和 60.9% 的勝率，代碼、模型權重及在線 Demo 已全面開源。

daVinci-MagiHuman的主要功能

音視頻聯合生成：支持同步生成帶自然語音和口型同步的人物視頻，實現真正的音畫一體輸出。
多語言支持：支持中文（普通話與粵語）、英文、日文、韓文、德文、法文等多種語言的語音生成。
人像演繹生成：專注於人物中心場景，生成富有表現力的面部表情、肢體動作與情感傳達。
極速推理：支持單張 H100 GPU 上 2 秒生成 5 秒 256p 視頻，滿足實時交互需求。
高分辨率輸出：通過隱空間超分技術，可擴展至 540p 或 1080p 高清視頻。

daVinci-MagiHuman的技術原理

單流統一架構：daVinci-MagiHuman 採用單流 Transformer 架構，將文本、視頻、音頻統一放入同一個 150 億參數、40 層的去噪網絡中，用純自注意力機制完成聯合建模，徹底摒棄跨注意力或模態專屬分支。架構上採用”三明治”設計，首尾少數層保留模態相關參數，中間主幹網絡共享參數，在模態特化與深層融合之間取得平衡；同時引入無顯式 timestep 條件注入、Attention-Head 門控等機制提升訓練穩定性與表達能力。
隱空間超分辨率：模型採用兩階段流水線：底模先生成低分辨率音視頻隱變量，再通過隱空間超分直接在 latent space 中完成高分辨率細化，避免額外的 VAE 編解碼開銷，音頻隱變量會繼續作爲輸入進入超分模型，保持脣形同步效果。
推理加速優化：推理階段使用輕量級 Turbo VAE 解碼器降低延遲，集成自研 MagiCompiler 進行全圖編譯優化，通過跨層算子融合帶來約 1.2 倍加速；結合 DMD-2 蒸餾技術實現僅需 8 步去噪的高質量生成。

daVinci-MagiHuman的關鍵信息和使用要求

模型規模：150 億參數，40 層 Transformer
架構特點：單流統一架構，純自注意力，無跨注意力
生成能力：支持文本/圖像驅動的人像音視頻聯合生成
支持語言：中文（普通話、粵語）、英文、日文、韓文、德文、法文
推理速度：單張 H100 上 2 秒生成 5 秒 256p 視頻，38 秒生成 1080p 視頻
性能表現：對比 Ovi 1.1 勝率 80.0%，對比 LTX 2.3 勝率 60.9%
硬件：NVIDIA GPU（推薦 H100），需支持 CUDA
軟件環境：Python 3.12，PyTorch 2.9.0，CUDA 12.x
依賴組件：Flash Attention（Hopper 架構）、MagiCompiler（自研編譯器）、Turbo VAE

daVinci-MagiHuman的核心優勢

架構簡潔高效：採用單流 Transformer 統一建模文本、視頻、音頻，告別跨注意力與模態分支，降低系統複雜度，訓練與推理優化更直接。
音畫精準同步：原生聯合建模確保語音、口型、表情、動作高度協調，避免傳統方案音視頻語義對齊不足的問題。
生成速度極快：支持單張 H100 上 2 秒生成 5 秒 256p 視頻，結合隱空間超分、Turbo VAE、全圖編譯與模型蒸餾，實現實時級推理。
多語言泛化強：支持中英日韓德法及粵語等多種語言，滿足全球化內容生成需求。
人像表現力突出：專注人物中心場景，生成富有情感的面部表情、自然語音與逼真肢體動作，達到演繹級質量。

如何使用daVinci-MagiHuman

方式一：Docker
- 拉取預構建鏡像：docker pull sandai/magi-human:latest。
- 啓動容器並掛載本地目錄：docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash。
- 進入容器後安裝 MagiCompiler 並克隆 daVinci-MagiHuman 代碼倉庫。
- 從 HuggingFace 下載模型權重並更新配置文件中的路徑。
- 運行對應腳本開始生成。
方式二：Conda 手動安裝
- 創建 Python 3.12 環境並激活：conda create -n davinci python=3.12 && conda activate davinci。
- 安裝 PyTorch 2.9.0 及相關組件。
- 編譯安裝 Flash Attention（Hopper 架構版本）。
- 克隆並安裝 MagiCompiler 與 daVinci-MagiHuman 項目依賴。
- 下載 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型及項目權重。
- 更新配置文件中的模型路徑後運行生成腳本。
運行腳本
- 基礎 256p 生成：執行 bash example/base/run.sh。
- 蒸餾快速版 256p（8 步去噪，無 CFG）：執行 bash example/distill/run.sh。
- 超分至 540p：執行 bash example/sr_540p/run.sh。
- 超分至 1080p：執行 bash example/sr_1080p/run.sh。

daVinci-MagiHuman的項目地址

GitHub倉庫：https://github.com/GAIR-NLP/daVinci-MagiHuman
HuggingFace模型庫：https://huggingface.co/GAIR/daVinci-MagiHuman
arXiv技術論文：https://arxiv.org/pdf/2603.21986
在線體驗Demo：https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

daVinci-MagiHuman的同類競品對比

對比項	daVinci-MagiHuman	LTX 2.3	Ovi 1.1
研發方	上海創智學院 GAIR + Sand.ai	Lightricks	Ovi Labs
架構設計	單流 Transformer，無跨注意力	多流或擴散架構	多流架構
模型規模	150 億參數	未公開	未公開
音視頻生成	原生聯合建模，同步生成	支持	支持
生成速度	H100 上 2 秒/5 秒 256p	較慢	較慢
視覺質量	4.80	4.76	4.73
文本對齊	4.18	4.12	4.10
物理一致性	4.52	4.56	4.41
音頻質量（WER）	14.60%	19.23%	40.45%
人工評測勝率	基準	60.9% 勝率	80.0% 勝率
開源程度	完整開源（代碼+權重+工具鏈）	部分開源	部分開源
多語言支持	中英日韓德法+粵語	有限	有限