daVinci-MagiHuman – Sand.ai等開源的音視頻生成模型

AI工具1天前發佈新公告 AI管理員
0 0

daVinci-MagiHuman是什麼

daVinci-MagiHuman 是上海創智學院 GAIR 實驗室與 Sand.ai 聯合開源的音視頻聯合生成基座模型。模型採用 150 億參數的單流 Transformer 架構,統一建模文本、視頻、音頻三種模態,無需跨注意力機制。模型擅長人物爲中心的生成,支持中英日韓德法等多語言,在單張 H100 上 2 秒即可生成 5 秒 256p 視頻。相比 Ovi 1.1 和 LTX 2.3 分別取得 80% 和 60.9% 的勝率,代碼、模型權重及在線 Demo 已全面開源。

daVinci-MagiHuman – Sand.ai等開源的音視頻生成模型

daVinci-MagiHuman的主要功能

  • 音視頻聯合生成:支持同步生成帶自然語音和口型同步的人物視頻,實現真正的音畫一體輸出。
  • 多語言支持:支持中文(普通話與粵語)、英文、日文、韓文、德文、法文等多種語言的語音生成。
  • 人像演繹生成:專注於人物中心場景,生成富有表現力的面部表情、肢體動作與情感傳達。
  • 極速推理:支持單張 H100 GPU 上 2 秒生成 5 秒 256p 視頻,滿足實時交互需求。
  • 高分辨率輸出:通過隱空間超分技術,可擴展至 540p 或 1080p 高清視頻。

daVinci-MagiHuman的技術原理

  • 單流統一架構:daVinci-MagiHuman 採用單流 Transformer 架構,將文本、視頻、音頻統一放入同一個 150 億參數、40 層的去噪網絡中,用純自注意力機制完成聯合建模,徹底摒棄跨注意力或模態專屬分支。架構上採用”三明治”設計,首尾少數層保留模態相關參數,中間主幹網絡共享參數,在模態特化與深層融合之間取得平衡;同時引入無顯式 timestep 條件注入、Attention-Head 門控等機制提升訓練穩定性與表達能力。
  • 隱空間超分辨率:模型採用兩階段流水線:底模先生成低分辨率音視頻隱變量,再通過隱空間超分直接在 latent space 中完成高分辨率細化,避免額外的 VAE 編解碼開銷,音頻隱變量會繼續作爲輸入進入超分模型,保持脣形同步效果。
  • 推理加速優化:推理階段使用輕量級 Turbo VAE 解碼器降低延遲,集成自研 MagiCompiler 進行全圖編譯優化,通過跨層算子融合帶來約 1.2 倍加速;結合 DMD-2 蒸餾技術實現僅需 8 步去噪的高質量生成。

daVinci-MagiHuman的關鍵信息和使用要求

  • 模型規模:150 億參數,40 層 Transformer
  • 架構特點:單流統一架構,純自注意力,無跨注意力
  • 生成能力:支持文本/圖像驅動的人像音視頻聯合生成
  • 支持語言:中文(普通話、粵語)、英文、日文、韓文、德文、法文
  • 推理速度:單張 H100 上 2 秒生成 5 秒 256p 視頻,38 秒生成 1080p 視頻
  • 性能表現:對比 Ovi 1.1 勝率 80.0%,對比 LTX 2.3 勝率 60.9%
  • 硬件:NVIDIA GPU(推薦 H100),需支持 CUDA
  • 軟件環境:Python 3.12,PyTorch 2.9.0,CUDA 12.x
  • 依賴組件:Flash Attention(Hopper 架構)、MagiCompiler(自研編譯器)、Turbo VAE

daVinci-MagiHuman的核心優勢

  • 架構簡潔高效:採用單流 Transformer 統一建模文本、視頻、音頻,告別跨注意力與模態分支,降低系統複雜度,訓練與推理優化更直接。
  • 音畫精準同步:原生聯合建模確保語音、口型、表情、動作高度協調,避免傳統方案音視頻語義對齊不足的問題。
  • 生成速度極快:支持單張 H100 上 2 秒生成 5 秒 256p 視頻,結合隱空間超分、Turbo VAE、全圖編譯與模型蒸餾,實現實時級推理。
  • 多語言泛化強:支持中英日韓德法及粵語等多種語言,滿足全球化內容生成需求。
  • 人像表現力突出:專注人物中心場景,生成富有情感的面部表情、自然語音與逼真肢體動作,達到演繹級質量。

如何使用daVinci-MagiHuman

  • 方式一:Docker
    • 拉取預構建鏡像:docker pull sandai/magi-human:latest
    • 啓動容器並掛載本地目錄:docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash
    • 進入容器後安裝 MagiCompiler 並克隆 daVinci-MagiHuman 代碼倉庫。
    • 從 HuggingFace 下載模型權重並更新配置文件中的路徑。
    • 運行對應腳本開始生成。
  • 方式二:Conda 手動安裝
    • 創建 Python 3.12 環境並激活:conda create -n davinci python=3.12 && conda activate davinci
    • 安裝 PyTorch 2.9.0 及相關組件。
    • 編譯安裝 Flash Attention(Hopper 架構版本)。
    • 克隆並安裝 MagiCompiler 與 daVinci-MagiHuman 項目依賴。
    • 下載 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型及項目權重。
    • 更新配置文件中的模型路徑後運行生成腳本。
  • 運行腳本
    • 基礎 256p 生成:執行 bash example/base/run.sh
    • 蒸餾快速版 256p(8 步去噪,無 CFG):執行 bash example/distill/run.sh
    • 超分至 540p:執行 bash example/sr_540p/run.sh
    • 超分至 1080p:執行 bash example/sr_1080p/run.sh

daVinci-MagiHuman的項目地址

  • GitHub倉庫:https://github.com/GAIR-NLP/daVinci-MagiHuman
  • HuggingFace模型庫:https://huggingface.co/GAIR/daVinci-MagiHuman
  • arXiv技術論文:https://arxiv.org/pdf/2603.21986
  • 在線體驗Demo:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

daVinci-MagiHuman的同類競品對比

對比項 daVinci-MagiHuman LTX 2.3 Ovi 1.1
研發方 上海創智學院 GAIR + Sand.ai Lightricks Ovi Labs
架構設計 單流 Transformer,無跨注意力 多流或擴散架構 多流架構
模型規模 150 億參數 未公開 未公開
音視頻生成 原生聯合建模,同步生成 支持 支持
生成速度 H100 上 2 秒/5 秒 256p 較慢 較慢
視覺質量 4.80 4.76 4.73
文本對齊 4.18 4.12 4.10
物理一致性 4.52 4.56 4.41
音頻質量(WER) 14.60% 19.23% 40.45%
人工評測勝率 基準 60.9% 勝率 80.0% 勝率
開源程度 完整開源(代碼+權重+工具鏈) 部分開源 部分開源
多語言支持 中英日韓德法+粵語 有限 有限

daVinci-MagiHuman的應用場景

  • AI 數字人主播:自動生成口型精準、表情自然的帶貨或新聞播報視頻,支持多語言適配不同地區市場。
  • 虛擬客服與助手:打造具備真實語音交互能力的智能客服形象,提升服務溫度與用戶體驗。
  • 影視與廣告製作:快速生成人物特寫鏡頭、配音小樣或分鏡預演,降低前期製作成本與時間。
  • 教育與培訓內容:生成多語言教學視頻,讓虛擬講師以生動表情和清晰口型講解知識點。
  • 遊戲與元宇宙角色:爲虛擬角色賦予實時語音驅動能力,實現玩家與 NPC 的自然對話互動。
© 版權聲明

相關文章

暫無評論

暫無評論...