MAGREF – 字節跳動推出的多主體視頻生成框架

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

MAGREF是什麼

MAGREF（Masked Guidance for Any‑Reference Video Generation）是字節跳動推出的多主體視頻生成框架。MAGREF僅需一張參考圖像和文本提示，能生成高質量、主體一致的視頻，支持單人、多人及人物與物體、背景的複雜交互場景。基於區域感知動態掩碼和像素級通道拼接機制，MAGREF能精準復刻身份特徵，保持視頻中人物、物體和背景的協調性與一致性，適用內容創作、廣告製作等多種場景，展現極強的生成能力和可控性。

MAGREF的主要功能

多主體視頻生成：支持單人、多人互動以及人物與物體、背景的複雜場景生成，保持身份特徵高度一致，多人同框不串臉。
高一致性與可控性：基於一張參考圖像和文本提示，生成身份穩定、動作自然、背景協調的視頻，支持精確控制人物動作、表情、環境和光影效果。
複雜場景處理：支持人物與物體交互（如人與寵物互動、人物操作物體）及人物置於複雜背景中（如城市街景、自然環境等），生成語義清晰、風格協調的視頻。
高效性和通用性：無需爲不同任務單獨設計模型，基於最小架構改動和統一訓練流程，適配多種參考圖配置。

MAGREF的技術原理

區域感知動態掩碼機制：在生成空間中構建一塊空白畫布，將輸入的參考圖（如人臉、物體、背景等）隨機排列其中。爲每張參考圖生成一張空間區域掩碼，指示圖像在畫布中的語義位置。基於掩碼引導模型理解“誰控制哪一塊畫面”，即使參考圖數量和順序不同，也能保持結構一致、身份不串、關係明確。
像素級通道拼接機制：將所有參考圖在特徵維度上逐像素對齊拼接，避免傳統 token 拼接可能引發的圖像模糊或信息混疊問題。增強視覺一致性，保持生成結果對姿態、服飾、背景等細節的精準還原。
三階段數據處理流程：
- 篩選與字幕生成：從原始視頻中切分出語義一致的片段，過濾低質量樣本，爲每段生成結構化文本。
- 主體提取與掩碼標註：基於標籤提取與語義分割識別出視頻中的關鍵物體（如動物、服飾、道具等），進行後處理獲得精準遮罩。
- 人臉識別與身份建模：檢測並分配視頻中人物身份，篩選高質量面部圖像用在參考圖構建，確保訓練過程中的身份一致性。
基於DiT架構的統一模型：MAGREF構建在Diffusion Transformer（DiT）架構之上，引入掩碼引導和通道拼接機制，實現一個統一模型適配多種複雜視頻生成任務的能力。無需爲不同任務單獨設計模型，基於最小的架構改動和統一的訓練流程，實現強泛化性與高可控性的平衡。