UniEdit – 免訓練調優的統一視頻編輯框架

AI工具2年前 (2024)發佈新公告 AI管理員

14 0 0

UniEdit是什麼

UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架，允許用戶在不需要進行模型微調的情況下，對視頻的運動和外觀進行編輯。該框架的核心優勢在於能夠同時處理視頻的時間維度（如動作變化）和空間維度（如風格化、物體替換、背景修改）的編輯任務。

UniEdit - 免訓練調優的統一視頻編輯框架

UniEdit的官網入口

官方項目主頁：https://jianhongbai.github.io/UniEdit/
arXiv研究論文：https://arxiv.org/abs/2402.13185
GitHub代碼庫：https://github.com/JianhongBai/UniEdit（源代碼待上線）

UniEdit的功能特性

視頻對象動作編輯：UniEdit能夠根據文本指令編輯視頻中對象的動作。例如，可以將視頻中的浣熊彈吉他的動作編輯成喫蘋果或招手的動作。
視頻風格化：該框架支持對視頻進行風格遷移，即用戶可以通過文本描述來改變視頻的視覺風格，而不需要改變視頻中的內容，如將視頻轉換爲油畫風格。
視頻背景修改：UniEdit允許用戶修改更換視頻中的背景。例如，可以將視頻中的人物置於完全不同的場景中。
視頻對象物體替換：UniEdit框架支持剛性和非剛性物體的替換，用戶可以替換視頻中的靜態或動態物體，
無需訓練微調：UniEdit不需要額外的訓練或微調，大大簡化了模型的部署和使用，使得用戶可以快速上手進行視頻編輯。

UniEdit的工作原理

UniEdit - 免訓練調優的統一視頻編輯框架

反演處理（Inversion）：UniEdit首先對輸入的視頻進行反演處理，將其轉換爲一個隨機噪聲表示。這個過程通常涉及到使用預訓練的擴散視頻生成模型（如 LaVie）的反演過程，通過一系列去噪步驟將視頻逐步從噪聲狀態轉換回其原始狀態。
生成編輯路徑：在反演處理的基礎上，UniEdit 使用預訓練的 UNet 模型進行去噪步驟，以生成編輯後的視頻。該過程是在給定目標文本提示的條件下進行的，以確保生成的視頻內容符合用戶的編輯意圖。
輔助重建分支：爲了保留源視頻的非編輯內容，UniEdit 引入了一個輔助重建分支。這個分支從相同的逆向噪聲開始，但在給定源視頻文本提示的條件下進行去噪，以重建原始視頻幀。重建過程中的特徵被注入到主編輯路徑的空間自注意力層中，以保持內容的一致性。
輔助運動參考分支：爲了實現運動/動作編輯，UniEdit 引入了輔助運動參考分支，在給定目標文本提示的條件下生成運動特徵。這些特徵通過時間自注意力層注入到主編輯路徑中，以引導視頻的運動變化。
內容保留與運動注入：在主編輯路徑中，UniEdit 通過替換空間自注意力層的值特徵來保留源視頻的內容。同時，通過在時間自注意力層中注入運動特徵，實現運動的編輯。
空間結構控制：在外觀編輯中，UniEdit 通過替換主編輯路徑中的空間自注意力層的查詢和鍵特徵，來保持源視頻的空間結構。這有助於在改變視頻風格或外觀時，保持物體的佈局和位置不變。
文本引導編輯：用戶通過提供文本描述來指導視頻編輯過程。UniEdit 解析這些文本描述，並將其轉化爲視頻編輯的指導信號，從而實現用戶期望的編輯效果。