UniEdit – 免訓練調優的統一視頻編輯框架

AI工具8個月前發佈新公告 AI管理員
6 0

UniEdit是什麼

UniEdit是由浙江大學、微軟研究院和北京大學的研究人員推出的一個創新的視頻編輯框架,允許用戶在不需要進行模型微調的情況下,對視頻的運動和外觀進行編輯。該框架的核心優勢在於能夠同時處理視頻的時間維度(如動作變化)和空間維度(如風格化、物體替換、背景修改)的編輯任務。

UniEdit - 免訓練調優的統一視頻編輯框架

UniEdit的官網入口

  • 官方項目主頁:https://jianhongbai.github.io/UniEdit/
  • arXiv研究論文:https://arxiv.org/abs/2402.13185
  • GitHub代碼庫:https://github.com/JianhongBai/UniEdit(源代碼待上線)

UniEdit的功能特性

  • 視頻對象動作編輯:UniEdit能夠根據文本指令編輯視頻中對象的動作。例如,可以將視頻中的浣熊彈吉他的動作編輯成喫蘋果或招手的動作。
  • 視頻風格化:該框架支持對視頻進行風格遷移,即用戶可以通過文本描述來改變視頻的視覺風格,而不需要改變視頻中的內容,如將視頻轉換爲油畫風格。
  • 視頻背景修改:UniEdit允許用戶修改更換視頻中的背景。例如,可以將視頻中的人物置於完全不同的場景中。
  • 視頻對象物體替換:UniEdit框架支持剛性和非剛性物體的替換,用戶可以替換視頻中的靜態或動態物體,
  • 無需訓練微調:UniEdit不需要額外的訓練或微調,大大簡化了模型的部署和使用,使得用戶可以快速上手進行視頻編輯。

UniEdit的工作原理

UniEdit - 免訓練調優的統一視頻編輯框架

  1. 反演處理(Inversion):UniEdit首先對輸入的視頻進行反演處理,將其轉換爲一個隨機噪聲表示。這個過程通常涉及到使用預訓練的擴散視頻生成模型(如 LaVie)的反演過程,通過一系列去噪步驟將視頻逐步從噪聲狀態轉換回其原始狀態。
  2. 生成編輯路徑在反演處理的基礎上,UniEdit 使用預訓練的 UNet 模型進行去噪步驟,以生成編輯後的視頻。該過程是在給定目標文本提示的條件下進行的,以確保生成的視頻內容符合用戶的編輯意圖。
  3. 輔助重建分支爲了保留源視頻的非編輯內容,UniEdit 引入了一個輔助重建分支。這個分支從相同的逆向噪聲開始,但在給定源視頻文本提示的條件下進行去噪,以重建原始視頻幀。重建過程中的特徵被注入到主編輯路徑的空間自注意力層中,以保持內容的一致性。
  4. 輔助運動參考分支爲了實現運動/動作編輯,UniEdit 引入了輔助運動參考分支,在給定目標文本提示的條件下生成運動特徵。這些特徵通過時間自注意力層注入到主編輯路徑中,以引導視頻的運動變化。
  5. 內容保留與運動注入在主編輯路徑中,UniEdit 通過替換空間自注意力層的值特徵來保留源視頻的內容。同時,通過在時間自注意力層中注入運動特徵,實現運動的編輯。
  6. 空間結構控制在外觀編輯中,UniEdit 通過替換主編輯路徑中的空間自注意力層的查詢和鍵特徵,來保持源視頻的空間結構。這有助於在改變視頻風格或外觀時,保持物體的佈局和位置不變。
  7. 文本引導編輯用戶通過提供文本描述來指導視頻編輯過程。UniEdit 解析這些文本描述,並將其轉化爲視頻編輯的指導信號,從而實現用戶期望的編輯效果。
© 版權聲明

相關文章

暫無評論

暫無評論...