MotionCtrl – 騰訊等推出的視頻生成模型的運動控制器

AI工具7個月前發佈新公告 AI管理員
5 0

MotionCtrl是什麼

MotionCtrl是由來自騰訊、香港大學、上海AI實驗室、清華大學、廣東工業大學等機構的研究人員推出的一個爲視頻生成模型設計的統一且靈活的運動控制器,能夠獨立地控制視頻中的相機運動和物體運動視角。該系統由兩個主要模塊組成:相機運動控制模塊和物體運動控制模塊,可以與潛在視頻擴散模型協同工作,以實現對生成視頻中運動視角的精確控制。

MotionCtrl - 騰訊等推出的視頻生成模型的運動控制器

MotionCtrl的官網入口

  • 官方項目主頁:https://wzhouxiff.github.io/projects/MotionCtrl/
  • Arxiv研究論文:https://arxiv.org/pdf/2312.03641.pdf
  • GitHub代碼庫:https://github.com/TencentARC/MotionCtrl
  • Hugging Face(MotionCtrl + VideoCrafter):https://huggingface.co/spaces/TencentARC/MotionCtrl
  • Hugging Face(MotionCtrl + SVD):https://huggingface.co/spaces/TencentARC/MotionCtrl_SVD

MotionCtrl的功能特色

  • 搭配模型生成視頻:MotionCtrl能夠搭配視頻生成模型(如VideoCrafter、Stable Video Diffusion)根據文本提示生成視頻,這些視頻不僅包含靜態圖像,還包括連貫和流暢的運動效果。
  • 控制相機運動:用戶可以指定相機在視頻中的運動方式,例如平移(左右、上下移動)、縮放(放大或縮小)、旋轉(順時針或逆時針轉動)等,MotionCtrl能夠根據這些指令生成相應的視頻。
  • 控制物體運動:MotionCtrl能夠控制視頻中物體的運動軌跡,比如物體在場景中的移動路徑、速度和方向,使得物體的運動與文本描述或用戶指定的軌跡相匹配。
  • 組合運動控制:MotionCtrl不僅能夠獨立控制相機和物體運動,還能夠同時控制兩者,實現複雜的運動效果,如相機在追蹤物體的同時進行平移或旋轉。
  • 適應多種相機姿態和軌跡:經過訓練後,MotionCtrl能夠適應各種不同的相機姿態和物體運動軌跡,無需爲每種新情況重新訓練模型。

MotionCtrl的工作原理

MotionCtrl的工作原理主要基於兩個核心模塊:相機運動控制模塊(CMCM)和物體運動控制模塊(OMCM),以及它們與潛在視頻擴散模型(LVDM)的協同工作。

MotionCtrl - 騰訊等推出的視頻生成模型的運動控制器

以下是MotionCtrl工作原理的詳細步驟:

  1. 相機運動控制(CMCM)
    • CMCM接收一系列相機姿態(包括旋轉矩陣和位移矩陣),這些姿態描述了相機在視頻中的運動路徑。
    • CMCM通過與LVDM中的時間變換器(temporal transformers)交互,將相機姿態信息融合到視頻生成過程中。
    • 在時間變換器的第二個自注意力模塊中,相機姿態序列被擴展並與時間步信息結合,然後通過全連接層處理,以便在後續的時間變換器中使用。
    • 這樣,生成的視頻將遵循指定的相機運動,如平移、縮放和旋轉,從而實現對全局場景運動的控制。
  2. 物體運動控制(OMCM)
    • OMCM負責處理視頻中物體的運動軌跡,這些軌跡通常表示爲物體在每一幀中的空間位置。
    • OMCM利用卷積層和下采樣操作從軌跡中提取多尺度特徵,並將這些特徵空間地融合到LVDM的卷積層中。
    • 通過這種方式,OMCM能夠指示視頻中物體在每一幀中的位置,實現對物體局部運動的控制。
  3. 訓練策略
    • MotionCtrl的訓練分爲兩個階段。首先,使用Realestate10K數據集訓練CMCM,這個數據集包含了視頻剪輯和相機姿態註釋,但缺少物體運動軌跡。
    • 然後,使用WebVid數據集和通過ParticleSfM算法合成的物體運動軌跡來訓練OMCM。這個數據集包含了視頻剪輯、標題和物體運動軌跡。
    • 在訓練過程中,CMCM和OMCM作爲適配器模塊(adapter-like modules)被添加到預訓練的LVDM模型上,允許它們獨立訓練,而不影響LVDM的其他部分。
  4. 視頻生成
    • 在視頻生成階段,MotionCtrl根據文本提示,結合相機姿態和物體運動軌跡,生成與文本描述相符的視頻。
    • LVDM首先從噪聲中生成視頻的潛在表示,然後CMCM和OMCM根據給定的運動條件調整視頻的全局和局部運動,最終生成具有指定運動效果的視頻。
© 版權聲明

相關文章

暫無評論

暫無評論...