Follow Your Pose – 開源的姿態全可控視頻生成框架

AI工具9個月前發佈新公告 AI管理員
5 0

Follow Your Pose是什麼

Follow Your Pose是由清華大學、香港科技大學、騰訊AI Lab以及中科院的研究人員開源的一個基於文本到視頻生成的框架,允許用戶通過文本描述和指定的人物姿態來生成視頻。該框架採用了兩階段的訓練策略,能夠生成與文本描述和姿態序列高度一致的視頻,同時保持視頻中人物動作的真實性和連貫性。

Follow Your Pose - 開源的姿態全可控視頻生成框架

Follow Your Pose的官網入口

  • 官方項目主頁:https://follow-your-pose.github.io/
  • GitHub代碼庫:https://github.com/mayuelala/FollowYourPose
  • Arxiv研究論文:https://arxiv.org/abs/2304.01186
  • Hugging Face運行地址:https://huggingface.co/spaces/YueMafighting/FollowYourPose
  • OpenXLab運行地址:https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
  • Google Colab運行地址:https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb

Follow Your Pose的功能特色

  • 文本到視頻生成:用戶可以輸入文本描述,框架會根據這些描述生成相應的視頻內容,如角色的動作、場景背景以及整體的視覺風格。
  • 姿態控制:用戶可以通過指定人物的姿態序列來控制視頻中角色的動作,以精確地控制角色在視頻中的每一個動作細節。
  • 時間連貫性:框架能夠生成時間上連貫的視頻,確保視頻中的動作和場景變化自然流暢,沒有突兀的跳躍或閃爍。
  • 多樣化角色和背景生成:框架能夠生成具有不同外觀、風格和背景的視頻,包括但不限於現實風格、卡通風格、賽博朋克風格等。
  • 多角色視頻生成:框架支持多角色視頻的生成,可以在同一個視頻中展示多個角色,並且能夠根據文本描述指定每個角色的身份和動作。
  • 風格化視頻生成:用戶可以通過添加風格描述(如“卡通風格”、“賽博朋克風格”等)來生成具有特定藝術風格的視頻。

Follow Your Pose的工作原理

Follow Your Pose - 開源的姿態全可控視頻生成框架

Follow Your Pose的工作原理主要基於一個兩階段的訓練過程,旨在結合文本描述和姿態信息來生成視頻。以下是其工作原理的詳細步驟:

  1. 第一階段:姿態控制的文本到圖像生成
    • 姿態編碼器:首先,框架使用一個零初始化的卷積編碼器來學習姿態信息。這個編碼器從輸入的姿態序列中提取關鍵點特徵。
    • 特徵注入:提取的姿態特徵被下采樣到不同的分辨率,並以殘差連接的方式注入到預訓練的文本到圖像(T2I)模型的U-Net結構中。這樣做可以在保持原有模型的圖像生成能力的同時,引入姿態控制。
    • 訓練:在這個階段,模型僅使用姿態圖像對進行訓練,目的是學習如何根據文本描述和姿態信息生成圖像。
  2. 第二階段:視頻生成
    • 視頻數據集:爲了學習時間上的連貫性,框架在第二階段使用了一個沒有姿態標註的視頻數據集(如HDVLIA)進行訓練。
    • 3D網絡結構:將預訓練的U-Net模型擴展爲3D網絡,以便處理視頻輸入。這涉及到將第一層卷積擴展爲僞3D卷積,並添加時間自注意力模塊來模擬時間序列。
    • 跨幀自注意力:爲了進一步提高視頻的連貫性,框架引入了跨幀自注意力(cross-frame self-attention)模塊,這有助於在視頻幀之間保持內容的一致性。
    • 微調:在這個階段,只有與時間連貫性相關的參數(如時間自注意力和跨幀自注意力)會被更新,而其他參數(如僞3D卷積層和前饋網絡FFN)保持不變。
  3. 生成過程
    • 文本和姿態輸入:在推理階段,用戶輸入描述目標角色外觀和動作的文本,以及一個表示動作序列的姿態序列。
    • 視頻生成:模型根據這些輸入生成視頻。在生成過程中,大多數預訓練的穩定擴散模型參數被凍結,只有與時間連貫性相關的模塊參與計算。

通過這種兩階段的訓練策略,Follow Your Pose能夠有效地從易於獲取的數據集中學習,生成具有高度控制性和時間連貫性的視頻。

© 版權聲明

相關文章

暫無評論

暫無評論...