Follow Your Pose – 開源的姿態全可控視頻生成框架

AI工具2年前 (2024)發佈新公告 AI管理員

32 0 0

Follow Your Pose是什麼

Follow Your Pose是由清華大學、香港科技大學、騰訊AI Lab以及中科院的研究人員開源的一個基於文本到視頻生成的框架，允許用戶通過文本描述和指定的人物姿態來生成視頻。該框架採用了兩階段的訓練策略，能夠生成與文本描述和姿態序列高度一致的視頻，同時保持視頻中人物動作的真實性和連貫性。

Follow Your Pose - 開源的姿態全可控視頻生成框架

Follow Your Pose的官網入口

官方項目主頁：https://follow-your-pose.github.io/
GitHub代碼庫：https://github.com/mayuelala/FollowYourPose
Arxiv研究論文：https://arxiv.org/abs/2304.01186
Hugging Face運行地址：https://huggingface.co/spaces/YueMafighting/FollowYourPose
OpenXLab運行地址：https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
Google Colab運行地址：https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb

Follow Your Pose的功能特色

文本到視頻生成：用戶可以輸入文本描述，框架會根據這些描述生成相應的視頻內容，如角色的動作、場景背景以及整體的視覺風格。
姿態控制：用戶可以通過指定人物的姿態序列來控制視頻中角色的動作，以精確地控制角色在視頻中的每一個動作細節。
時間連貫性：框架能夠生成時間上連貫的視頻，確保視頻中的動作和場景變化自然流暢，沒有突兀的跳躍或閃爍。
多樣化角色和背景生成：框架能夠生成具有不同外觀、風格和背景的視頻，包括但不限於現實風格、卡通風格、賽博朋克風格等。
多角色視頻生成：框架支持多角色視頻的生成，可以在同一個視頻中展示多個角色，並且能夠根據文本描述指定每個角色的身份和動作。
風格化視頻生成：用戶可以通過添加風格描述（如“卡通風格”、“賽博朋克風格”等）來生成具有特定藝術風格的視頻。

Follow Your Pose的工作原理

Follow Your Pose - 開源的姿態全可控視頻生成框架

Follow Your Pose的工作原理主要基於一個兩階段的訓練過程，旨在結合文本描述和姿態信息來生成視頻。以下是其工作原理的詳細步驟：

第一階段：姿態控制的文本到圖像生成
- 姿態編碼器：首先，框架使用一個零初始化的卷積編碼器來學習姿態信息。這個編碼器從輸入的姿態序列中提取關鍵點特徵。
- 特徵注入：提取的姿態特徵被下采樣到不同的分辨率，並以殘差連接的方式注入到預訓練的文本到圖像（T2I）模型的U-Net結構中。這樣做可以在保持原有模型的圖像生成能力的同時，引入姿態控制。
- 訓練：在這個階段，模型僅使用姿態圖像對進行訓練，目的是學習如何根據文本描述和姿態信息生成圖像。
第二階段：視頻生成
- 視頻數據集：爲了學習時間上的連貫性，框架在第二階段使用了一個沒有姿態標註的視頻數據集（如HDVLIA）進行訓練。
- 3D網絡結構：將預訓練的U-Net模型擴展爲3D網絡，以便處理視頻輸入。這涉及到將第一層卷積擴展爲僞3D卷積，並添加時間自注意力模塊來模擬時間序列。
- 跨幀自注意力：爲了進一步提高視頻的連貫性，框架引入了跨幀自注意力（cross-frame self-attention）模塊，這有助於在視頻幀之間保持內容的一致性。
- 微調：在這個階段，只有與時間連貫性相關的參數（如時間自注意力和跨幀自注意力）會被更新，而其他參數（如僞3D卷積層和前饋網絡FFN）保持不變。
生成過程
- 文本和姿態輸入：在推理階段，用戶輸入描述目標角色外觀和動作的文本，以及一個表示動作序列的姿態序列。
- 視頻生成：模型根據這些輸入生成視頻。在生成過程中，大多數預訓練的穩定擴散模型參數被凍結，只有與時間連貫性相關的模塊參與計算。