Follow Your Pose是什麼
Follow Your Pose是由清華大學、香港科技大學、騰訊AI Lab以及中科院的研究人員開源的一個基於文本到視頻生成的框架,允許用戶通過文本描述和指定的人物姿態來生成視頻。該框架採用了兩階段的訓練策略,能夠生成與文本描述和姿態序列高度一致的視頻,同時保持視頻中人物動作的真實性和連貫性。
Follow Your Pose的官網入口
- 官方項目主頁:https://follow-your-pose.github.io/
- GitHub代碼庫:https://github.com/mayuelala/FollowYourPose
- Arxiv研究論文:https://arxiv.org/abs/2304.01186
- Hugging Face運行地址:https://huggingface.co/spaces/YueMafighting/FollowYourPose
- OpenXLab運行地址:https://openxlab.org.cn/apps/detail/houshaowei/FollowYourPose
- Google Colab運行地址:https://colab.research.google.com/github/mayuelala/FollowYourPose/blob/main/quick_demo.ipynb
Follow Your Pose的功能特色
- 文本到視頻生成:用戶可以輸入文本描述,框架會根據這些描述生成相應的視頻內容,如角色的動作、場景背景以及整體的視覺風格。
- 姿態控制:用戶可以通過指定人物的姿態序列來控制視頻中角色的動作,以精確地控制角色在視頻中的每一個動作細節。
- 時間連貫性:框架能夠生成時間上連貫的視頻,確保視頻中的動作和場景變化自然流暢,沒有突兀的跳躍或閃爍。
- 多樣化角色和背景生成:框架能夠生成具有不同外觀、風格和背景的視頻,包括但不限於現實風格、卡通風格、賽博朋克風格等。
- 多角色視頻生成:框架支持多角色視頻的生成,可以在同一個視頻中展示多個角色,並且能夠根據文本描述指定每個角色的身份和動作。
- 風格化視頻生成:用戶可以通過添加風格描述(如“卡通風格”、“賽博朋克風格”等)來生成具有特定藝術風格的視頻。
Follow Your Pose的工作原理
Follow Your Pose的工作原理主要基於一個兩階段的訓練過程,旨在結合文本描述和姿態信息來生成視頻。以下是其工作原理的詳細步驟:
- 第一階段:姿態控制的文本到圖像生成
- 姿態編碼器:首先,框架使用一個零初始化的卷積編碼器來學習姿態信息。這個編碼器從輸入的姿態序列中提取關鍵點特徵。
- 特徵注入:提取的姿態特徵被下采樣到不同的分辨率,並以殘差連接的方式注入到預訓練的文本到圖像(T2I)模型的U-Net結構中。這樣做可以在保持原有模型的圖像生成能力的同時,引入姿態控制。
- 訓練:在這個階段,模型僅使用姿態圖像對進行訓練,目的是學習如何根據文本描述和姿態信息生成圖像。
- 第二階段:視頻生成
- 視頻數據集:爲了學習時間上的連貫性,框架在第二階段使用了一個沒有姿態標註的視頻數據集(如HDVLIA)進行訓練。
- 3D網絡結構:將預訓練的U-Net模型擴展爲3D網絡,以便處理視頻輸入。這涉及到將第一層卷積擴展爲僞3D卷積,並添加時間自注意力模塊來模擬時間序列。
- 跨幀自注意力:爲了進一步提高視頻的連貫性,框架引入了跨幀自注意力(cross-frame self-attention)模塊,這有助於在視頻幀之間保持內容的一致性。
- 微調:在這個階段,只有與時間連貫性相關的參數(如時間自注意力和跨幀自注意力)會被更新,而其他參數(如僞3D卷積層和前饋網絡FFN)保持不變。
- 生成過程
- 文本和姿態輸入:在推理階段,用戶輸入描述目標角色外觀和動作的文本,以及一個表示動作序列的姿態序列。
- 視頻生成:模型根據這些輸入生成視頻。在生成過程中,大多數預訓練的穩定擴散模型參數被凍結,只有與時間連貫性相關的模塊參與計算。
通過這種兩階段的訓練策略,Follow Your Pose能夠有效地從易於獲取的數據集中學習,生成具有高度控制性和時間連貫性的視頻。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...