Follow-Your-Click – 騰訊等開源的圖像到視頻模型，可生成局部動畫

AI工具2年前 (2024)發佈新公告 AI管理員

18 0 0

Follow-Your-Click是什麼

Follow-Your-Click是一個由來自騰訊公司（混元團隊）聯合清華大學和香港科技大學的研究人員共同研發的圖像到視頻（Image-to-Video，簡稱I2V）生成模型，允許用戶通過簡單的點擊和簡短的動作提示來生成局部圖像動畫，從而將靜態圖像轉換爲動態視頻。該模型旨在解決現有的大多數圖像到視頻方法並不具備局部動畫的特性，只能移動整個場景。

Follow-Your-Click - 騰訊等開源的圖像到視頻模型，可生成局部動畫

Follow-Your-Click的官網入口

官方項目主頁：https://follow-your-click.github.io/
arXiv研究論文：https://arxiv.org/abs/2403.08268（注：源碼和Demo預計4月份上線）
GitHub代碼庫：https://github.com/mayuelala/FollowYourClick

Follow-Your-Click的主要功能

簡單友好的交互：Follow-Your-Click提供了直觀的用戶控制界面，用戶可以通過簡單的點擊來指定動畫區域，並通過簡短的提示詞來定義動畫類型和動作。
局部動畫生成：用戶可以通過點擊圖像中的特定區域，使這些區域產生動畫效果。即用戶可以選擇圖像的任何部分，併爲其添加動態效果，如讓物體微笑、搖擺或移動。
多對象動畫：模型支持對圖像中的多個對象同時進行動畫處理，允許用戶創建更爲豐富和複雜的動態場景。
簡短動作提示：用戶只需提供簡短的動作描述，模型就能夠理解並生成相應的動畫效果。簡化了動畫製作過程，使得用戶無需進行復雜的操作或提供冗長的描述。
高質量視頻生成：模型採用了先進的技術策略，如第一幀遮罩策略和基於光流的運動幅度控制，以確保生成的視頻具有高質量和真實感。
運動速度控制：模型還允許用戶控制動畫對象的運動速度，通過精確的控制來滿足不同的動畫需求。

Follow-Your-Click的工作原理

用戶交互：用戶首先通過點擊圖像上的特定位置來選擇需要動畫化的對象區域。這種交互方式簡單直觀，不需要用戶進行復雜的操作或提供詳細的描述。接着，用戶提供一個簡短的動作提示，如“搖動身體”或“微笑”，來指定所選區域應執行的動作。
圖像分割：爲了將用戶的點擊轉換爲可以用於動畫的區域掩碼，框架集成了SAM（Segment Anything）工具。SAM是一個可提示的圖像分割工具，能夠根據用戶的點擊生成高質量的對象掩碼。
第一幀遮罩策略：爲了提高視頻生成質量，框架採用了第一幀遮罩策略。在訓練過程中，輸入圖像的潛在表示（latent representation）會被隨機遮罩一部分，以增強模型學習時間相關性的能力。這種方法顯著提高了生成視頻的質量。
運動增強模塊：爲了使模型能夠更好地響應簡短的動作提示，框架設計了一個運動增強模塊。該模塊通過一個新的交叉注意力層來增強模型對動作相關詞彙的響應。在訓練階段，該模塊使用短動作提示進行訓練，而在推理階段，這些提示被輸入到運動增強模塊和U-Net的交叉注意力模塊中。
基於光流的運動幅度控制：傳統的運動強度控制依賴於調整每秒幀數（FPS）。然而，這種方法不能精確控制單個對象的運動速度。爲了準確學習運動速度，框架提出了一種基於光流的運動幅度控制方法。通過計算光流的平均幅度並將其投影到位置嵌入中，可以在所有幀中一致地應用運動強度。
視頻生成：在推理階段，用戶點擊的位置和簡短的動作提示被用來生成動畫視頻。模型結合了用戶指定的區域掩碼和動作提示，生成了一系列連貫的動畫幀，同時保持了輸入圖像的其餘部分靜止。