DreaMoving – 阿里開源的基於擴散模型的人類視頻生成框架

AI工具1年前 (2024)發佈新公告 AI管理員

8 0 0

DreaMoving是什麼

DreaMoving是一個基於擴散模型的人類視頻生成框架，由阿里巴巴集團的研究團隊開發。DreaMoving通過視頻控制網絡和內容引導器實現對人物動作和外觀的精確控制，使得用戶可以通過簡單的文本描述或圖像提示來生成個性化的視頻內容。該框架的目標是生成高質量的定製化人類視頻，特別是能夠根據給定的目標身份和姿勢序列生成目標身份移動或跳舞的視頻內容。

DreaMoving - 阿里開源的基於擴散模型的人類視頻生成框架

DreaMoving的官網入口

官方項目主頁：https://dreamoving.github.io/dreamoving/
arXiv研究論文：https://arxiv.org/abs/2312.05107
GitHub地址：https://github.com/dreamoving/dreamoving-project
ModelScope魔搭社區：https://www.modelscope.cn/studios/vigen/video_generation/summary
Hugging Face Demo：https://huggingface.co/spaces/jiayong/Dreamoving

DreaMoving的功能特性

定製化視頻生成：DreaMoving能夠根據用戶提供的目標身份和姿勢序列，生成相應的人物移動或跳舞的視頻，滿足個性化視頻內容的製作需求。
高度可控性：通過視頻控制網絡（Video ControlNet），DreaMoving可以精確控制視頻中人物的動作細節，確保生成的視頻具有高度的時間一致性和運動真實性。
身份保持：利用內容引導器（Content Guider），框架能夠保持視頻中人物的身份特徵，如面部和服裝，確保生成的視頻與目標身份高度吻合。
多樣化的輸入方式：用戶可以通過文本提示、圖像提示或二者結合的方式來指導視頻的生成，提供了靈活的創作方式。
易於使用和適配：DreaMoving設計簡潔，易於操作，並且可以適配多種風格化的擴散模型，以生成風格多樣的視頻結果。

DreaMoving的技術架構

DreaMoving的架構建立在Stable Diffusion模型的基礎上，主要由三個核心部分組成，每個部分承擔着不同的功能和任務，共同實現高質量的人類視頻生成。

DreaMoving - 阿里開源的基於擴散模型的人類視頻生成框架

去噪U-Net：作爲DreaMoving的基礎網絡，負責視頻的生成過程。去噪U-Net通過迭代去噪的方式，逐步從噪聲中恢復出清晰的視頻幀。在每個U-Net塊之後，插入了運動塊（Motion Block），以增強視頻的時間一致性和運動真實性。
視頻控制網絡（Video ControlNet）：該網絡專門負責控制視頻中人物的運動。它作爲一個插件模塊，與去噪U-Net結合使用，通過處理姿勢或深度序列來控制人物的動作。Video ControlNet使得生成的視頻能夠根據輸入的控制序列展現出精確的運動模式。
內容引導器（Content Guider）：內容引導器的目的是保持視頻中人物的身份特徵，如面部和服裝。它使用圖像編碼器來精確地引導人物的外觀，同時結合文本提示來生成背景內容。內容引導器通過交叉注意力機制，將輸入的文本提示和圖像特徵結合起來，生成具有特定身份特徵的視頻內容。

這三個網絡協同工作，使得DreaMoving能夠生成既具有個性化身份特徵又具有精確運動控制的高質量人類視頻。此外，DreaMoving的架構設計使其易於使用和適配，能夠與多種風格化的擴散模型結合，以產生多樣化的視頻生成結果。

DreaMoving的應用場景

電影和電視製作：在影視製作中，DreaMoving可以用來創建複雜的動作場景，特別是當需要特定人物表演或舞蹈動作時。它可以幫助製作團隊在預算和時間有限的情況下，快速生成高質量的視頻內容。
遊戲開發：遊戲設計師可以利用DreaMoving生成逼真的角色動畫，爲玩家提供更加豐富和真實的遊戲體驗。這在角色扮演遊戲或動作遊戲中尤爲重要，可以增強遊戲的沉浸感。
個性化視頻創作：內容創作者可以使用DreaMoving製作個性化視頻，例如社交媒體上的舞蹈挑戰、模仿秀或其他創意視頻。用戶可以通過簡單的文本或圖像輸入，快速生成具有個人特色的視頻內容。
廣告和營銷：營銷人員可以使用DreaMoving製作吸引人的廣告視頻，通過定製化的人物動作和場景來吸引目標受衆，提高廣告的傳播效果和品牌認知度。

# AI工具