Champ是什麼
Champ是由阿里巴巴、復旦大學和南京大學的研究人員共同提出的一種基於3D的將人物圖片轉換爲視頻動畫的模型,該方法結合了3D參數化模型(特別是SMPL模型)和潛在擴散模型,能夠精確地捕捉和再現人體的3D形狀和動態,同時保持動畫的時間一致性和視覺真實性,以生成高質量的人類動畫視頻。
Champ的官網入口
- 官方項目主頁:https://fudan-generative-vision.github.io/champ/#/
- GitHub源碼庫:https://github.com/fudan-generative-vision/champ
- arXiv研究論文:https://arxiv.org/abs/2403.14781
Champ的功能特性
- 人物圖片轉視頻動畫:Champ可以將靜態人物圖片轉換爲動態視頻動畫,通過精確捕捉和再現人體的形狀和動作,創造出既真實又可控的動態視覺內容。
- 3D形狀和姿勢表示:Champ能夠精確地表示和控制人體的形狀和姿勢,可從源視頻中提取的人體幾何和運動特徵更加準確。
- 跨身份動畫生成:Champ能夠將來自一個視頻的運動序列應用到另一個不同身份的參考圖像上,實現跨身份的動畫生成。
- 高質量的視頻生成:Champ在生成視頻時保持了角色和背景之間的一致性,同時通過時間對齊模塊確保幀之間的流暢過渡,從而產生高質量的視頻輸出。
- 與T2I文生圖模型結合:結合根據文本描述生成圖像的T2I文生圖模型,用戶可以通過文本描述指定動畫中的角色外觀和動作,然後Champ根據這些描述再生成動畫視頻。
Champ的工作原理
- 3D人體參數化模型(SMPL):
- 使用SMPL模型來表示人體的形狀和姿勢。SMPL模型是一個基於參數的3D人體模型,能夠捕捉人體的形狀變化和姿勢變化。
- 通過將SMPL模型擬合到參考圖像上,可以獲取人體的形狀參數和姿勢參數。
- 從源視頻中提取運動:
- 利用現有的框架(如4D-Humans)從源視頻中提取人體的運動序列。這些運動序列包括連續的SMPL模型參數,用於描述視頻中人物的動作。
- 生成深度、法線和語義圖:
- 將SMPL模型渲染成深度圖、法線圖和語義圖,這些圖像包含了3D結構、表面方向和人體部位的詳細信息。
- 運動對齊和指導:
- 使用提取的SMPL模型參數來對齊參考圖像中的人物形狀和姿勢,確保動畫中的人物與源視頻中的人物動作一致。
- 引入基於骨架的運動指導,以增強對複雜運動(如面部表情和手指動作)的表示。
- 多層運動融合:
- 通過自注意力機制,將深度、法線、語義和骨架信息的特徵圖進行融合,以生成一個綜合的運動指導信號。
- 潛在擴散模型:
- 利用潛在擴散模型(如Latent Diffusion Model)作爲生成框架,將上述運動指導信號和參考圖像編碼後的特徵結合起來,生成動畫幀。
- 在潛在空間中應用去噪過程,逐步從帶有噪聲的表示中恢復出清晰的動畫幀。
- 訓練和推理:
- 在訓練階段,模型學習如何根據給定的參考圖像和運動指導生成連貫的動畫序列。
- 在推理階段,模型根據新的參考圖像和運動序列生成動畫,展示出其泛化能力。
- 視頻生成:
- 將生成的幀序列組合成視頻,同時確保視頻中的人物與參考圖像在視覺上保持一致,且動作流暢自然。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...