MimicMotion – 騰訊推出的AI人像動態視頻生成框架

AI工具1年前 (2024)更新 AI管理員

12 0 0

MimicMotion是什麼

MimicMotion是騰訊的研究人員推出的一個高質量的人類動作視頻生成框架，利用置信度感知的姿態引導技術，確保視頻幀的高質量和時間上的平滑過渡。此外，MimicMotion通過區域損失放大和手部區域增強，顯著減少了圖像失真，提升了人像手部動作的細節表現。該框架還能通過漸進式潛在融合策略生成長視頻，能夠生成高質量、長時間且符合特定動作指導的人類動作視頻，同時顯著提高了視頻生成的控制性和細節豐富度。

MimicMotion的功能特點

生成多樣化視頻：MimicMotion能夠根據用戶提供的姿態指導生成各種動作的視頻內容。無論是舞蹈、運動還是日常活動，只要提供相應的姿態序列，MimicMotion都能夠創造出相應的動態視頻。
控制視頻長度：用戶可以根據自己的需求指定視頻的持續時間，MimicMotion能夠生成從幾秒鐘的短片段到幾分鐘甚至更長的完整視頻，提供靈活性以適應不同的應用場景。
姿態引導控制：框架使用參考姿態作爲條件，確保生成的視頻內容在動作上與指定的姿態保持一致。MimicMotion允許用戶對視頻的動作進行精確控制，實現高度定製化的視頻生成。
細節質量保證：MimicMotion特別關注視頻中的細節，尤其是手部等容易失真的區域。通過置信度感知的策略，系統能夠在這些區域提供更清晰的視覺效果。
時間平滑性：爲了提供更自然的觀看體驗，MimicMotion確保視頻幀之間的過渡平滑，避免出現卡頓或不連貫的現象，使得視頻看起來更加流暢自然。
減少圖像失真：通過置信度感知的姿態引導，MimicMotion能夠識別並減少由於姿態估計不準確導致的圖像失真，尤其是在人物手部區域。
長視頻生成：MimicMotion採用漸進式潛在融合技術，允許系統在生成長視頻時保持高時間連貫性。該技術通過在視頻段之間融合潛在特徵，有效避免了閃爍和不連貫現象。
資源消耗控制：在生成視頻時，MimicMotion優化算法以確保資源消耗保持在合理範圍內。即使在生成較長視頻時，也能有效地管理計算資源，避免過高的成本。

MimicMotion – 騰訊推出的AI人像動態視頻生成框架

MimicMotion的官網入口

官方項目主頁：https://tencent.github.io/MimicMotion/
GitHub源代碼庫：https://github.com/Tencent/MimicMotion
arXiv技術論文：https://arxiv.org/abs/2406.19680

MimicMotion的技術原理

MimicMotion – 騰訊推出的AI人像動態視頻生成框架

姿態引導的視頻生成：MimicMotion利用用戶提供的姿態序列作爲輸入條件，引導視頻內容的生成，允許模型根據姿態的變化合成相應的動作。
置信度感知的姿態指導：框架引入了置信度的概念，通過分析姿態估計模型提供的置信度分數，對姿態序列中的每個關鍵點進行加權。這樣，模型可以更加信賴那些置信度高的關鍵點，減少不準確姿態估計對生成結果的影響。
區域損失放大：特別針對手部等容易失真的區域，MimicMotion通過提高這些區域在損失函數中的權重，增強模型對這些區域的訓練，從而提高生成視頻的手部細節質量。
潛在擴散模型：MimicMotion使用潛在擴散模型來提高生成效率和質量，模型通過在低維潛在空間中進行擴散過程，而不是直接在像素空間操作，從而減少了計算成本。
漸進式潛在融合：爲了生成長視頻，MimicMotion採用了一種漸進式潛在融合策略。在視頻段之間，通過逐步融合重疊幀的潛在特徵，實現了視頻段之間的平滑過渡，避免了生成長視頻時可能出現的閃爍和不連貫現象。
預訓練模型的利用：MimicMotion基於一個預訓練的視頻生成模型（如Stable Video Diffusion, SVD），減少了從頭開始訓練模型所需的數據量和計算資源。
U-Net和PoseNet的結構：MimicMotion的模型結構包括一個用於空間時間交互的U-Net和一個用於提取姿態序列特徵的PoseNet。這些網絡結構共同工作，以實現高質量的視頻生成。
跨幀平滑性：MimicMotion在生成過程中考慮了幀之間的時間關係，確保了視頻幀之間的連貫性和平滑性。