LivePortrait – 快手推出的開源人像動畫生成框架

61 0 0

LivePortrait是什麼

LivePortrait是快手推出的開源人像動畫生成框架，專注於高效、可控地將驅動視頻的表情和姿態遷移至靜態或動態人像，創造出富有表現力的視頻。該技術通過隱式關鍵點框架實現，利用大規模高質量訓練數據和混合訓練策略，提升了模型的泛化能力和動作控制精度。LivePortrait在RTX 4090 GPU上的單幀生成速度極快，達到12.8毫秒，且具有進一步優化潛力。開源社區對其反響熱烈，LivePortrait的GitHub頁面提供了詳細的使用指南和資源。

LivePortrait的主要功能

表情和姿態遷移：LivePortrait能夠將驅動視頻中的表情和姿態實時遷移到靜態或動態人像上，生成具有豐富表情的視頻。
高效率：該框架在RTX 4090 GPU上單幀生成速度可達12.8毫秒，展現出極高的處理速度。
泛化能力：通過視頻-圖片混合訓練策略和大規模高質量訓練數據，LivePortrait具備良好的泛化性，能夠適應不同風格和身份的人像。
可控性：利用隱式關鍵點和輕量級MLP網絡，LivePortrait增強了對動畫生成過程的控制能力。
多風格支持：LivePortrait能夠處理多種風格的人像，包括真人和風格化（如動漫）人像。
高分辨率動畫生成：LivePortrait支持生成高分辨率的動畫，提供更清晰的視覺效果。
貼合和重定向模塊：設計了貼合模塊和眼部、嘴部重定向模塊，以適應裁切、多人合照等複雜場景，避免像素錯位。

LivePortrait的技術原理

基礎模型訓練：在第一階段，主要對外觀提取器、運動提取器、扭曲模塊和解碼器進行優化，模型都是從頭開始訓練的。
拼接和重定向模塊訓練：在第一階段訓練好基礎模型後，會凍結外觀提取器、運動提取器、扭曲模塊和解碼器，在第二階段保持不變。在第二階段，僅對拼接模塊和重定向模塊進行優化。
視頻-圖像混合訓練：LivePortrait 將每張圖片視爲一幀視頻片段，並同時在視頻和圖片上訓練模型，提升模型的泛化能力。
升級的網絡結構：LivePortrait 將規範隱式關鍵點估計網絡、頭部姿態估計網絡和表情變形估計網絡統一爲一個單一模型，並採用ConvNeXt-V2-Tiny爲其結構，直接估計輸入圖片的規範隱式關鍵點、頭部姿態和表情變形。
關鍵點引導的隱式關鍵點優化：引入2D關鍵點來捕捉微表情，用關鍵點引導的損失作爲隱式關鍵點優化的引導。
級聯損失函數：採用face vid2vid的隱式關鍵點不變損失、關鍵點先驗損失、頭部姿態損失和變形先驗損失，並施加感知和GAN損失，提升紋理質量。

LivePortrait – 快手推出的開源人像動畫生成框架