LivePortrait – 快手推出的開源人像動畫生成框架

AI項目和框架2個月前發佈新公告 AI管理員
3 0

LivePortrait是什麼

LivePortrait是快手推出的開源人像動畫生成框架,專注於高效、可控地將驅動視頻的表情和姿態遷移至靜態或動態人像,創造出富有表現力的視頻。該技術通過隱式關鍵點框架實現,利用大規模高質量訓練數據和混合訓練策略,提升了模型的泛化能力和動作控制精度。LivePortrait在RTX 4090 GPU上的單幀生成速度極快,達到12.8毫秒,且具有進一步優化潛力。開源社區對其反響熱烈,LivePortrait的GitHub頁面提供了詳細的使用指南和資源。

LivePortrait – 快手推出的開源人像動畫生成框架

LivePortrait的主要功能

  • 表情和姿態遷移:LivePortrait能夠將驅動視頻中的表情和姿態實時遷移到靜態或動態人像上,生成具有豐富表情的視頻。
  • 高效率:該框架在RTX 4090 GPU上單幀生成速度可達12.8毫秒,展現出極高的處理速度。
  • 泛化能力:通過視頻-圖片混合訓練策略和大規模高質量訓練數據,LivePortrait具備良好的泛化性,能夠適應不同風格和身份的人像。
  • 可控性:利用隱式關鍵點和輕量級MLP網絡,LivePortrait增強了對動畫生成過程的控制能力。
  • 多風格支持:LivePortrait能夠處理多種風格的人像,包括真人和風格化(如動漫)人像。
  • 高分辨率動畫生成:LivePortrait支持生成高分辨率的動畫,提供更清晰的視覺效果。
  • 貼合和重定向模塊:設計了貼合模塊和眼部、嘴部重定向模塊,以適應裁切、多人合照等複雜場景,避免像素錯位。

LivePortrait的技術原理

  • 基礎模型訓練:在第一階段,主要對外觀提取器、運動提取器、扭曲模塊和解碼器進行優化,模型都是從頭開始訓練的。
  • 拼接和重定向模塊訓練:在第一階段訓練好基礎模型後,會凍結外觀提取器、運動提取器、扭曲模塊和解碼器,在第二階段保持不變。在第二階段,僅對拼接模塊和重定向模塊進行優化。
  • 視頻-圖像混合訓練:LivePortrait 將每張圖片視爲一幀視頻片段,並同時在視頻和圖片上訓練模型,提升模型的泛化能力。
  • 升級的網絡結構:LivePortrait 將規範隱式關鍵點估計網絡、頭部姿態估計網絡和表情變形估計網絡統一爲一個單一模型,並採用ConvNeXt-V2-Tiny爲其結構,直接估計輸入圖片的規範隱式關鍵點、頭部姿態和表情變形。
  • 關鍵點引導的隱式關鍵點優化:引入2D關鍵點來捕捉微表情,用關鍵點引導的損失作爲隱式關鍵點優化的引導。
  • 級聯損失函數:採用face vid2vid的隱式關鍵點不變損失、關鍵點先驗損失、頭部姿態損失和變形先驗損失,並施加感知和GAN損失,提升紋理質量。

LivePortrait – 快手推出的開源人像動畫生成框架

LivePortrait的項目地址

  • 項目官網:https://liveportrait.github.io/
  • GitHub倉庫:https://github.com/KwaiVGI/LivePortrait
  • Hugging Face模型庫:https://huggingface.co/spaces/KwaiVGI/LivePortrait
  • arXiv技術論文:https://arxiv.org/pdf/2407.03168

LivePortrait的應用場景

  • 社交媒體內容創作:用戶可將自己的照片或視頻轉換成動態內容,用於社交媒體平台,增加互動性和吸引力。
  • 虛擬主播和直播:用LivePortrait技術,可以創建虛擬形象進行直播或視頻製作,無需真人出鏡,適用於遊戲直播、教育講解等場景。
  • 影視和動畫製作:在影視後期製作中,LivePortrait可用於角色的表情捕捉和動畫生成,提高製作效率,降低成本。
  • 廣告和營銷:企業可以用LivePortrait技術製作吸引人的廣告視頻,動態的人物形象來吸引潛在客戶的注意力。
© 版權聲明

相關文章

暫無評論

暫無評論...