Follow-Your-Emoji – 騰訊等推出的基於擴散模型的人像動畫框架

2 0 0

Follow-Your-Emoji是什麼

Follow-Your-Emoji是由香港科技大學、騰訊混元和清華大學的研究人員推出的一個基於擴散模型的人像動畫框架，利用擴散模型爲參考肖像添加目標表情序列，實現動態動畫效果。該技術通過表情感知標誌點精確對齊表情與肖像，避免身份信息泄露，同時使用面部精細損失函數強化模型對微妙表情變化的捕捉能力。Follow-Your-Emoji支持多種風格的人像動畫，包括真人、卡通、雕塑甚至動物，展現出高度的控制性和表現力。

Follow-Your-Emoji的功能特色

動態表情同步：利用擴散模型技術，Follow-Your-Emoji能夠將預定義或實時捕獲的表情序列精確同步到靜態參考肖像上，實現如眨眼、微笑、皺眉等複雜表情的動態變化。
身份特徵保持：在動畫化過程中，框架特別設計了機制來確保參考肖像的關鍵身份特徵得以保留，即使在表情變化劇烈時也能防止身份信息的失真或泄露。
誇張表情表現：通過表情感知標誌點技術，框架能夠捕捉並再現誇張的表情動作，例如在卡通或漫畫風格中常見的大幅度瞳孔擴張或收縮，增強動畫的表現力。
多風格適應：Follow-Your-Emoji框架不僅限於現實風格的肖像，還能夠適應並動畫化卡通、雕塑、動物等不同藝術風格和表現形式的肖像，顯示出其廣泛的適用性。
時間連貫性：通過面部精細損失函數，框架在生成每一幀動畫時都考慮到了與前後幀的連貫性，確保整個動畫序列在時間上的自然過渡和流暢表現。
長期動畫生成：採用漸進式生成策略，Follow-Your-Emoji能夠生成不僅在短期內連貫，而且在長期播放中也能保持穩定性和高質量的動畫效果。
高度控制性：用戶可以細緻地控制表情序列，從而對動畫輸出進行精確調整，允許用戶根據特定需求定製動畫效果，實現個性化創作。

Follow-Your-Emoji的官網入口

官方項目主頁：https://follow-your-emoji.github.io/
arXiv技術論文：https://arxiv.org/abs/2406.01900

Follow-Your-Emoji的技術原理

Follow-Your-Emoji – 騰訊等推出的基於擴散模型的人像動畫框架

基於擴散模型的框架：使用擴散模型（Stable Diffusion）作爲基礎，這是一種先進的深度學習模型，能夠生成高質量的圖像和視頻內容。
表情感知標誌點（Expression-Aware Landmark）：利用MediaPipe等工具從動態視頻中提取3D關鍵點，然後將其投影到2D平面，形成用於指導動畫過程的表情感知標誌點。這些標誌點特別關注於表情變化的關鍵區域，如眼睛（瞳孔點）和嘴巴，以實現更精確的表情同步。
面部精細損失（Facial Fine-Grained Loss Function）：引入一種新的損失函數，通過面部遮罩和表情遮罩來指導模型在訓練過程中更加關注面部表情的細節。該損失函數通過計算預測結果與真實結果在遮罩區域內的差異，幫助模型學習如何更好地捕捉微妙的表情變化。
多風格適應性：框架設計爲能夠適應不同風格的肖像，無論是真人、卡通、雕塑還是動物，都能夠實現自然的動畫效果。
漸進式生成策略：爲了生成長期動畫，採用從粗糙到精細的漸進式生成策略，首先生成關鍵幀，然後通過插值生成中間幀，以保持動畫的連貫性和穩定性。
時間注意力機制：在UNet網絡中加入時間注意力層，以保持動畫幀之間的時間一致性和動態連貫性。
預訓練與微調：使用大量的表達訓練數據集對模型進行預訓練，然後針對特定的動畫任務進行微調，以提高模型的表現力和準確性。
數據集和基準建設：團隊構建了EmojiBench基準，包含多種風格和表情的肖像視頻，用於評估和驗證模型的性能。
推理與動畫生成：在推理階段，模型結合表情感知標誌點和時間注意力機制，生成動態的肖像動畫，同時保持參考肖像的身份特徵。
用戶控制與定製：用戶可以通過提供不同的輸入表情序列來控制動畫的輸出，實現高度定製化的動畫效果。