PoseTalk – 文本和音頻驅動的生成會說話的頭部動畫開源項目

7 0 0

PoseTalk是什麼

PoseTalk 是基於文本和音頻的姿勢控制和運動細化方法的開源項目，用於一次性生成會說話的頭部視頻。從圖像、驅動音頻和驅動姿勢合成說話人臉視頻，爲用戶提供高效、便捷的頭部動畫生成方式。PoseTalk 的核心在於基於文本提示和音頻線索，在姿勢潛在空間中生成運動潛在，實現自然、逼真的頭部運動效果。通過 Pose Latent Diffusion (PLD) 模型和級聯網絡 CoarseNet 與 RefineNet，實現高質量的脣部同步和頭部姿勢生成，適用於多種應用場景，如虛擬主播、在線教育和社交媒體。

PoseTalk的主要功能

文本和音頻驅動的姿勢生成：PoseTalk 根據文本提示和音頻輸入生成頭部姿勢，反映頭部動作的長期語義和短期變化。
姿勢潛在擴散模型（PLD）：PoseTalk 在姿勢潛在空間中生成運動潛在，實現自然、逼真的頭部運動。
級聯網絡細化策略：基於 CoarseNet 和 RefineNet 兩個級聯網絡，先估計粗略的運動產生新姿勢的動畫圖像，然後細化脣部運動，提高脣部同步性能。
高脣部同步質量：通過運動細化策略，PoseTalk 生成的頭部動畫與音頻高度同步，特別是在口型同步方面表現出色。
多樣化的姿勢生成：用戶通過不同的文本提示來指導 PoseTalk 生成多種姿勢，增加生成動畫的多樣性和可定製性。

PoseTalk的技術原理

Pose Latent Diffusion (PLD) 模型：在神經參數頭部模型的表達空間中工作，捕捉到人頭的精細細節。PLD 模型通過文本和音頻信息轉化爲頭部的姿勢和運動信息，爲後續的動畫生成提供基礎。
級聯網絡細化策略：PoseTalk 使用兩個級聯網絡 CoarseNet 和 RefineNet 來合成自然說話視頻。CoarseNet 負責估計粗略的運動，產生新姿勢的動畫圖像。RefineNet 通過從低到高分辨率逐步估計脣部運動，學習更精細的脣部運動，提高脣部同步性能。
音頻特徵提取：PoseTalk 基於預先訓練的音頻編碼器（如Wave2Vec 2.0 模型）從輸入的音頻信號中提取特徵。音頻特徵與文本信息相結合，共同驅動頭部模型的運動，使生成的頭部動畫能夠與音頻完美同步，實現口型、表情等方面的高度契合。
訓練和推理：在訓練階段，PoseTalk 用變分自編碼器（VAE）學習頭部姿勢和眼動的低維潛在空間。在推理階段，PLD 預測自然的姿勢序列，使用視頻生成模型從音頻特徵和生成的姿勢序列合成逼真的說話視頻。