EMO是什麼
EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院的研究人員開發的框架,一個音頻驅動的AI肖像視頻生成系統,能夠通過輸入單一的參考圖像和語音音頻,生成具有表現力的面部表情和各種頭部姿勢的視頻。該系統能夠捕捉到人類表情的細微差別和個體面部風格的多樣性,從而生成高度逼真和富有表現力的動畫。
EMO的官網入口
- 官方項目主頁:https://humanaigc.github.io/emote-portrait-alive/
- arXiv研究論文:https://arxiv.org/abs/2402.17485
- GitHub:https://github.com/HumanAIGC/EMO(模型和源碼待開源)
EMO的主要特點
- 音頻驅動的視頻生成:EMO能夠根據輸入的音頻(如說話或唱歌)直接生成視頻,無需依賴於預先錄製的視頻片段或3D面部模型。
- 高表現力和逼真度:EMO生成的視頻具有高度的表現力,能夠捕捉並再現人類面部表情的細微差別,包括微妙的微表情,以及與音頻節奏相匹配的頭部運動。
- 無縫幀過渡:EMO確保視頻幀之間的過渡自然流暢,避免了面部扭曲或幀間抖動的問題,從而提高了視頻的整體質量。
- 身份保持:通過FrameEncoding模塊,EMO能夠在視頻生成過程中保持角色身份的一致性,確保角色的外觀與輸入的參考圖像保持一致。
- 穩定的控制機制:EMO採用了速度控制器和麪部區域控制器等穩定控制機制,以增強視頻生成過程中的穩定性,避免視頻崩潰等問題。
- 靈活的視頻時長:EMO可以根據輸入音頻的長度生成任意時長的視頻,爲用戶提供了靈活的創作空間。
- 跨語言和跨風格:EMO的訓練數據集涵蓋了多種語言和風格,包括中文和英文,以及現實主義、動漫和3D風格,這使得EMO能夠適應不同的文化和藝術風格。
EMO的工作原理
- 輸入準備:用戶提供一個參考圖像(通常是目標角色的靜態肖像)和相應的音頻輸入(如說話或唱歌的聲音)。這些輸入將作爲生成視頻的基礎。
- 特徵提取:使用ReferenceNet從參考圖像中提取特徵。ReferenceNet是一個與主網絡(Backbone Network)結構相似的網絡,它專注於從輸入圖像中提取詳細的特徵。
- 音頻處理:音頻輸入通過預訓練的音頻編碼器處理,以提取音頻特徵。這些特徵捕捉了語音的節奏、音調和發音等信息,這些信息將用來驅動視頻中角色的面部表情和頭部動作。
- 擴散過程:在擴散過程中,主網絡接收多幀噪聲作爲輸入,並嘗試在每個時間步驟中將這些噪聲去噪成連續的視頻幀。這個過程涉及到兩個主要的注意力機制:Reference-Attention和Audio-Attention。Reference-Attention用於保持角色身份的一致性,而Audio-Attention則用於調製角色的動作。
- 時間模塊:爲了處理時間維度並調整動作的速度,EMO使用了時間模塊。這些模塊通過自注意力機制在幀內的特徵上操作,以捕捉視頻的動態內容,並確保連續幀之間的連貫性和一致性。
- 面部定位和速度控制:爲了確保生成的角色動作的穩定性和可控性,EMO使用了面部定位器(Face Locator)和速度層(Speed Layers)。面部定位器通過輕量級卷積層編碼面部邊界框區域,而速度層則通過將頭部旋轉速度嵌入到生成過程中來控制動作的速度和頻率。
- 訓練策略:EMO的訓練分爲三個階段:圖像預訓練、視頻訓練和速度層集成。在圖像預訓練階段,主網絡和ReferenceNet從單幀圖像中學習。在視頻訓練階段,引入時間模塊和音頻層,以處理連續幀。最後,在速度層集成階段,只訓練時間模塊和速度層,以確保音頻對角色動作的驅動能力。
- 生成視頻:在推理階段,EMO使用DDIM採樣算法生成視頻片段。通過迭代去噪過程,最終生成與輸入音頻同步的肖像視頻。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...