ID-Animator是什麼
ID-Animator是由來自騰訊光子工作室、中科大和中科院合肥物質科學研究院的研究人員推出的一種零樣本(zero-shot)人類視頻生成技術,能夠根據單張參考面部圖像生成個性化視頻,同時保留圖像中的人物身份特徵,並能夠根據文本提示調整視頻內容。該框架通過結合預訓練的文本到視頻擴散模型和輕量級面部適配器,實現了高效的視頻生成,且無需針對特定身份進行額外的訓練。ID-Animator通過構建專門的數據集和採用隨機面部參考訓練方法,提高了視頻的身份保真度和生成質量。
ID-Animator的主要功能
- 修改視頻角色(Recontextualization): ID-Animator能夠根據提供的參考圖像和文本,改變視頻中角色的上下文信息。例如,可以通過文本提示調整角色的髮型、服裝、背景,甚至執行特定動作,從而創造出全新的角色背景故事。
- 年齡和性別修改(Age and Gender Alteration): 該模型能夠根據需要對視頻中角色的年齡和性別進行調整,以適應不同的視頻內容和風格需求。如生成年輕人像變老、男生變女生的視頻。
- 身份混合(Identity Mixing): ID-Animator能夠混合兩個不同身份的特徵,按照不同的比例生成具有綜合特徵的視頻,這在創造新的角色或混合現實中的人物特徵時非常有用。
- 與ControlNet的結合: ID-Animator可與ControlNet等現有精細條件模塊兼容,通過提供單幀或多幀控制圖像,可以生成與控制圖像緊密結合的視頻序列,這在生成特定動作或場景的視頻時非常有用。
- 社區模型集成: ID-Animator還能夠與社區模型(如Civitai上的模型)集成,即使沒有在這些模型上進行過訓練,也能有效地工作,保持了面部特徵和動態生成的穩定性。
ID-Animator的官網入口
- 官方項目主頁:https://id-animator.github.io/
- arXiv研究論文:https://arxiv.org/abs/2404.15275
- GitHub源代碼:https://github.com/ID-Animator/ID-Animator
ID-Animator的工作原理
- 預訓練的文本到視頻擴散模型:ID-Animator使用一個預訓練的文本到視頻(Text-to-Video, T2V)擴散模型作爲基礎,該模型能夠根據文本提示生成視頻內容。
- 面部適配器(Face Adapter):爲了生成與特定身份一致的視頻,ID-Animator引入了一個輕量級的面部適配器。這個適配器通過學習面部潛在查詢來編碼與身份相關的嵌入信息。
- 身份導向的數據集構建:研究者構建了一個面向身份的數據集,這包括解耦的人類屬性和動作字幕技術,以及從構建的面部圖像池中提取的面部特徵。
- 隨機面部參考訓練方法:ID-Animator採用隨機採樣的面部圖像進行訓練,這種方法有助於將與身份無關的圖像內容與與身份相關的面部特徵分離,從而使適配器能夠專注於學習與身份相關的特徵。
- 文本和麪部特徵的融合:ID-Animator將文本特徵和麪部特徵結合在一起,通過注意力機制(Attention Mechanism)進行融合,以生成既符合文本描述又保留身份特徵的視頻。
- 生成過程:在生成視頻時,ID-Animator首先接收一個參考面部圖像和相應的文本提示。面部適配器將參考圖像的特徵編碼爲嵌入,然後將這些嵌入與文本特徵一起輸入到擴散模型中,最終生成視頻。
- 優化和訓練:爲了提高模型的性能,ID-Animator的訓練過程包括使用隨機面部圖像作爲參考,以減少參考圖像中與身份無關特徵的影響,並通過分類器自由引導(Classifier-Free Guidance)等技術優化視頻生成質量。
- 兼容性和擴展性:ID-Animator設計爲與多種預訓練的T2V模型兼容,如AnimateDiff,這使得它可以輕鬆地集成到現有的系統中,並在不同的應用中進行擴展。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...