MIMO – 阿里智能研究院推出的可控角色AI視頻合成框架

51 0 0

MIMO是什麼

MIMO是阿里巴巴集團智能計算研究所推出的可控角色視頻合成的新型AI框架，基於空間分解建模技術，將2D視頻轉換爲3D空間代碼，實現對角色、動作和場景的精確控制。MIMO能處理任意角色的合成，適應新穎的3D動作，並與真實世界場景交互。MIMO的核心在於將視頻分解爲主要人物、底層場景和浮動遮擋三個部分，然後分別編碼爲身份代碼、運動代碼和場景代碼，用於合成過程的控制信號。不僅提高了合成視頻的真實感，還增強了用戶對視頻內容的控制能力。

MIMO的主要功能

可控角色合成：用戶通過提供簡單的輸入控制視頻中角色的外觀。
動作控制：MIMO能根據提供的姿勢序列合成角色的動作，包括複雜的3D動作。
場景交互：將角色自然地融入到真實世界的場景中，包括處理遮擋和物體交互。
空間分解建模：將視頻分解爲不同的空間組件，包括主要人物、底層場景和浮動遮擋。
3D感知合成：基於3D表示提高合成視頻的真實感和深度感知。
靈活的用戶控制：用戶自由組合不同的潛在代碼控制視頻合成的各個方面。
任意角色的可擴展性：MIMO能合成任意角色，不僅限於訓練數據集中的角色。

MIMO的技術原理

3D深度估計：用單目深度估計器將2D視頻幀轉換成3D空間中的表示。
空間分解：基於估計的3D深度信息，將視頻分解爲三個主要的空間組件：
- 主要人物：視頻中的核心對象。
- 底層場景：視頻的背景部分。
- 浮動遮擋：視頻中的前景物體，如會遮擋主體的物體。
組件編碼：將上述空間組件進一步編碼爲不同的代碼：
- 身份代碼：表示角色的視覺身份。
- 運動代碼：表示角色的動作和姿態。
- 場景代碼：表示視頻的背景場景信息。
結構化運動表示：用變形的人體模型（如SMPL）表示和編碼人物的動作，允許更精確地捕捉複雜的3D運動。
規範身份表示：將角色轉換到一個規範的姿勢（如A-pose）解耦身份和動作，使身份表示與動作無關。
場景和遮擋編碼：用共享的變分自編碼器（VAE）編碼場景和遮擋組件，然後重新組織爲完整的場景代碼。