MIMO – 阿里智能研究院推出的可控角色AI視頻合成框架

AI工具2個月前發佈新公告 AI管理員
4 0

MIMO是什麼

MIMO是阿里巴巴集團智能計算研究所推出的可控角色視頻合成的新型AI框架,基於空間分解建模技術,將2D視頻轉換爲3D空間代碼,實現對角色、動作和場景的精確控制。MIMO能處理任意角色的合成,適應新穎的3D動作,並與真實世界場景交互。MIMO的核心在於將視頻分解爲主要人物、底層場景和浮動遮擋三個部分,然後分別編碼爲身份代碼、運動代碼和場景代碼,用於合成過程的控制信號。不僅提高了合成視頻的真實感,還增強了用戶對視頻內容的控制能力。

MIMO – 阿里智能研究院推出的可控角色AI視頻合成框架

MIMO的主要功能

  • 可控角色合成:用戶通過提供簡單的輸入控制視頻中角色的外觀。
  • 動作控制:MIMO能根據提供的姿勢序列合成角色的動作,包括複雜的3D動作。
  • 場景交互:將角色自然地融入到真實世界的場景中,包括處理遮擋和物體交互。
  • 空間分解建模:將視頻分解爲不同的空間組件,包括主要人物、底層場景和浮動遮擋。
  • 3D感知合成:基於3D表示提高合成視頻的真實感和深度感知。
  • 靈活的用戶控制:用戶自由組合不同的潛在代碼控制視頻合成的各個方面。
  • 任意角色的可擴展性:MIMO能合成任意角色,不僅限於訓練數據集中的角色。

MIMO的技術原理

  • 3D深度估計:用單目深度估計器將2D視頻幀轉換成3D空間中的表示。
  • 空間分解:基於估計的3D深度信息,將視頻分解爲三個主要的空間組件:
    • 主要人物:視頻中的核心對象。
    • 底層場景:視頻的背景部分。
    • 浮動遮擋:視頻中的前景物體,如會遮擋主體的物體。
  • 組件編碼:將上述空間組件進一步編碼爲不同的代碼:
    • 身份代碼:表示角色的視覺身份。
    • 運動代碼:表示角色的動作和姿態。
    • 場景代碼:表示視頻的背景場景信息。
  • 結構化運動表示:用變形的人體模型(如SMPL)表示和編碼人物的動作,允許更精確地捕捉複雜的3D運動。
  • 規範身份表示:將角色轉換到一個規範的姿勢(如A-pose)解耦身份和動作,使身份表示與動作無關。
  • 場景和遮擋編碼:用共享的變分自編碼器(VAE)編碼場景和遮擋組件,然後重新組織爲完整的場景代碼。

MIMO的項目地址

  • 項目官網:menyifang.github.io/projects/MIMO/index.html
  • GitHub倉庫:https://github.com/menyifang/MIMO
  • arXiv技術論文:https://arxiv.org/pdf/2409.16160

MIMO的應用場景

  • 電影和視頻製作:快速生成動畫角色的表演,減少特效和動畫製作的成本和時間。
  • 遊戲開發:爲遊戲角色創建逼真的動作和交互,提升遊戲體驗。
  • 虛擬現實(VR):在虛擬環境中創建與用戶互動的動態角色,增強沉浸感。
  • 增強現實(AR):在現實世界中疊加虛擬角色和對象,用於教育、娛樂或導航。
  • 社交媒體和娛樂:允許用戶創建和分享具有個性化動作和場景的虛擬角色視頻。
  • 廣告和營銷:製作吸引人的動態廣告,其中角色根據目標受衆進行定製。
  • 教育和培訓:創建模擬場景和角色,用於教育目的,如歷史重現或語言學習。
© 版權聲明

相關文章

暫無評論

暫無評論...