Mora – 微軟等推出的可生成12秒視頻的多AI智能體框架

AI工具2年前 (2024)發佈新公告 AI管理員

15 0 0

Mora是什麼

Mora是由來自微軟和理海大學的研究人員推出的一個多智能體（AI Agents）框架，專門用於通用視頻生成任務，目標是模擬並擴展OpenAI的Sora視頻生成模型。該框架的核心理念是通過多個視覺智能體的協作來生成高質量的視頻內容，Mora通過分解視頻生成過程爲多個子任務，併爲每個子任務分配一個專門的智能體，從而實現了各種視頻生成的功能。

Mora - 微軟等推出的可生成12秒視頻的多AI智能體框架

根據論文中的實驗結果顯示，Mora在生成高分辨率（1024×576）且時間持續12秒的視頻方面表現出色，總共包含75幀。但當涉及大量物體運動的場景時，Mora與Sora相比存在顯著的性能差距。此外，嘗試生成超過12秒的視頻會導致視頻質量顯著下降。

Mora的主要功能

文本到視頻生成：Mora可以根據用戶提供的文本描述自動生成相應的視頻內容，能適用於從簡單的場景描述到複雜故事情節的視頻創作。
圖像到視頻生成：除了直接從文本生成視頻，Mora還能夠結合用戶提供的初始圖像和文本提示，生成與之相匹配的視頻序列，增強內容的豐富性和細節。
擴展生成視頻：Mora不僅可以從頭開始生成視頻，還能夠對現有的視頻內容進行擴展和編輯，增加新的元素或延長視頻的持續時間。
視頻到視頻編輯：Mora具備高級編輯功能，能夠根據用戶的文本指令對視頻進行編輯，如改變場景、調整對象屬性或添加新元素。
連接視頻：Mora能夠將兩個或多個視頻片段無縫連接起來，創造出流暢的過渡效果，適用於製作視頻合集或剪輯。
模擬數字世界：Mora還能夠創建和模擬數字世界，可根據文本描述創造出具有數字世界風格的視頻序列，如遊戲場景或虛擬環境。

Mora的官網入口

GitHub地址：https://github.com/lichao-sun/Mora（源碼和模型待開源）
arXiv研究論文：http://arxiv.org/abs/2403.13248

Mora的工作原理

Mora的工作原理基於一個多智能體框架，該框架通過協同多個專門化的AI智能體來完成視頻生成任務。每個智能體都負責處理特定的子任務，這些子任務共同構成了完整的視頻生成流程。

Mora - 微軟等推出的可生成12秒視頻的多AI智能體框架

以下是Mora工作流程的詳細步驟：

任務分解：Mora將複雜的視頻生成任務分解爲多個子任務，每個子任務都由一個專門的智能體來處理。
智能體角色定義：Mora定義了以下五種基本角色的智能體：
- 提示選擇與生成智能體：使用大型語言模型（如GPT-4或Llama）來優化和選擇文本提示，以提高生成圖像的相關性和質量。
- 文本到圖像生成智能體：將文本提示轉換爲高質量的初始圖像。
- 圖像到圖像生成智能體：根據文本指令修改給定的源圖像。
- 圖像到視頻生成智能體：將靜態圖像轉換成動態視頻序列。
- 視頻連接智能體：基於兩個輸入視頻創建平滑過渡的視頻。
工作流程：Mora根據任務需求，自動組織智能體按照特定的順序執行子任務。例如，文本到視頻的生成任務可能包括以下步驟：
- 首先，提示選擇與生成智能體處理文本提示。
- 接着，文本到圖像生成智能體根據優化後的文本提示生成初始圖像。
- 然後，圖像到視頻生成智能體將初始圖像轉換成視頻序列。
- 最後，如果需要，視頻連接智能體可以將多個視頻片段連接成一個連貫的視頻。
多智能體協作：智能體之間通過預定義的接口和協議進行通信和協作，確保整個視頻生成過程的連貫性和一致性。
生成與評估：每個智能體完成其子任務後，會將結果傳遞給下一個智能體，直至完成整個視頻生成流程。生成的視頻可以根據預定義的評估標準進行質量評估。
迭代與優化：Mora框架允許通過迭代和優化來改進視頻生成的質量。智能體可以根據反饋調整其參數，以提高生成視頻的質量和與文本提示的一致性。