VideoPoet – 谷歌推出的AI視頻生成模型

AI工具2年前 (2024)發佈新公告 AI管理員

67 0 0

VideoPoet是什麼

VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案，支持從文本、圖像或視頻輸入中合成高質量的視頻內容，並生成匹配的音頻。VideoPoet的核心優勢在於其多模態大模型的設計，可以處理和轉換不同類型的輸入信號，無需特定數據集或擴散模型，就能夠實現多種風格和動作的視頻輸出，支持生成時長10秒的視頻。

VideoPoet - 谷歌推出的AI視頻生成模型

VideoPoet的官網入口

官方項目主頁：http://sites.research.google/videopoet/
Arxiv研究論文：https://arxiv.org/pdf/2312.14125.pdf

VideoPoet的主要功能

文本到視頻轉換：VideoPoet能夠根據文本描述生成相應的視頻內容。用戶可以輸入一段描述，然後模型便會生成與描述相符的視頻片段。
圖像到視頻動畫：除了文本，VideoPoet還可以根據靜態圖像生成動畫。例如，用戶可以上傳一張圖片，然後模型會將其轉換成動態的視頻。
視頻風格化：VideoPoet能夠改變現有視頻的風格，如將視頻轉換成油畫風格、卡通風格或其他藝術形式。
視頻編輯和擴展：模型支持對視頻進行編輯，如改變視頻中物體的動作或添加新的元素。此外，它還能夠擴展視頻內容，生成更長的視頻片段。
視頻到音頻轉換：VideoPoet 還可以從視頻中生成音頻，意味着它可以爲無聲視頻配上音效或音樂。
多模態學習：VideoPoet 支持跨模態學習，能夠在視頻、圖像、音頻和文本之間進行學習和轉換，實現更復雜的創作任務。

VideoPoet - 谷歌推出的AI視頻生成模型

VideoPoet的技術原理

多模態輸入處理：VideoPoet能夠接收和處理不同類型的輸入信號，如圖像、視頻幀、文本和音頻波形。這些輸入通過特定的分詞器（tokenizers）轉換爲離散的標記（tokens），然後被模型處理。
解碼器架構：VideoPoet採用瞭解碼器（decoder-only）的Transformer架構。該架構通常用於自然語言處理（NLP）任務，但在VideoPoet中被擴展到視頻生成任務。解碼器能夠根據輸入的標記序列預測輸出序列，這在視頻生成中意味着能夠生成連續的視頻幀。
預訓練與任務適應：VideoPoet的訓練分爲兩個階段。在預訓練階段，模型通過多種多模態生成目標在自迴歸變換器框架內進行訓練。這爲模型提供了一個強大的基礎，可以適應各種視頻生成任務。在任務適應階段，預訓練的模型可以進一步微調，以提高特定任務的生成質量或執行新任務。
多模態詞彙表：爲了處理不同類型的輸入，VideoPoet構建了一個統一的多模態詞彙表。這個詞彙表包含了圖像、視頻和音頻的標記，使得模型能夠理解和生成跨模態內容。
自迴歸生成：VideoPoet在生成視頻時採用自迴歸方法，這意味着模型在生成每一幀時都會考慮到之前所有幀的信息。這種方法有助於保持視頻內容的連貫性和一致性。
超分辨率模塊：爲了提高視頻輸出的分辨率和質量，VideoPoet引入了一個專門的空間超分辨率（SR）變換器模塊。這個模塊在語言模型輸出的基礎上工作，通過局部窗口注意力機制來提高計算效率，並生成更高分辨率的視頻。
零樣本視頻生成：VideoPoet展示了在沒有見過特定輸入數據分佈的情況下處理新文本、圖像或視頻輸入的能力，這被稱爲零樣本視頻生成。這表明模型具有很強的泛化能力。
任務鏈式處理：由於VideoPoet在預訓練階段學習了多種任務，它能夠將這些任務鏈式組合起來，執行新的、在訓練中未明確教授的任務，如視頻編輯和風格化。