VideoPoet – 谷歌推出的AI視頻生成模型

AI工具9個月前發佈新公告 AI管理員
4 0

VideoPoet是什麼

VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻。VideoPoet的核心優勢在於其多模態大模型的設計,可以處理和轉換不同類型的輸入信號,無需特定數據集或擴散模型,就能夠實現多種風格和動作的視頻輸出,支持生成時長10秒的視頻。

VideoPoet - 谷歌推出的AI視頻生成模型

VideoPoet的官網入口

  • 官方項目主頁:http://sites.research.google/videopoet/
  • Arxiv研究論文:https://arxiv.org/pdf/2312.14125.pdf

VideoPoet的主要功能

  • 文本到視頻轉換:VideoPoet能夠根據文本描述生成相應的視頻內容。用戶可以輸入一段描述,然後模型便會生成與描述相符的視頻片段。
  • 圖像到視頻動畫:除了文本,VideoPoet還可以根據靜態圖像生成動畫。例如,用戶可以上傳一張圖片,然後模型會將其轉換成動態的視頻。
  • 視頻風格化:VideoPoet能夠改變現有視頻的風格,如將視頻轉換成油畫風格、卡通風格或其他藝術形式。
  • 視頻編輯和擴展:模型支持對視頻進行編輯,如改變視頻中物體的動作或添加新的元素。此外,它還能夠擴展視頻內容,生成更長的視頻片段。
  • 視頻到音頻轉換:VideoPoet 還可以從視頻中生成音頻,意味着它可以爲無聲視頻配上音效或音樂。
  • 多模態學習:VideoPoet 支持跨模態學習,能夠在視頻、圖像、音頻和文本之間進行學習和轉換,實現更復雜的創作任務。

VideoPoet - 谷歌推出的AI視頻生成模型

VideoPoet的技術原理

  • 多模態輸入處理:VideoPoet能夠接收和處理不同類型的輸入信號,如圖像、視頻幀、文本和音頻波形。這些輸入通過特定的分詞器(tokenizers)轉換爲離散的標記(tokens),然後被模型處理。
  • 解碼器架構:VideoPoet採用瞭解碼器(decoder-only)的Transformer架構。該架構通常用於自然語言處理(NLP)任務,但在VideoPoet中被擴展到視頻生成任務。解碼器能夠根據輸入的標記序列預測輸出序列,這在視頻生成中意味着能夠生成連續的視頻幀。
  • 預訓練與任務適應:VideoPoet的訓練分爲兩個階段。在預訓練階段,模型通過多種多模態生成目標在自迴歸變換器框架內進行訓練。這爲模型提供了一個強大的基礎,可以適應各種視頻生成任務。在任務適應階段,預訓練的模型可以進一步微調,以提高特定任務的生成質量或執行新任務。
  • 多模態詞彙表:爲了處理不同類型的輸入,VideoPoet構建了一個統一的多模態詞彙表。這個詞彙表包含了圖像、視頻和音頻的標記,使得模型能夠理解和生成跨模態內容。
  • 自迴歸生成:VideoPoet在生成視頻時採用自迴歸方法,這意味着模型在生成每一幀時都會考慮到之前所有幀的信息。這種方法有助於保持視頻內容的連貫性和一致性。
  • 超分辨率模塊:爲了提高視頻輸出的分辨率和質量,VideoPoet引入了一個專門的空間超分辨率(SR)變換器模塊。這個模塊在語言模型輸出的基礎上工作,通過局部窗口注意力機制來提高計算效率,並生成更高分辨率的視頻。
  • 零樣本視頻生成:VideoPoet展示了在沒有見過特定輸入數據分佈的情況下處理新文本、圖像或視頻輸入的能力,這被稱爲零樣本視頻生成。這表明模型具有很強的泛化能力。
  • 任務鏈式處理:由於VideoPoet在預訓練階段學習了多種任務,它能夠將這些任務鏈式組合起來,執行新的、在訓練中未明確教授的任務,如視頻編輯和風格化。
© 版權聲明

相關文章

暫無評論

暫無評論...