FancyVideo – 360推出的AI文生視頻模型

AI工具1年前 (2024)發佈新公告 AI管理員

9 0 0

FancyVideo是什麼

FancyVideo是360聯合中山大學推出的AI文生視頻模型。基於創新的跨幀文本引導模塊（Cross-frame Textual Guidance Module, CTGM），能根據文本提示生成動態豐富且時間上連貫的視頻內容。FancyVideo突破極大地提升了文本到視頻（Text-to-Video, T2V）生成任務的質量和自然度。FancyVideo是開源的，有豐富的代碼庫和文檔，便於研究者和開發者進一步探索和應用。FancyVideo的官網提供了直觀的演示和使用指南，讓非技術用戶也能快速瞭解其功能和潛力。

FancyVideo的主要功能

文本到視頻生成：用戶只需提供文本描述，FancyVideo能生成視頻內容，實現從文本到動態視覺的轉換。
跨幀文本引導：通過CTGM模塊，模型能在不同幀之間進行動態調整，生成具有連貫性和邏輯性的視頻。
高分辨率視頻輸出：FancyVideo支持生成高分辨率的視頻，滿足高質量視頻內容的需求。
時間一致性保持：視頻中的對象和動作能保持時間上的連貫性，生成的視頻更加自然和逼真。

FancyVideo的技術原理

文本到視頻生成（Text-to-Video Generation）：FancyVideo使用深度學習模型，特別是擴散模型，將文本描述轉換成視頻內容。
跨幀文本引導（Cross-frame Textual Guidance）：通過Cross-frame Textual Guidance Module（CTGM），能在視頻的不同幀之間實現文本的連貫引導，確保視頻內容在時間上的連貫性和動態性。
時間信息注入（Temporal Information Injection）：模型在生成每一幀時，注入與時間相關的信息，確保視頻幀之間的過渡自然且符合文本描述的動態變化。
時間親和度細化（Temporal Affinity Refinement）：使用Temporal Affinity Refiner（TAR）來優化幀特定文本嵌入與視頻之間的時間維度相關性，增強文本引導的邏輯性。
時間特徵增強（Temporal Feature Boosting）：Temporal Feature Booster（TFB）進一步提升潛在特徵的時間一致性，確保視頻在連續播放時的流暢性和穩定性。