Vidu – 生數科技發佈的視頻大模型，可生成16秒1080P的視頻

AI工具2年前 (2024)發佈新公告 AI管理員

66 0 0

Vidu是什麼

Vidu是中國首個長時長、高一致性、高動態性的視頻大模型，由生數科技與清華大學聯合開發。該AI視頻生成模型採用原創的U-ViT架構，結合Diffusion與Transformer技術，能夠一鍵生成長達16秒、1080P分辨率的高清視頻。Vidu能模擬真實物理世界，具備豐富的想象力，支持多鏡頭生成，保持時空一致性，效果接近Sora，代表了中國在視頻大模型領域的技術突破。

Vidu - 生數科技發佈的視頻大模型，可生成16秒1080P的視頻

Vidu的主要功能

文本到視頻生成：用戶可以通過輸入簡單的文本提示，快速生成長達16秒的高清視頻內容，大大降低了視頻製作的技術門檻，使得非專業用戶也能輕鬆製作出高質量的視頻。
高分辨率輸出：Vidu支持生成分辨率高達1080P的視頻，生成的視頻具有非常清晰的畫質，適合在各種高清顯示設備上播放。
多鏡頭生成能力：Vidu支持同時生成多個鏡頭視角的視頻，能夠製作出類似於電影或電視劇中常見的多鏡頭切換效果，增加了視頻的動態感和觀賞性。
模擬真實世界：Vidu能夠模擬真實世界的物理特性，如物體的運動、光影的變化等，使得生成的視頻內容更加逼真。
保持時空一致性：在生成多鏡頭視頻時，Vidu能夠保證不同鏡頭之間的時空關係是連貫的，避免了不同鏡頭之間出現時空錯亂的情況。
豐富的想象力：除了模擬現實世界，Vidu還具備豐富的想象力，能夠創造出新穎的視頻內容，滿足用戶在創意表達上的需求。
多模態融合能力：雖然目前Vidu主要聚焦於視頻內容的生成，但基於其多模態大模型的特性，未來它有望整合文本、圖像等多種模態的信息，生成更加豐富和立體的視頻內容。

Vidu - 生數科技發佈的視頻大模型，可生成16秒1080P的視頻

Vidu的技術架構

Diffusion技術：Diffusion是一種生成模型技術，它通過逐步引入噪聲並學習如何逆轉這個過程來生成高質量的圖像或視頻。Vidu利用Diffusion技術生成連貫且逼真的視頻內容。
Transformer架構：Transformer是一種深度學習模型，最初用於自然語言處理任務，因其強大的性能和靈活性，後來被廣泛應用於計算機視覺等領域。Vidu結合了Transformer架構來處理視頻數據。
U-ViT架構：U-ViT是Vidu技術架構的核心，是一種將Diffusion與Transformer融合的創新架構。U-ViT由生數科技團隊提出，是全球首個此類融合架構，它結合了Diffusion模型的生成能力和Transformer模型的感知能力。
多模態擴散模型UniDiffuser：UniDiffuser是生數科技基於U-ViT架構開發的多模態擴散模型，它驗證了U-ViT架構在處理大規模視覺任務時的可擴展性。
長視頻表示與處理技術：Vidu在U-ViT架構的基礎上，進一步突破了長視頻表示與處理的關鍵技術，這使得Vidu能夠生成更長、更連貫的視頻內容。
貝葉斯機器學習：貝葉斯機器學習是一種統計學習方法，它通過貝葉斯定理來更新模型的概率估計。Vidu在開發過程中，團隊利用了貝葉斯機器學習的技術來優化模型性能。