Vidu

Vidu是什麼

Vidu是由生數科技與清華大學聯合發佈的中國首個長時長、高一致性、高動態性視頻大模型。基於原創U-ViT架構，支持一鍵生成長達16秒、1080P分辨率的高清視頻。Vidu能模擬真實物理世界，具有豐富想象力，可創作逼真或超現實內容，廣泛應用於影視、廣告、遊戲等行業。

Vidu

Vidu

Diffusion技術：Diffusion是一種生成模型技術，通過逐步引入噪聲並學習如何逆轉這個過程來生成高質量的圖像或視頻。Vidu利用Diffusion技術生成連貫且逼真的視頻內容。
Transformer架構：Transformer是一種深度學習模型，最初用於自然語言處理任務，因其強大的性能和靈活性，後來被廣泛應用於計算機視覺等領域。Vidu結合了Transformer架構來處理視頻數據。
U-ViT架構：U-ViT是Vidu技術架構的核心，是一種將Diffusion與Transformer融合的創新架構。U-ViT由生數科技團隊提出，是全球首個此類融合架構，它結合了Diffusion模型的生成能力和Transformer模型的感知能力。
多模態擴散模型UniDiffuser：UniDiffuser是生數科技基於U-ViT架構開發的多模態擴散模型，驗證了U-ViT架構在處理大規模視覺任務時的可擴展性。
長視頻表示與處理技術：Vidu在U-ViT架構的基礎上，進一步突破了長視頻表示與處理的關鍵技術，Vidu能夠生成更長、更連貫的視頻內容。
貝葉斯機器學習：貝葉斯機器學習是一種統計學習方法，通過貝葉斯定理來更新模型的概率估計。Vidu在開發過程中，團隊利用了貝葉斯機器學習的技術來優化模型性能。

文生視頻（Text-to-Video）：用戶輸入文本描述，Vidu根據文本內容生成視頻。適合從零開始創造視頻內容。
圖生視頻（Image-to-Video）：用戶上傳圖片，Vidu基於圖片內容生成視頻。有兩種子模式：
- “參考起始幀”：使用上傳的圖片作爲視頻的起始幀，並基於此生成視頻。
- “參考人物角色”：識別圖片中的人物，並在生成的視頻中保持該人物的一致性。
註冊和登錄：訪問Vidu的官方網站（vidu.studio），註冊賬號並登錄。
選擇生成模式：在頁面上選擇“文生視頻”或“圖生視頻”模式。
輸入文本或上傳圖片：
- 對於文生視頻，輸入詳細的描述性文本，包括場景、動作、風格等。
- 對於圖生視頻，上傳一張圖片，並選擇相應的生成模式。
調整生成參數：根據需要調整視頻的時長、分辨率、風格等參數。
生成視頻：點擊生成按鈕，Vidu將處理輸入的文本或圖片，並開始生成視頻。