Step-Video-TI2V – 階躍星辰開源的圖生視頻模型

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

Step-Video-TI2V是什麼

Step-Video-TI2V 是階躍星辰(StepFun)推出的開源圖生視頻(Image-to-Video)生成模型,擁有 300 億參數,能根據文本描述和圖像輸入生成最長 102 幀的視頻。模型基於深度壓縮的變分自編碼器(Video-VAE),實現了 16×16 的空間壓縮和 8× 的時間壓縮,顯著提高了訓練和推理效率。用戶可以通過設置運動分數(motion score)來平衡視頻的動態性和穩定性。支持推、拉、搖、移、旋轉、跟隨等多種鏡頭運動方式。

Step-Video-TI2V – 階躍星辰開源的圖生視頻模型

Step-Video-TI2V的主要功能

  • 圖生視頻生成:用戶可以提供一張圖片和相關的文本描述,模型會根據這些輸入生成一段連貫的視頻。
  • 高質量視頻輸出:支持生成最多 102 幀、5 秒、540P 分辨率的視頻,能滿足多種創作需求。
  • 動態性調節:用戶可以通過設置運動分數(motion score)來控制視頻的動態性。例如,運動分數爲 2 時,視頻更穩定但動態性較差;運動分數爲 10 或 20 時,視頻的動態性更強。
  • 平衡動態與穩定:通過運動分數的調節,用戶可以在動態效果和穩定性之間找到最佳平衡。
  • 鏡頭運動控制:支持多種運鏡方式,包括固定鏡頭、上下左右移動、上下左右搖、放大縮小、推進拉遠、旋轉、環繞以及焦點轉移等。
  • 電影級運鏡效果:能生成類似電影級別的複雜運鏡效果,滿足專業創作需求。
  • 動漫效果優化:在動漫風格視頻生成方面表現出色,能生成具有虛化背景、動態動作等特效的視頻。適合用於動畫創作、短視頻製作等應用場景。
  • 靈活的視頻尺寸:支持多種尺寸的視頻生成,包括橫屏、豎屏和方屏,用戶可以根據不同的創作需求和平台特性選擇合適的視頻尺寸。
  • 多語言支持:配備雙語文本編碼器,支持中英文提示輸入,方便不同語言背景的用戶使用。
  • 特效生成能力:初步具備特效生成能力,未來將通過技術優化進一步提升特效生成效果。

Step-Video-TI2V的技術原理

  • 深度壓縮的變分自編碼器(Video-VAE):Step-Video-TI2V 使用了深度壓縮的變分自編碼器(Video-VAE),實現了 16×16 的空間壓縮和 8× 的時間壓縮。顯著降低了視頻生成任務的計算複雜度,同時保持了優異的視頻重建質量。Video-VAE 採用了雙路徑架構,能有效分離高低頻信息,進一步優化視頻生成的效果。
  • 基於擴散的 Transformer(DiT)架構:模型基於擴散的 Transformer(DiT)架構,包含 3D 全注意力機制。通過 Flow Matching 訓練方法,將輸入噪聲逐步去噪爲潛在幀,將文本嵌入和時間步作爲條件因子。這種架構在生成具有強烈運動動態和高美學質量的視頻方面表現出色。
  • 雙語文本編碼器:Step-Video-TI2V 配備了雙語文本編碼器,能處理中英文提示。使模型可以直接理解中文或英文輸入,生成與文本描述相符的視頻。
  • 直接偏好優化(DPO):爲了進一步提升生成視頻的質量,Step-Video-TI2V 引入了視頻直接偏好優化(Video-DPO)方法。DPO 通過人類偏好數據對模型進行微調,減少僞影並增強視覺效果,使生成的視頻更加平滑和真實。
  • 級聯訓練策略:模型採用了級聯訓練流程,包括文本到圖像(T2I)預訓練、文本到視頻/圖像(T2VI)預訓練、文本到視頻(T2V)微調和直接偏好優化(DPO)訓練。加速了模型的收斂,充分利用了不同質量的視頻數據。
  • 系統優化:Step-Video-TI2V 在系統層面進行了優化,包括張量並行、序列並行和 Zero1 優化,實現高效的分佈式訓練。引入了高性能通信框架 StepRPC 和雙層監控系統 StepTelemetry,優化數據傳輸效率和識別性能瓶頸。

Step-Video-TI2V的項目地址

  • Github倉庫:https://github.com/stepfun-ai/Step-Video-TI2V
  • HuggingFace模型庫:https://huggingface.co/stepfun-ai/stepvideo-ti2v
  • arXiv技術論文:https://arxiv.org/pdf/2503.11251

如何使用Step-Video-TI2V

  • 訪問躍問視頻:訪問躍問視頻的官方網站或App端。
  • 操作步驟:點擊上傳圖片,輸入文本描述。調整參數(如運動分數等)。點擊生成按鈕,下載或分享視頻。

Step-Video-TI2V的應用場景

  • 動畫製作:Step-Video-TI2V 特別擅長生成動漫風格的視頻,能根據輸入的圖片和文本描述生成流暢的動畫。
  • 短視頻製作:模型支持多種運鏡方式,如推拉搖移、旋轉、環繞等,能生成具有電影級效果的短視頻。
  • 動作教學:Step-Video-TI2V 可以生成複雜動態場景,如體育動作教學、舞蹈教學等。
  • 特效製作:模型能生成具有美感和真實感的視頻,適用於電影、電視劇和遊戲中的特效製作。
  • 產品展示:Step-Video-TI2V 可以生成吸引人的廣告視頻,展示產品特點或品牌故事。
© 版權聲明

相關文章

暫無評論

暫無評論...