JoyAI-Echo – 京東開源的長音視頻生成框架

AI工具4周前發佈新公告 AI管理員
0 0

JoyAI-Echo是什麼

JoyAI-Echo 是京東推出的開源長音視頻生成框架,專爲分鐘級多鏡頭故事生成設計。框架通過跨模態記憶庫、記憶驅動後訓練、Director Agent 對話式編輯和輕量化實時超分四大技術創新,解決長視頻生成中角色變臉、音色突變、生成緩慢等核心痛點,首次實現長達 5 分鐘的高一致性、可交互、高清長視頻生成,標誌着京東進入長視頻生成全球第一梯隊。

JoyAI-Echo – 京東開源的長音視頻生成框架

JoyAI-Echo的主要功能

  • 分鐘級多鏡頭故事生成:支持從單個提示詞 JSON 生成連貫的多鏡頭長視頻序列,最長可達 5 分鐘。
  • 跨模態音視頻聯合生成:單一管道同步輸出視頻與音頻,確保音畫同步。
  • 配對跨模態記憶庫:在多鏡頭生成中持續保存並調用角色外觀特徵與說話人音色,保持故事級一致性。
  • DMD 蒸餾少步推理:通過分佈匹配蒸餾技術,實現約 7.5 倍的生成速度提升。
  • Director Agent 對話式編輯:用戶可用自然語言與導演助理交互,自動拆分劇本、角色、場景和鏡頭,支持局部修訂,無需重跑整條視頻。
  • 輕量化實時超分:支持從 736×1280 單步超分至 1152×1920 或 1472×2560,在流式延遲約束下保持高清輸出。

JoyAI-Echo的技術原理

  • 跨模態音視頻記憶庫:JoyAI-Echo 的核心突破爲內置一個配對跨模態記憶庫,通過 Slot-paired 機制將視覺記憶與音頻記憶綁定存儲。在多鏡頭生成過程中,記憶庫持續保存並調用角色的面部特徵、整體外觀、說話人音色以及音畫對應關係,使每個新鏡頭都以前續鏡頭的身份特徵爲條件進行生成,在長達 5 分鐘的視頻中保持故事級一致性,徹底解決角色變臉和音色突變問題。
  • 記憶驅動後訓練與 DMD 蒸餾加速:團隊推出一套記憶驅動的後訓練流程,結合監督微調(SFT)、跨模態 RLHF 及 Distribution Matching Distillation(DMD)技術。其中 DMD 將原本的多步擴散推理壓縮爲少步推理,在保持生成質量的同時實現了約 7.5 倍的推理加速,使分鐘級長視頻的流式生成從理論變爲實用。
  • Director Agent 交互架構:框架引入一個智能導演代理,將用戶的自然語言意圖自動擴展爲結構化的劇本、鏡頭、角色和場景描述,支持規劃、生成、評審、局部修訂四個環節的閉環工作流。用戶可通過對話方式指定修改,Agent 僅重新生成有問題的局部鏡頭無需重跑整條視頻,將靜態生成轉變爲動態協作。
  • 輕量化實時音視頻超分:爲滿足專業內容生產的高清需求,JoyAI-Echo 配套單步音視頻超分模塊,可在流式延遲約束下將 736×1280 的基礎輸出實時銳化至 1152×1920 或 1472×2560,確保高分辨率輸出不打破流式生成的實時性。

如何使用JoyAI-Echo

  • 克隆倉庫git clone https://github.com/jd-opensource/JoyAI-Echo.git
  • 創建環境:用 Python 3.11 + PyTorch 2.8 + CUDA 12.8,通過 conda 或 uv 安裝依賴,並確保 ffmpeg 可用。
  • 下載模型權重:從 Hugging Face 下載約 46GB 的 echo-longvideo-release.safetensors 和約 24GB 的 gemma-3-12b 文本編碼器,放置於 checkpoints/ 目錄。
  • 編寫故事提示詞:創建 JSON 文件,按角色與主體、動作與對話、風格、鏡頭運動、背景、音效與 BGM 的順序描述每個鏡頭。
  • 運行推理:執行 python inference.py,模型一次性加載後處理所有提示文件,輸出至 inference_result/outputs/ 目錄。

JoyAI-Echo的核心優勢

  • 超長一致性:在長達 5 分鐘的視頻中,角色身份、視覺形象和聲音音色保持高度一致,徹底解決同一個人演着演着變成另一個人的問題。
  • 極速生成:記憶驅動後訓練結合 DMD 技術,推理速度提升約 7.5 倍,從等半天變爲秒出片。
  • 對話式交互創作:Director Agent 將靜態生成轉變爲動態協作,支持自然語言規劃、評審和局部修訂,大幅降低創作門檻。
  • 高清實時輸出:輕量化超分模塊在流式延遲下穩定輸出高分辨率視頻,滿足專業內容生產需求。
  • 全面開源:代碼與權重已全部開源,基於 LTX-2.3 和 Gemma 構建,支持學術研究與二次開發。

JoyAI-Echo的項目地址

  • 項目官網:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
  • GitHub倉庫:https://github.com/jd-opensource/JoyAI-Echo

JoyAI-Echo的同類競品對比

對比維度 JoyAI-Echo HappyOyster
長視頻生成能力 ✅ 支持最長 5 分鐘多鏡頭連貫故事生成 ✅ 支持長視頻生成,但具體時長未明確公開
角色/身份一致性 59.4% 用戶偏好;跨模態記憶庫確保多鏡頭角色外觀與音色一致 27.7% 用戶偏好;未明確披露類似記憶機制
視覺美學 63.6% 用戶偏好 27.6% 用戶偏好
音頻質量 81.7% 用戶偏好;聯合音視頻生成,音色穩定 11.8% 用戶偏好
提示詞遵循 80.6% 用戶偏好;Director Agent 自動拆分劇本與鏡頭 5.9% 用戶偏好
生成速度 ✅ DMD 蒸餾加速,7.5 倍推理提速,支持流式生成 標準多步擴散推理,未明確披露加速機制
對話式編輯 ✅ Director Agent 支持自然語言交互與局部鏡頭修訂,無需重跑全片 ❌ 未明確支持對話式局部編輯
實時超分辨率 ✅ 輕量化單步超分,支持至 1472×2560 ❌ 未明確支持實時超分
開源情況 ✅ 代碼與權重全面開源(學術研究/非商業用途) ❌ 未開源
底層架構 基於 LTX-2.3 + Gemma-3-12B,配對跨模態記憶庫條件生成 基於自研模型,具體技術細節披露較少

JoyAI-Echo的應用場景

  • 虛擬故事創作與動漫製作:生成長達數分鐘的連貫動畫故事,保持角色外觀、聲音和性格在多鏡頭間高度一致,大幅降低傳統動畫製作成本。
  • 數字人內容生產與直播:爲虛擬主播、數字人客服快速生成長視頻內容,確保數字人的面容和音色在長時間輸出中不漂移,提升真實感與專業度。
  • 品牌營銷視頻快速迭代:通過 Director Agent 的對話式編輯能力,營銷團隊可像聊天一樣修改廣告腳本和鏡頭,快速產出多版本品牌視頻,縮短創意週期。
  • 影視前期預演與分鏡製作:導演和製片方可用自然語言生成長片分鏡與預演視頻,在正式拍攝前驗證鏡頭語言、角色走位和敘事節奏,降低試錯成本。
© 版權聲明

相關文章

暫無評論

暫無評論...