JoyAI-Echo – 京東開源的長音視頻生成框架

0 0 0

JoyAI-Echo是什麼

JoyAI-Echo 是京東推出的開源長音視頻生成框架，專爲分鐘級多鏡頭故事生成設計。框架通過跨模態記憶庫、記憶驅動後訓練、Director Agent 對話式編輯和輕量化實時超分四大技術創新，解決長視頻生成中角色變臉、音色突變、生成緩慢等核心痛點，首次實現長達 5 分鐘的高一致性、可交互、高清長視頻生成，標誌着京東進入長視頻生成全球第一梯隊。

JoyAI-Echo的主要功能

分鐘級多鏡頭故事生成：支持從單個提示詞 JSON 生成連貫的多鏡頭長視頻序列，最長可達 5 分鐘。
跨模態音視頻聯合生成：單一管道同步輸出視頻與音頻，確保音畫同步。
配對跨模態記憶庫：在多鏡頭生成中持續保存並調用角色外觀特徵與說話人音色，保持故事級一致性。
DMD 蒸餾少步推理：通過分佈匹配蒸餾技術，實現約 7.5 倍的生成速度提升。
Director Agent 對話式編輯：用戶可用自然語言與導演助理交互，自動拆分劇本、角色、場景和鏡頭，支持局部修訂，無需重跑整條視頻。
輕量化實時超分：支持從 736×1280 單步超分至 1152×1920 或 1472×2560，在流式延遲約束下保持高清輸出。

JoyAI-Echo的技術原理

跨模態音視頻記憶庫：JoyAI-Echo 的核心突破爲內置一個配對跨模態記憶庫，通過 Slot-paired 機制將視覺記憶與音頻記憶綁定存儲。在多鏡頭生成過程中，記憶庫持續保存並調用角色的面部特徵、整體外觀、說話人音色以及音畫對應關係，使每個新鏡頭都以前續鏡頭的身份特徵爲條件進行生成，在長達 5 分鐘的視頻中保持故事級一致性，徹底解決角色變臉和音色突變問題。
記憶驅動後訓練與 DMD 蒸餾加速：團隊推出一套記憶驅動的後訓練流程，結合監督微調（SFT）、跨模態 RLHF 及 Distribution Matching Distillation（DMD）技術。其中 DMD 將原本的多步擴散推理壓縮爲少步推理，在保持生成質量的同時實現了約 7.5 倍的推理加速，使分鐘級長視頻的流式生成從理論變爲實用。
Director Agent 交互架構：框架引入一個智能導演代理，將用戶的自然語言意圖自動擴展爲結構化的劇本、鏡頭、角色和場景描述，支持規劃、生成、評審、局部修訂四個環節的閉環工作流。用戶可通過對話方式指定修改，Agent 僅重新生成有問題的局部鏡頭無需重跑整條視頻，將靜態生成轉變爲動態協作。
輕量化實時音視頻超分：爲滿足專業內容生產的高清需求，JoyAI-Echo 配套單步音視頻超分模塊，可在流式延遲約束下將 736×1280 的基礎輸出實時銳化至 1152×1920 或 1472×2560，確保高分辨率輸出不打破流式生成的實時性。

如何使用JoyAI-Echo

克隆倉庫：git clone https://github.com/jd-opensource/JoyAI-Echo.git
創建環境：用 Python 3.11 + PyTorch 2.8 + CUDA 12.8，通過 conda 或 uv 安裝依賴，並確保 ffmpeg 可用。
下載模型權重：從 Hugging Face 下載約 46GB 的 echo-longvideo-release.safetensors 和約 24GB 的 gemma-3-12b 文本編碼器，放置於 checkpoints/ 目錄。
編寫故事提示詞：創建 JSON 文件，按角色與主體、動作與對話、風格、鏡頭運動、背景、音效與 BGM 的順序描述每個鏡頭。
運行推理：執行 python inference.py，模型一次性加載後處理所有提示文件，輸出至 inference_result/outputs/ 目錄。

JoyAI-Echo的核心優勢

超長一致性：在長達 5 分鐘的視頻中，角色身份、視覺形象和聲音音色保持高度一致，徹底解決同一個人演着演着變成另一個人的問題。
極速生成：記憶驅動後訓練結合 DMD 技術，推理速度提升約 7.5 倍，從等半天變爲秒出片。
對話式交互創作：Director Agent 將靜態生成轉變爲動態協作，支持自然語言規劃、評審和局部修訂，大幅降低創作門檻。
高清實時輸出：輕量化超分模塊在流式延遲下穩定輸出高分辨率視頻，滿足專業內容生產需求。
全面開源：代碼與權重已全部開源，基於 LTX-2.3 和 Gemma 構建，支持學術研究與二次開發。

JoyAI-Echo的項目地址

項目官網：https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
GitHub倉庫：https://github.com/jd-opensource/JoyAI-Echo

JoyAI-Echo的同類競品對比

對比維度	JoyAI-Echo	HappyOyster
長視頻生成能力	✅ 支持最長 5 分鐘多鏡頭連貫故事生成	✅ 支持長視頻生成，但具體時長未明確公開
角色/身份一致性	✅ 59.4% 用戶偏好；跨模態記憶庫確保多鏡頭角色外觀與音色一致	27.7% 用戶偏好；未明確披露類似記憶機制
視覺美學	✅ 63.6% 用戶偏好	27.6% 用戶偏好
音頻質量	✅ 81.7% 用戶偏好；聯合音視頻生成，音色穩定	11.8% 用戶偏好
提示詞遵循	✅ 80.6% 用戶偏好；Director Agent 自動拆分劇本與鏡頭	5.9% 用戶偏好
生成速度	✅ DMD 蒸餾加速，7.5 倍推理提速，支持流式生成	標準多步擴散推理，未明確披露加速機制
對話式編輯	✅ Director Agent 支持自然語言交互與局部鏡頭修訂，無需重跑全片	❌ 未明確支持對話式局部編輯
實時超分辨率	✅ 輕量化單步超分，支持至 1472×2560	❌ 未明確支持實時超分
開源情況	✅ 代碼與權重全面開源（學術研究/非商業用途）	❌ 未開源
底層架構	基於 LTX-2.3 + Gemma-3-12B，配對跨模態記憶庫條件生成	基於自研模型，具體技術細節披露較少

JoyAI-Echo的應用場景

虛擬故事創作與動漫製作：生成長達數分鐘的連貫動畫故事，保持角色外觀、聲音和性格在多鏡頭間高度一致，大幅降低傳統動畫製作成本。
數字人內容生產與直播：爲虛擬主播、數字人客服快速生成長視頻內容，確保數字人的面容和音色在長時間輸出中不漂移，提升真實感與專業度。
品牌營銷視頻快速迭代：通過 Director Agent 的對話式編輯能力，營銷團隊可像聊天一樣修改廣告腳本和鏡頭，快速產出多版本品牌視頻，縮短創意週期。
影視前期預演與分鏡製作：導演和製片方可用自然語言生成長片分鏡與預演視頻，在正式拍攝前驗證鏡頭語言、角色走位和敘事節奏，降低試錯成本。