JoyAI-Echo是什麼
JoyAI-Echo 是京東推出的開源長音視頻生成框架,專爲分鐘級多鏡頭故事生成設計。框架通過跨模態記憶庫、記憶驅動後訓練、Director Agent 對話式編輯和輕量化實時超分四大技術創新,解決長視頻生成中角色變臉、音色突變、生成緩慢等核心痛點,首次實現長達 5 分鐘的高一致性、可交互、高清長視頻生成,標誌着京東進入長視頻生成全球第一梯隊。

JoyAI-Echo的主要功能
-
分鐘級多鏡頭故事生成:支持從單個提示詞 JSON 生成連貫的多鏡頭長視頻序列,最長可達 5 分鐘。
-
跨模態音視頻聯合生成:單一管道同步輸出視頻與音頻,確保音畫同步。
-
配對跨模態記憶庫:在多鏡頭生成中持續保存並調用角色外觀特徵與說話人音色,保持故事級一致性。
-
DMD 蒸餾少步推理:通過分佈匹配蒸餾技術,實現約 7.5 倍的生成速度提升。
-
Director Agent 對話式編輯:用戶可用自然語言與導演助理交互,自動拆分劇本、角色、場景和鏡頭,支持局部修訂,無需重跑整條視頻。
-
輕量化實時超分:支持從 736×1280 單步超分至 1152×1920 或 1472×2560,在流式延遲約束下保持高清輸出。
JoyAI-Echo的技術原理
- 跨模態音視頻記憶庫:JoyAI-Echo 的核心突破爲內置一個配對跨模態記憶庫,通過 Slot-paired 機制將視覺記憶與音頻記憶綁定存儲。在多鏡頭生成過程中,記憶庫持續保存並調用角色的面部特徵、整體外觀、說話人音色以及音畫對應關係,使每個新鏡頭都以前續鏡頭的身份特徵爲條件進行生成,在長達 5 分鐘的視頻中保持故事級一致性,徹底解決角色變臉和音色突變問題。
- 記憶驅動後訓練與 DMD 蒸餾加速:團隊推出一套記憶驅動的後訓練流程,結合監督微調(SFT)、跨模態 RLHF 及 Distribution Matching Distillation(DMD)技術。其中 DMD 將原本的多步擴散推理壓縮爲少步推理,在保持生成質量的同時實現了約 7.5 倍的推理加速,使分鐘級長視頻的流式生成從理論變爲實用。
- Director Agent 交互架構:框架引入一個智能導演代理,將用戶的自然語言意圖自動擴展爲結構化的劇本、鏡頭、角色和場景描述,支持規劃、生成、評審、局部修訂四個環節的閉環工作流。用戶可通過對話方式指定修改,Agent 僅重新生成有問題的局部鏡頭無需重跑整條視頻,將靜態生成轉變爲動態協作。
- 輕量化實時音視頻超分:爲滿足專業內容生產的高清需求,JoyAI-Echo 配套單步音視頻超分模塊,可在流式延遲約束下將 736×1280 的基礎輸出實時銳化至 1152×1920 或 1472×2560,確保高分辨率輸出不打破流式生成的實時性。
如何使用JoyAI-Echo
-
克隆倉庫:
git clone https://github.com/jd-opensource/JoyAI-Echo.git -
創建環境:用 Python 3.11 + PyTorch 2.8 + CUDA 12.8,通過 conda 或 uv 安裝依賴,並確保
ffmpeg可用。 -
下載模型權重:從 Hugging Face 下載約 46GB 的
echo-longvideo-release.safetensors和約 24GB 的gemma-3-12b文本編碼器,放置於checkpoints/目錄。 -
編寫故事提示詞:創建 JSON 文件,按角色與主體、動作與對話、風格、鏡頭運動、背景、音效與 BGM 的順序描述每個鏡頭。
-
運行推理:執行
python inference.py,模型一次性加載後處理所有提示文件,輸出至inference_result/outputs/目錄。
JoyAI-Echo的核心優勢
-
超長一致性:在長達 5 分鐘的視頻中,角色身份、視覺形象和聲音音色保持高度一致,徹底解決同一個人演着演着變成另一個人的問題。
-
極速生成:記憶驅動後訓練結合 DMD 技術,推理速度提升約 7.5 倍,從等半天變爲秒出片。
-
對話式交互創作:Director Agent 將靜態生成轉變爲動態協作,支持自然語言規劃、評審和局部修訂,大幅降低創作門檻。
-
高清實時輸出:輕量化超分模塊在流式延遲下穩定輸出高分辨率視頻,滿足專業內容生產需求。
-
全面開源:代碼與權重已全部開源,基於 LTX-2.3 和 Gemma 構建,支持學術研究與二次開發。
JoyAI-Echo的項目地址
- 項目官網:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
- GitHub倉庫:https://github.com/jd-opensource/JoyAI-Echo
JoyAI-Echo的同類競品對比
| 對比維度 | JoyAI-Echo | HappyOyster |
|---|---|---|
| 長視頻生成能力 | ✅ 支持最長 5 分鐘多鏡頭連貫故事生成 | ✅ 支持長視頻生成,但具體時長未明確公開 |
| 角色/身份一致性 | ✅ 59.4% 用戶偏好;跨模態記憶庫確保多鏡頭角色外觀與音色一致 | 27.7% 用戶偏好;未明確披露類似記憶機制 |
| 視覺美學 | ✅ 63.6% 用戶偏好 | 27.6% 用戶偏好 |
| 音頻質量 | ✅ 81.7% 用戶偏好;聯合音視頻生成,音色穩定 | 11.8% 用戶偏好 |
| 提示詞遵循 | ✅ 80.6% 用戶偏好;Director Agent 自動拆分劇本與鏡頭 | 5.9% 用戶偏好 |
| 生成速度 | ✅ DMD 蒸餾加速,7.5 倍推理提速,支持流式生成 | 標準多步擴散推理,未明確披露加速機制 |
| 對話式編輯 | ✅ Director Agent 支持自然語言交互與局部鏡頭修訂,無需重跑全片 | ❌ 未明確支持對話式局部編輯 |
| 實時超分辨率 | ✅ 輕量化單步超分,支持至 1472×2560 | ❌ 未明確支持實時超分 |
| 開源情況 | ✅ 代碼與權重全面開源(學術研究/非商業用途) | ❌ 未開源 |
| 底層架構 | 基於 LTX-2.3 + Gemma-3-12B,配對跨模態記憶庫條件生成 | 基於自研模型,具體技術細節披露較少 |
JoyAI-Echo的應用場景
-
虛擬故事創作與動漫製作:生成長達數分鐘的連貫動畫故事,保持角色外觀、聲音和性格在多鏡頭間高度一致,大幅降低傳統動畫製作成本。
-
數字人內容生產與直播:爲虛擬主播、數字人客服快速生成長視頻內容,確保數字人的面容和音色在長時間輸出中不漂移,提升真實感與專業度。
-
品牌營銷視頻快速迭代:通過 Director Agent 的對話式編輯能力,營銷團隊可像聊天一樣修改廣告腳本和鏡頭,快速產出多版本品牌視頻,縮短創意週期。
-
影視前期預演與分鏡製作:導演和製片方可用自然語言生成長片分鏡與預演視頻,在正式拍攝前驗證鏡頭語言、角色走位和敘事節奏,降低試錯成本。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...