SoulX-LiveAct是什麼
SoulX-LiveAct 是Soul App AI團隊開源的實時數字人生成框架,解決AR擴散模型流式生成的穩定性難題。核心創新包括,Neighbor Forcing技術對齊相鄰幀擴散步數確保畫面一致;ConvKV Memory機制實現恆定顯存佔用,支持小時級甚至無限時長生成。僅需雙卡H100/H200可實現20 FPS實時推理,延遲僅0.94秒。SoulX-LiveAct 適用直播、虛擬客服、播客等場景,標誌着開源數字人技術進入可落地生產環境的新階段。

SoulX-LiveAct的主要功能
- 實時人像動畫生成:根據音頻和文本條件實時生成高保真數字人視頻,實現精準的脣同步、自然的面部表情和協調的肢體動作。
- 小時級/無限時長視頻:通過恆定顯存機制突破傳統模型的時長限制,可穩定生成小時級甚至無限時長的連續視頻流。
- 情感與動作可控編輯:支持通過文本指令靈活控制頭部姿態、手勢動作和麪部表情,如心形手勢、捂臉、大笑等,同時保持身份一致和脣同步準確。
- 低延遲流式推理:僅需雙卡H100/H200即可實現20 FPS實時輸出,端到端延遲僅0.94秒,滿足直播、虛擬客服等實時交互場景需求。
SoulX-LiveAct的技術原理
- Neighbor Forcing:傳統AR擴散模型在相鄰幀使用不同擴散步數,導致分佈不一致和畫面抖動。Neighbor Forcing強制相鄰幀在相同擴散步下生成,將前一幀的潛變量作爲當前幀的條件輸入,使生成過程處於一致的噪聲空間,消除跨步對齊問題,實現穩定的時序連貫性。
- ConvKV Memory:長視頻生成的顯存瓶頸源於KV緩存隨幀數線性增長。ConvKV Memory採用”短期精確+長期壓縮”策略:保留最近幀的高精度KV緩存確保連貫性,對歷史幀通過1D卷積(壓縮比5:1)壓縮爲固定長度記憶,重置RoPE位置編碼。
- 端到端性能優化:系統採用自適應FP8精度降低計算量,結合序列並行充分利用多卡算力,通過算子融合減少內存訪問開銷。三管齊下實現20 FPS實時推理,每幀僅需27.2 TFLOPs,較同類方法降低30%-45%計算成本。
SoulX-LiveAct的關鍵信息和使用要求
- 項目定位:Soul App AI Lab開源的實時交互數字人生成框架,解決AR擴散模型在流式生成中的穩定性與時長限制問題,支持小時級甚至無限時長視頻合成。
- 核心突破 – Neighbor Forcing:相同擴散步對齊相鄰幀,消除分佈不一致導致的畫面抖動。
- 核心突破 – ConvKV Memory:恆定顯存佔用,突破時長瓶頸。
- 核心突破 – 實時性能:20 FPS流式推理,延遲0.94秒。
- 實測表現 – 分辨率:512×512 或 720×416。
- 實測表現 – 幀率:20 FPS。
- 實測表現 – 延遲:0.94秒。
- 實測表現 – 計算成本:27.2 TFLOPs/幀。
- 推薦配置 – GPU:2× NVIDIA H100 或 H200。
- 推薦配置 – 環境:Python 3.10,CUDA支持。
- 推薦配置 – 關鍵依賴:SageAttention(FP8注意力)、vLLM(FP8 GEMM)、LightVAE。
- 消費級顯卡 – 適用型號:RTX 4090/5090 單卡。
SoulX-LiveAct的核心優勢
- Neighbor Forcing 技術:通過相同擴散步對齊相鄰幀,消除傳統AR擴散模型中分佈不一致導致的畫面抖動,確保生成過程穩定連貫。
- ConvKV Memory 機制:採用”短期精確+長期壓縮”策略,將歷史KV緩存壓縮爲固定長度,實現恆定顯存佔用,突破時長瓶頸,支持小時級甚至無限時長生成。
- 實時流式推理:模型僅需雙卡H100/H200即可實現20 FPS實時輸出,端到端延遲僅0.94秒,滿足直播等實時交互場景需求。
- 低計算成本:每幀僅需27.2 TFLOPs,較同類方法降低30%-45%計算成本,兼顧高質量與高效率。
- 長時一致性:小時級視頻中保持人物身份穩定、關鍵細節不丟失、口型精準同步,避免身份漂移和配飾忽隱忽現等問題。
如何使用SoulX-LiveAct
- 環境準備:使用conda創建名爲liveact的Python 3.10環境並激活。
- 安裝基礎依賴:通過pip安裝requirements.txt中的依賴,並通過conda安裝sox音頻處理工具。
- 安裝SageAttention:克隆SageAttention倉庫並切換到v2.2.0版本,運行setup.py安裝來啓用FP8注意力加速。
- 安裝QKV算子融合版本(可選):克隆SageAttentionFusion倉庫進行安裝,進一步提升算子融合性能。
- 安裝vLLM:通過pip安裝vLLM 0.11.0版本,提供FP8 GEMM矩陣運算支持。
- 安裝LightVAE:克隆LightX2V倉庫並運行setup_vae.py安裝視頻編解碼組件。
- 下載模型權重:從Hugging Face或ModelScope下載SoulX-LiveAct模型文件到本地目錄。
- 下載音頻編碼器:獲取chinese-wav2vec2-base音頻特徵提取模型。
- 雙卡H100/H200實時推理:設置環境變量並運行torchrun啓動雙卡分佈式推理,指定模型路徑、音頻編碼器路徑、輸入JSON文件,啓用20 FPS流式音頻生成。
- 支持動作/表情編輯的推理:用512×512分辨率和24 FPS幀率,加載包含編輯指令的example_edit.json文件實現可控表情動作生成。
- RTX 4090/5090消費級顯卡運行:單卡模式下啓用FP8 KV緩存、顯存塊卸載和T5文本編碼器CPU offload,在消費級顯卡上降低顯存佔用運行。
- 準備輸入數據:編輯JSON配置文件指定參考圖像路徑、驅動音頻路徑、情感動作文本提示等生成參數。
- 啓動實時流式生成:執行推理命令後,系統根據音頻輸入實時輸出脣同步、表情動作協調的數字人視頻流。
SoulX-LiveAct的項目地址
- 項目官網:https://soul-ailab.github.io/soulx-liveact/
- GitHub倉庫:https://github.com/Soul-AILab/SoulX-LiveAct
- HuggingFace模型庫:https://huggingface.co/Soul-AILab/LiveAct
- arXiv技術論文:https://arxiv.org/pdf/2603.11746
SoulX-LiveAct的同類競品對比
| 對比維度 | InfiniteTalk | Live-Avatar | OmniAvatar | SoulX-LiveAct |
|---|---|---|---|---|
| 推理效率 | ||||
| 吞吐量 | 25 FPS | 20 FPS | – | 20 FPS |
| 延遲 | 3.20 s | 2.89 s | – | 0.94 s |
| GPU數量 | 8 | 5 | – | 2 |
| 每幀TFLOPs | 50.2 | 39.1 | – | 27.2 |
| 長時生成能力 | ||||
| 顯存佔用 | 線性增長 | 線性增長 | 線性增長 | 恆定 |
| 最大時長 | 受顯存限制 | 受顯存限制 | 受顯存限制 | 無限 |
| 身份一致性 | 後期漂移 | 逐漸漂移 | 嚴重漂移 | 穩定保持 |
| 口型同步 | 後期失配 | 逐步失配 | 失配嚴重 | 持續精準 |
| 配飾/紋理一致性 | 忽隱忽現 | 細節丟失 | 嚴重丟失 | 持續穩定 |
SoulX-LiveAct的應用場景
- 直播場景:模型能實時生成數字人主播,支持7×24小時不間斷直播,口型與語音精準同步,表情自然豐富,適用電商帶貨、娛樂直播、知識分享等場景。
- 虛擬客服:模型能提供全天候在線服務,數字人形象穩定一致,支持長時間對話交互,降低企業人力成本,提升服務體驗。
- 播客/對話節目:用於雙人對談、訪談節目製作,實時生成自然的面部表情和肢體語言,嘉賓形象可控可編輯,快速產出高質量內容。
- FaceTime/視頻通話:可用於虛擬社交、在線教育、遠程會議等B端場景,延遲低至0.94秒,交互流暢自然。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...