SoulX-LiveAct – Soul App開源的實時數字人生成框架

0 0 0

SoulX-LiveAct是什麼

SoulX-LiveAct 是Soul App AI團隊開源的實時數字人生成框架，解決AR擴散模型流式生成的穩定性難題。核心創新包括，Neighbor Forcing技術對齊相鄰幀擴散步數確保畫面一致；ConvKV Memory機制實現恆定顯存佔用，支持小時級甚至無限時長生成。僅需雙卡H100/H200可實現20 FPS實時推理，延遲僅0.94秒。SoulX-LiveAct 適用直播、虛擬客服、播客等場景，標誌着開源數字人技術進入可落地生產環境的新階段。

SoulX-LiveAct的主要功能

實時人像動畫生成：根據音頻和文本條件實時生成高保真數字人視頻，實現精準的脣同步、自然的面部表情和協調的肢體動作。
小時級/無限時長視頻：通過恆定顯存機制突破傳統模型的時長限制，可穩定生成小時級甚至無限時長的連續視頻流。
情感與動作可控編輯：支持通過文本指令靈活控制頭部姿態、手勢動作和麪部表情，如心形手勢、捂臉、大笑等，同時保持身份一致和脣同步準確。
低延遲流式推理：僅需雙卡H100/H200即可實現20 FPS實時輸出，端到端延遲僅0.94秒，滿足直播、虛擬客服等實時交互場景需求。

SoulX-LiveAct的技術原理

Neighbor Forcing：傳統AR擴散模型在相鄰幀使用不同擴散步數，導致分佈不一致和畫面抖動。Neighbor Forcing強制相鄰幀在相同擴散步下生成，將前一幀的潛變量作爲當前幀的條件輸入，使生成過程處於一致的噪聲空間，消除跨步對齊問題，實現穩定的時序連貫性。
ConvKV Memory：長視頻生成的顯存瓶頸源於KV緩存隨幀數線性增長。ConvKV Memory採用”短期精確+長期壓縮”策略：保留最近幀的高精度KV緩存確保連貫性，對歷史幀通過1D卷積（壓縮比5:1）壓縮爲固定長度記憶，重置RoPE位置編碼。
端到端性能優化：系統採用自適應FP8精度降低計算量，結合序列並行充分利用多卡算力，通過算子融合減少內存訪問開銷。三管齊下實現20 FPS實時推理，每幀僅需27.2 TFLOPs，較同類方法降低30%-45%計算成本。

SoulX-LiveAct的關鍵信息和使用要求

項目定位：Soul App AI Lab開源的實時交互數字人生成框架，解決AR擴散模型在流式生成中的穩定性與時長限制問題，支持小時級甚至無限時長視頻合成。
核心突破 – Neighbor Forcing：相同擴散步對齊相鄰幀，消除分佈不一致導致的畫面抖動。
核心突破 – ConvKV Memory：恆定顯存佔用，突破時長瓶頸。
核心突破 – 實時性能：20 FPS流式推理，延遲0.94秒。
實測表現 – 分辨率：512×512 或 720×416。
實測表現 – 幀率：20 FPS。
實測表現 – 延遲：0.94秒。
實測表現 – 計算成本：27.2 TFLOPs/幀。
推薦配置 – GPU：2× NVIDIA H100 或 H200。
推薦配置 – 環境：Python 3.10，CUDA支持。
推薦配置 – 關鍵依賴：SageAttention（FP8注意力）、vLLM（FP8 GEMM）、LightVAE。
消費級顯卡 – 適用型號：RTX 4090/5090 單卡。

SoulX-LiveAct的核心優勢

Neighbor Forcing 技術：通過相同擴散步對齊相鄰幀，消除傳統AR擴散模型中分佈不一致導致的畫面抖動，確保生成過程穩定連貫。
ConvKV Memory 機制：採用”短期精確+長期壓縮”策略，將歷史KV緩存壓縮爲固定長度，實現恆定顯存佔用，突破時長瓶頸，支持小時級甚至無限時長生成。
實時流式推理：模型僅需雙卡H100/H200即可實現20 FPS實時輸出，端到端延遲僅0.94秒，滿足直播等實時交互場景需求。
低計算成本：每幀僅需27.2 TFLOPs，較同類方法降低30%-45%計算成本，兼顧高質量與高效率。
長時一致性：小時級視頻中保持人物身份穩定、關鍵細節不丟失、口型精準同步，避免身份漂移和配飾忽隱忽現等問題。

如何使用SoulX-LiveAct

環境準備：使用conda創建名爲liveact的Python 3.10環境並激活。
安裝基礎依賴：通過pip安裝requirements.txt中的依賴，並通過conda安裝sox音頻處理工具。
安裝SageAttention：克隆SageAttention倉庫並切換到v2.2.0版本，運行setup.py安裝來啓用FP8注意力加速。
安裝QKV算子融合版本（可選）：克隆SageAttentionFusion倉庫進行安裝，進一步提升算子融合性能。
安裝vLLM：通過pip安裝vLLM 0.11.0版本，提供FP8 GEMM矩陣運算支持。
安裝LightVAE：克隆LightX2V倉庫並運行setup_vae.py安裝視頻編解碼組件。
下載模型權重：從Hugging Face或ModelScope下載SoulX-LiveAct模型文件到本地目錄。
下載音頻編碼器：獲取chinese-wav2vec2-base音頻特徵提取模型。
雙卡H100/H200實時推理：設置環境變量並運行torchrun啓動雙卡分佈式推理，指定模型路徑、音頻編碼器路徑、輸入JSON文件，啓用20 FPS流式音頻生成。
支持動作/表情編輯的推理：用512×512分辨率和24 FPS幀率，加載包含編輯指令的example_edit.json文件實現可控表情動作生成。
RTX 4090/5090消費級顯卡運行：單卡模式下啓用FP8 KV緩存、顯存塊卸載和T5文本編碼器CPU offload，在消費級顯卡上降低顯存佔用運行。
準備輸入數據：編輯JSON配置文件指定參考圖像路徑、驅動音頻路徑、情感動作文本提示等生成參數。
啓動實時流式生成：執行推理命令後，系統根據音頻輸入實時輸出脣同步、表情動作協調的數字人視頻流。

SoulX-LiveAct的項目地址

項目官網：https://soul-ailab.github.io/soulx-liveact/
GitHub倉庫：https://github.com/Soul-AILab/SoulX-LiveAct
HuggingFace模型庫：https://huggingface.co/Soul-AILab/LiveAct
arXiv技術論文：https://arxiv.org/pdf/2603.11746

SoulX-LiveAct的同類競品對比

對比維度	InfiniteTalk	Live-Avatar	OmniAvatar	SoulX-LiveAct
推理效率
吞吐量	25 FPS	20 FPS	–	20 FPS
延遲	3.20 s	2.89 s	–	0.94 s
GPU數量	8	5	–	2
每幀TFLOPs	50.2	39.1	–	27.2
長時生成能力
顯存佔用	線性增長	線性增長	線性增長	恆定
最大時長	受顯存限制	受顯存限制	受顯存限制	無限
身份一致性	後期漂移	逐漸漂移	嚴重漂移	穩定保持
口型同步	後期失配	逐步失配	失配嚴重	持續精準
配飾/紋理一致性	忽隱忽現	細節丟失	嚴重丟失	持續穩定