SoulX-LiveAct – Soul App開源的實時數字人生成框架

AI工具4天前發佈新公告 AI管理員
0 0

SoulX-LiveAct是什麼

SoulX-LiveAct 是Soul App AI團隊開源的實時數字人生成框架,解決AR擴散模型流式生成的穩定性難題。核心創新包括,Neighbor Forcing技術對齊相鄰幀擴散步數確保畫面一致;ConvKV Memory機制實現恆定顯存佔用,支持小時級甚至無限時長生成。僅需雙卡H100/H200可實現20 FPS實時推理,延遲僅0.94秒。SoulX-LiveAct 適用直播、虛擬客服、播客等場景,標誌着開源數字人技術進入可落地生產環境的新階段。

SoulX-LiveAct – Soul App開源的實時數字人生成框架

SoulX-LiveAct的主要功能

  • 實時人像動畫生成:根據音頻和文本條件實時生成高保真數字人視頻,實現精準的脣同步、自然的面部表情和協調的肢體動作。
  • 小時級/無限時長視頻:通過恆定顯存機制突破傳統模型的時長限制,可穩定生成小時級甚至無限時長的連續視頻流。
  • 情感與動作可控編輯:支持通過文本指令靈活控制頭部姿態、手勢動作和麪部表情,如心形手勢、捂臉、大笑等,同時保持身份一致和脣同步準確。
  • 低延遲流式推理:僅需雙卡H100/H200即可實現20 FPS實時輸出,端到端延遲僅0.94秒,滿足直播、虛擬客服等實時交互場景需求。

SoulX-LiveAct的技術原理

  • Neighbor Forcing:傳統AR擴散模型在相鄰幀使用不同擴散步數,導致分佈不一致和畫面抖動。Neighbor Forcing強制相鄰幀在相同擴散步下生成,將前一幀的潛變量作爲當前幀的條件輸入,使生成過程處於一致的噪聲空間,消除跨步對齊問題,實現穩定的時序連貫性。
  • ConvKV Memory:長視頻生成的顯存瓶頸源於KV緩存隨幀數線性增長。ConvKV Memory採用”短期精確+長期壓縮”策略:保留最近幀的高精度KV緩存確保連貫性,對歷史幀通過1D卷積(壓縮比5:1)壓縮爲固定長度記憶,重置RoPE位置編碼。
  • 端到端性能優化:系統採用自適應FP8精度降低計算量,結合序列並行充分利用多卡算力,通過算子融合減少內存訪問開銷。三管齊下實現20 FPS實時推理,每幀僅需27.2 TFLOPs,較同類方法降低30%-45%計算成本。

SoulX-LiveAct的關鍵信息和使用要求

  • 項目定位:Soul App AI Lab開源的實時交互數字人生成框架,解決AR擴散模型在流式生成中的穩定性與時長限制問題,支持小時級甚至無限時長視頻合成。
  • 核心突破 – Neighbor Forcing:相同擴散步對齊相鄰幀,消除分佈不一致導致的畫面抖動。
  • 核心突破 – ConvKV Memory:恆定顯存佔用,突破時長瓶頸。
  • 核心突破 – 實時性能:20 FPS流式推理,延遲0.94秒。
  • 實測表現 – 分辨率:512×512 或 720×416。
  • 實測表現 – 幀率:20 FPS。
  • 實測表現 – 延遲:0.94秒。
  • 實測表現 – 計算成本:27.2 TFLOPs/幀。
  • 推薦配置 – GPU:2× NVIDIA H100 或 H200。
  • 推薦配置 – 環境:Python 3.10,CUDA支持。
  • 推薦配置 – 關鍵依賴:SageAttention(FP8注意力)、vLLM(FP8 GEMM)、LightVAE。
  • 消費級顯卡 – 適用型號:RTX 4090/5090 單卡。

SoulX-LiveAct的核心優勢

  • Neighbor Forcing 技術:通過相同擴散步對齊相鄰幀,消除傳統AR擴散模型中分佈不一致導致的畫面抖動,確保生成過程穩定連貫。
  • ConvKV Memory 機制:採用”短期精確+長期壓縮”策略,將歷史KV緩存壓縮爲固定長度,實現恆定顯存佔用,突破時長瓶頸,支持小時級甚至無限時長生成。
  • 實時流式推理:模型僅需雙卡H100/H200即可實現20 FPS實時輸出,端到端延遲僅0.94秒,滿足直播等實時交互場景需求。
  • 低計算成本:每幀僅需27.2 TFLOPs,較同類方法降低30%-45%計算成本,兼顧高質量與高效率。
  • 長時一致性:小時級視頻中保持人物身份穩定、關鍵細節不丟失、口型精準同步,避免身份漂移和配飾忽隱忽現等問題。

如何使用SoulX-LiveAct

  • 環境準備:使用conda創建名爲liveact的Python 3.10環境並激活。
  • 安裝基礎依賴:通過pip安裝requirements.txt中的依賴,並通過conda安裝sox音頻處理工具。
  • 安裝SageAttention:克隆SageAttention倉庫並切換到v2.2.0版本,運行setup.py安裝來啓用FP8注意力加速。
  • 安裝QKV算子融合版本(可選):克隆SageAttentionFusion倉庫進行安裝,進一步提升算子融合性能。
  • 安裝vLLM:通過pip安裝vLLM 0.11.0版本,提供FP8 GEMM矩陣運算支持。
  • 安裝LightVAE:克隆LightX2V倉庫並運行setup_vae.py安裝視頻編解碼組件。
  • 下載模型權重:從Hugging Face或ModelScope下載SoulX-LiveAct模型文件到本地目錄。
  • 下載音頻編碼器:獲取chinese-wav2vec2-base音頻特徵提取模型。
  • 雙卡H100/H200實時推理:設置環境變量並運行torchrun啓動雙卡分佈式推理,指定模型路徑、音頻編碼器路徑、輸入JSON文件,啓用20 FPS流式音頻生成。
  • 支持動作/表情編輯的推理:用512×512分辨率和24 FPS幀率,加載包含編輯指令的example_edit.json文件實現可控表情動作生成。
  • RTX 4090/5090消費級顯卡運行:單卡模式下啓用FP8 KV緩存、顯存塊卸載和T5文本編碼器CPU offload,在消費級顯卡上降低顯存佔用運行。
  • 準備輸入數據:編輯JSON配置文件指定參考圖像路徑、驅動音頻路徑、情感動作文本提示等生成參數。
  • 啓動實時流式生成:執行推理命令後,系統根據音頻輸入實時輸出脣同步、表情動作協調的數字人視頻流。

SoulX-LiveAct的項目地址

  • 項目官網:https://soul-ailab.github.io/soulx-liveact/
  • GitHub倉庫:https://github.com/Soul-AILab/SoulX-LiveAct
  • HuggingFace模型庫:https://huggingface.co/Soul-AILab/LiveAct
  • arXiv技術論文:https://arxiv.org/pdf/2603.11746

SoulX-LiveAct的同類競品對比

對比維度 InfiniteTalk Live-Avatar OmniAvatar SoulX-LiveAct
推理效率
吞吐量 25 FPS 20 FPS 20 FPS
延遲 3.20 s 2.89 s 0.94 s
GPU數量 8 5 2
每幀TFLOPs 50.2 39.1 27.2
長時生成能力
顯存佔用 線性增長 線性增長 線性增長 恆定
最大時長 受顯存限制 受顯存限制 受顯存限制 無限
身份一致性 後期漂移 逐漸漂移 嚴重漂移 穩定保持
口型同步 後期失配 逐步失配 失配嚴重 持續精準
配飾/紋理一致性 忽隱忽現 細節丟失 嚴重丟失 持續穩定

SoulX-LiveAct的應用場景

  • 直播場景:模型能實時生成數字人主播,支持7×24小時不間斷直播,口型與語音精準同步,表情自然豐富,適用電商帶貨、娛樂直播、知識分享等場景。
  • 虛擬客服:模型能提供全天候在線服務,數字人形象穩定一致,支持長時間對話交互,降低企業人力成本,提升服務體驗。
  • 播客/對話節目:用於雙人對談、訪談節目製作,實時生成自然的面部表情和肢體語言,嘉賓形象可控可編輯,快速產出高質量內容。
  • FaceTime/視頻通話:可用於虛擬社交、在線教育、遠程會議等B端場景,延遲低至0.94秒,交互流暢自然。

© 版權聲明

相關文章

暫無評論

暫無評論...