虎牙VAM 1.0 – 虎牙推出的實時多模態數字人基礎模型

AI工具2天前發佈新公告 AI管理員
0 0

虎牙VAM 1.0是什麼

虎牙VAM 1.0(Vivid Avatar Model)是虎牙推出的基於DiT架構的實時多模態數字人基礎模型,一張照片可生成能說話、能唱歌跳舞的AI數字人。模型以480×832分辨率、28幀流式輸出實現7×24小時實時直播互動,支持全雙工對話、即時打斷、彈幕回覆與多角色策略遊戲,在真實感、身份保持與推理速度上全面領先,適用直播帶貨、新聞播報、虛擬演唱會等場景。

虎牙VAM 1.0 – 虎牙推出的實時多模態數字人基礎模型

虎牙VAM 1.0的主要功能

  • 照片一鍵生成數字人:上傳一張照片,可生成能說話、能唱歌跳舞的實時AI數字人形象。
  • 全雙工實時對話:支持文字與語音雙鏈路輸入,可隨時打斷、即時接話,實現真人級流暢互動。
  • 多才藝實時表演:可實時生成唱歌、跳舞等內容,嘴型與歌詞同步,肢體動作自然流暢。
  • 多角色策略遊戲:支持狼人殺、塔羅等複雜多人互動遊戲,AI角色具備獨立立場與發言風格。
  • 7×24小時直播:480×832分辨率、28幀流式輸出,可連續運行24小時以上不崩、不走樣。
  • 彈幕實時互動:支持讀取直播間彈幕並實時回覆,適配真實直播帶貨、新聞播報等場景。

虎牙VAM 1.0的技術原理

  • DiT多模態架構:基於Diffusion Transformer構建,整合VAE圖像編碼、文本編碼與音頻編碼,通過通道拼接輸入DiT Block進行統一生成。
  • 三重交叉注意力機制:DiT Block內嵌Self-Attention、Text & Image Cross-Attention與Adaptive Audio Cross-Attention,分別處理自注意力、圖文對齊與音頻驅動的嘴型同步。
  • Motion-Controller運動控制:引入運動潛在變量控制模塊,豐富表情與動作多樣性,使語音停頓時頭部肢體同步放緩、聽到音樂時跟隨節拍點頭。
  • 三階段漸進訓練:第一階段用多參考圖+運動幀錨定人物並喂入劣化場景訓練穩定性;第二階段用DPO偏好優化平衡嘴型、表情、動作多目標;第三階段通過模型蒸餾將推理步數從20步壓縮至4步。
  • 自糾錯機制:推理時將已生成幀作爲輸入繼續生成,在訓練階段即學會自我糾偏,防止累積誤差導致面部漂移與畫面撕裂。

如何使用虎牙VAM 1.0

模型處於內測/邀請體驗階段,尚未開放公開。

VAM 1.0的核心優勢

  • :多參考圖錨定 + 運動幀策略 + 自糾錯機制,連續24小時不崩、不走樣、不撕裂。
  • :原生覆蓋靜默、聆聽、說話三種狀態,微表情與肢體動作調控精度接近真人。
  • :首幀延遲約1.3秒,片段生成延遲僅0.77秒,8×H200 GPU達36.4 FPS,行業最快。
  • :模型蒸餾將推理步數從20步壓縮至4步,計算開銷顯著低於同類方案。
  • :DPO偏好優化平衡嘴型、表情、動作多目標,真實感與身份保持全面領先。

VAM 1.0的同類競品對比

對比維度 虎牙 VAM 1.0 OmniHuman 1.5
架構 DiT(Diffusion Transformer) 擴散模型 + 音頻驅動
實時性 ✅ 實時流式輸出,28 FPS ❌ 非實時,需預生成視頻
交互能力 ✅ 全雙工對話,支持打斷/接話 ❌ 單向播報,無實時交互
連續運行 ✅ 7×24小時穩定直播 ❌ 無法長時間連續運行
輸入方式 照片 + 文字/語音/彈幕 照片 + 音頻
應用場景 直播帶貨、遊戲互動、虛擬陪伴 短視頻生成、口播視頻
延遲 0.77秒/片段 分鐘級生成
多角色 ✅ 支持10人同場狼人殺博弈 ❌ 單角色驅動

VAM 1.0的應用場景

  • AI直播帶貨:數字人主播24小時在線,實時讀取彈幕互動,推薦商品並解答問題。
  • 虛擬新聞播報:新聞主播全天候播報,形象穩定不走樣,口條流暢、肢體自然。
  • 虛擬演唱會:AI歌手實時演唱,嘴型與音樂節拍同步,支持多曲風連續表演。
  • 遊戲陪玩互動:塔羅占卜、狼人殺等策略遊戲,AI角色具備獨立人格與博弈能力。
  • 情感陪伴聊天:個性化AI助手,支持方言對話、記憶用戶偏好,提供沉浸式陪伴。
© 版權聲明

相關文章

暫無評論

暫無評論...