Wan-Streamer – 阿里開源的實時全雙工多模態基礎模型

AI工具11小時前發佈新公告 AI管理員
0 0

Wan-Streamer是什麼

Wan-Streamer 是阿里達摩院開源的端到端實時全雙工多模態基礎模型,通過統一因果 Transformer 架構將文本、音頻、視頻的輸入輸出 token 整合爲同一條因果序列,實現亞秒級實時雙向視頻交互,模型響應延遲僅 200ms,端到端總延遲 550ms,穩定輸出 25FPS 同步音視頻。

Wan-Streamer – 阿里開源的實時全雙工多模態基礎模型

Wan-Streamer的主要功能

  • 實時音視頻對話:支持用戶與 AI 數字人進行雙向視頻通話,AI 可同步輸出語音與面部表情。
  • 全雙工交互:支持用戶實時打斷、AI 主動提問,實現自然流暢的人機對話。
  • 多模態輸入理解:同時接收並理解用戶的視頻畫面、語音和文字輸入。
  • 流式分片生成:採用 160ms 短時流式分片,邊接收信息邊生成反饋,無需等待全幀。
  • 長時序一致性:全局 KV 上下文緩存保證長時間對話中人物形象、語氣穩定統一。

Wan-Streamer的技術原理

  • 統一單 Transformer 流式架構:將用戶畫面、人聲、文字輸入與 AI 語音、表情、字幕輸出交錯爲一條因果 token 流,文本自迴歸預測,音視頻條件流匹配聯合生成。
  • 全因果技術棧設計:編碼器、解碼器、VAE 到注意力層全部遵循因果約束,僅使用歷史時序信息預測下一單元,核心塊因果注意力限制未來 token 不可見。
  • 三段式訓練流程:多任務預訓練混合圖文語音對話數據,全雙工微調學習傾聽插話停頓行爲,流式蒸餾大教師模型輕量化並採用滾動自強制策略。
  • Thinker-Performer 雙 GPU 推理:Thinker 處理用戶音視頻編碼與上下文更新,Performer 執行流匹配音視頻去噪生成,兩者共享上下文並行執行。

如何使用Wan-Streamer

目前 Wan-Streamer 僅發佈論文與項目官網演示,完整代碼和模型權重尚未開源,暫無法本地部署。

Wan-Streamer的核心優勢

  • 超低延遲:模型側 200ms 響應,端到端僅 550ms,遠低於行業 1 秒以上水平。
  • 端到端一體化:單一模型完成感知、理解、生成全流程,無需 ASR、LLM、TTS、渲染多模塊拼接。
  • 全雙工實時交互:支持邊聽邊回應、中途打斷,交互自然度媲美真人。
  • 音視頻同步:語音與面部動作同步約束生成,無需後期對齊修復,口型零錯位。
  • 長對話穩定性:全局 KV 上下文保證人物容貌與語氣長時間不漂移。

Wan-Streamer的項目地址

  • 項目官網:https://wan-streamer.com/
  • arXiv技術論文:https://arxiv.org/pdf/2606.25041

Wan-Streamer的同類競品對比

對比維度 Wan-Streamer GPT-4o Realtime
開發方 阿里達摩院 OpenAI
視頻輸入 ✅ 支持 ✅ 支持
同步視頻輸出 ✅ 數字人視頻 ❌ 僅語音
全雙工交互 ✅ 實時打斷/插話 ⚠️ 部分支持
端到端架構 ✅ 單一 Transformer ❌ ASR+LLM+TTS 拼接
模型響應延遲 200ms 230ms
端到端總延遲 ~0.55s ~0.8s
渲染延遲 含端到端內 不含(僅語音)
口型同步 ✅ 原生同步生成 ❌ 無視頻輸出
長時序一致性 ✅ 全局 KV 緩存 ⚠️ 依賴外部系統
當前分辨率 192p(原型) 無視頻輸出

Wan-Streamer的應用場景

  • 虛擬客服:銀行、電商等場景提供面對面實時視頻諮詢服務。
  • 直播互動:AI 主播實時回應觀衆彈幕與語音提問,提升直播間互動體驗。
  • AI 陪伴:情感陪伴數字人支持實時視頻聊天,提供沉浸式陪伴體驗。
  • 遊戲 NPC:交互式遊戲角色與玩家實時視頻對話,增強遊戲沉浸感。
  • 在線教育:AI 虛擬教師進行實時視頻答疑與個性化輔導。
© 版權聲明

相關文章

暫無評論

暫無評論...