Wan-Streamer是什麼
Wan-Streamer 是阿里達摩院開源的端到端實時全雙工多模態基礎模型,通過統一因果 Transformer 架構將文本、音頻、視頻的輸入輸出 token 整合爲同一條因果序列,實現亞秒級實時雙向視頻交互,模型響應延遲僅 200ms,端到端總延遲 550ms,穩定輸出 25FPS 同步音視頻。

Wan-Streamer的主要功能
- 實時音視頻對話:支持用戶與 AI 數字人進行雙向視頻通話,AI 可同步輸出語音與面部表情。
- 全雙工交互:支持用戶實時打斷、AI 主動提問,實現自然流暢的人機對話。
- 多模態輸入理解:同時接收並理解用戶的視頻畫面、語音和文字輸入。
- 流式分片生成:採用 160ms 短時流式分片,邊接收信息邊生成反饋,無需等待全幀。
- 長時序一致性:全局 KV 上下文緩存保證長時間對話中人物形象、語氣穩定統一。
Wan-Streamer的技術原理
- 統一單 Transformer 流式架構:將用戶畫面、人聲、文字輸入與 AI 語音、表情、字幕輸出交錯爲一條因果 token 流,文本自迴歸預測,音視頻條件流匹配聯合生成。
- 全因果技術棧設計:編碼器、解碼器、VAE 到注意力層全部遵循因果約束,僅使用歷史時序信息預測下一單元,核心塊因果注意力限制未來 token 不可見。
- 三段式訓練流程:多任務預訓練混合圖文語音對話數據,全雙工微調學習傾聽插話停頓行爲,流式蒸餾大教師模型輕量化並採用滾動自強制策略。
- Thinker-Performer 雙 GPU 推理:Thinker 處理用戶音視頻編碼與上下文更新,Performer 執行流匹配音視頻去噪生成,兩者共享上下文並行執行。
如何使用Wan-Streamer
目前 Wan-Streamer 僅發佈論文與項目官網演示,完整代碼和模型權重尚未開源,暫無法本地部署。
Wan-Streamer的核心優勢
-
超低延遲:模型側 200ms 響應,端到端僅 550ms,遠低於行業 1 秒以上水平。
-
端到端一體化:單一模型完成感知、理解、生成全流程,無需 ASR、LLM、TTS、渲染多模塊拼接。
-
全雙工實時交互:支持邊聽邊回應、中途打斷,交互自然度媲美真人。
-
音視頻同步:語音與面部動作同步約束生成,無需後期對齊修復,口型零錯位。
-
長對話穩定性:全局 KV 上下文保證人物容貌與語氣長時間不漂移。
Wan-Streamer的項目地址
- 項目官網:https://wan-streamer.com/
- arXiv技術論文:https://arxiv.org/pdf/2606.25041
Wan-Streamer的同類競品對比
| 對比維度 | Wan-Streamer | GPT-4o Realtime |
|---|---|---|
| 開發方 | 阿里達摩院 | OpenAI |
| 視頻輸入 | ✅ 支持 | ✅ 支持 |
| 同步視頻輸出 | ✅ 數字人視頻 | ❌ 僅語音 |
| 全雙工交互 | ✅ 實時打斷/插話 | ⚠️ 部分支持 |
| 端到端架構 | ✅ 單一 Transformer | ❌ ASR+LLM+TTS 拼接 |
| 模型響應延遲 | 200ms | 230ms |
| 端到端總延遲 | ~0.55s | ~0.8s |
| 渲染延遲 | 含端到端內 | 不含(僅語音) |
| 口型同步 | ✅ 原生同步生成 | ❌ 無視頻輸出 |
| 長時序一致性 | ✅ 全局 KV 緩存 | ⚠️ 依賴外部系統 |
| 當前分辨率 | 192p(原型) | 無視頻輸出 |
Wan-Streamer的應用場景
-
虛擬客服:銀行、電商等場景提供面對面實時視頻諮詢服務。
-
直播互動:AI 主播實時回應觀衆彈幕與語音提問,提升直播間互動體驗。
-
AI 陪伴:情感陪伴數字人支持實時視頻聊天,提供沉浸式陪伴體驗。
-
遊戲 NPC:交互式遊戲角色與玩家實時視頻對話,增強遊戲沉浸感。
-
在線教育:AI 虛擬教師進行實時視頻答疑與個性化輔導。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...