Wan-Streamer – 阿里開源的實時全雙工多模態基礎模型

AI工具11小時前發佈新公告 AI管理員

0 0 0

Wan-Streamer是什麼

Wan-Streamer 是阿里達摩院開源的端到端實時全雙工多模態基礎模型，通過統一因果 Transformer 架構將文本、音頻、視頻的輸入輸出 token 整合爲同一條因果序列，實現亞秒級實時雙向視頻交互，模型響應延遲僅 200ms，端到端總延遲 550ms，穩定輸出 25FPS 同步音視頻。

Wan-Streamer – 阿里開源的實時全雙工多模態基礎模型

Wan-Streamer的主要功能

實時音視頻對話：支持用戶與 AI 數字人進行雙向視頻通話，AI 可同步輸出語音與面部表情。
全雙工交互：支持用戶實時打斷、AI 主動提問，實現自然流暢的人機對話。
多模態輸入理解：同時接收並理解用戶的視頻畫面、語音和文字輸入。
流式分片生成：採用 160ms 短時流式分片，邊接收信息邊生成反饋，無需等待全幀。
長時序一致性：全局 KV 上下文緩存保證長時間對話中人物形象、語氣穩定統一。

Wan-Streamer的技術原理

統一單 Transformer 流式架構：將用戶畫面、人聲、文字輸入與 AI 語音、表情、字幕輸出交錯爲一條因果 token 流，文本自迴歸預測，音視頻條件流匹配聯合生成。
全因果技術棧設計：編碼器、解碼器、VAE 到注意力層全部遵循因果約束，僅使用歷史時序信息預測下一單元，核心塊因果注意力限制未來 token 不可見。
三段式訓練流程：多任務預訓練混合圖文語音對話數據，全雙工微調學習傾聽插話停頓行爲，流式蒸餾大教師模型輕量化並採用滾動自強制策略。
Thinker-Performer 雙 GPU 推理：Thinker 處理用戶音視頻編碼與上下文更新，Performer 執行流匹配音視頻去噪生成，兩者共享上下文並行執行。

如何使用Wan-Streamer

目前 Wan-Streamer 僅發佈論文與項目官網演示，完整代碼和模型權重尚未開源，暫無法本地部署。

Wan-Streamer的核心優勢

超低延遲：模型側 200ms 響應，端到端僅 550ms，遠低於行業 1 秒以上水平。
端到端一體化：單一模型完成感知、理解、生成全流程，無需 ASR、LLM、TTS、渲染多模塊拼接。
全雙工實時交互：支持邊聽邊回應、中途打斷，交互自然度媲美真人。
音視頻同步：語音與面部動作同步約束生成，無需後期對齊修復，口型零錯位。
長對話穩定性：全局 KV 上下文保證人物容貌與語氣長時間不漂移。

Wan-Streamer的項目地址

項目官網：https://wan-streamer.com/
arXiv技術論文：https://arxiv.org/pdf/2606.25041

Wan-Streamer的同類競品對比

對比維度	Wan-Streamer	GPT-4o Realtime
開發方	阿里達摩院	OpenAI
視頻輸入	✅ 支持	✅ 支持
同步視頻輸出	✅ 數字人視頻	❌ 僅語音
全雙工交互	✅ 實時打斷/插話	⚠️ 部分支持
端到端架構	✅ 單一 Transformer	❌ ASR+LLM+TTS 拼接
模型響應延遲	200ms	230ms
端到端總延遲	~0.55s	~0.8s
渲染延遲	含端到端內	不含（僅語音）
口型同步	✅ 原生同步生成	❌ 無視頻輸出
長時序一致性	✅ 全局 KV 緩存	⚠️ 依賴外部系統
當前分辨率	192p（原型）	無視頻輸出

Wan-Streamer的應用場景

虛擬客服：銀行、電商等場景提供面對面實時視頻諮詢服務。
直播互動：AI 主播實時回應觀衆彈幕與語音提問，提升直播間互動體驗。
AI 陪伴：情感陪伴數字人支持實時視頻聊天，提供沉浸式陪伴體驗。
遊戲 NPC：交互式遊戲角色與玩家實時視頻對話，增強遊戲沉浸感。
在線教育：AI 虛擬教師進行實時視頻答疑與個性化輔導。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

PixArt-Σ – 華爲推出的可生成4K高清圖像的文生圖模型

earnbyshare2016

55 0

Lepton Search – 開源的對話式AI搜索引擎項目

earnbyshare2016

11 0

ConsiStory – 免訓練實現主題一致性的文生圖方法

earnbyshare2016

12 0

豆包AI視頻模型 – 字節跳動推出的AI視頻生成大模型：PixelDance和Seaweed

earnbyshare2016

36 0

PixVerse C1 – 愛詩科技推出的全球首個影視行業大模型

earnbyshare2016

6 0

GreenConvert – AI 音視頻轉錄平台，雙引擎轉錄模式

earnbyshare2016

0 0

暫無評論

暫無評論...