PrismAudio是什麼
PrismAudio 是阿里通義實驗室推出的視頻生成音頻(Video-to-Audio)框架,可爲無聲視頻自動配上環境音效。模型首創”分解式思維鏈”技術,讓模型先思考聲音內容、時機、質感、空間位置,再生成音頻,引入四位”老師”(語義、時序、美學、空間)多維打分優化。模型僅5.18億參數,生成9秒音頻僅需0.63秒,性能全面超越現有方法,現已被ICLR 2026收錄。

PrismAudio的主要功能
-
視頻轉音頻:模型能爲無聲視頻自動生成與畫面匹配的環境音效(如馬蹄聲、風雨聲等)。
-
語義對齊:模型能確保生成的聲音內容與視頻中的物體、動作準確對應,避免音畫不符。
-
時序同步:支持精準控制聲音與視覺事件的發生時機,實現嚴絲合縫的同步效果。
-
美學優化:模型生成自然、有層次感、無電子感的高質量音頻,提升聽覺體驗。
-
空間定位:支持立體聲輸出,根據畫面中聲源位置自動調整左右聲道,實現聽聲辨位。
-
思維鏈推理:採用”先思考、再發聲”的分解式思維鏈,讓生成過程可解釋、可控制。
PrismAudio的關鍵信息和使用要求
- 開發方:阿里通義實驗室(Tongyi Fun Team)
- 技術類型:視頻生成音頻(V2A)框架
- 核心創新:分解式思維鏈 + 多維度強化學習
- 模型規模:5.18 億參數
- 輸出規格:44kHz 立體聲
- 推理速度:生成 9 秒音頻僅需 0.63 秒
- 輸入格式:無聲視頻(支持常見視頻格式)
- 內容限制:僅生成環境音/音效,不支持人物配音
- 可選輸入:可搭配文本描述輔助生成(非必須)
- 硬件需求:支持 GPU 加速,也可 CPU 運行
PrismAudio的核心優勢
- 四維協同優化:首創分解式思維鏈,將語義、時序、美學、空間四個維度獨立建模並協同優化,避免傳統模型”顧此失彼”的弊端,實現音畫高度統一。
- 先思考再發聲:突破端到端黑箱生成模式,模型先輸出結構化推理文本(聲音內容、時機、質感、方位),再生成音頻,過程可解釋、可控制。
- 高效輕量:僅5.18億參數,生成9秒音頻僅需0.63秒,速度比同類模型快近一倍,更適合實時應用場景。
- 複雜場景魯棒:在自建的AudioCanvas複雜場景基準上表現遠超現有方法,多事件、多聲源場景下仍能保持穩定輸出。
如何使用PrismAudio
- 在線體驗(推薦新手):訪問 Hugging Face 在線體驗Demo,上傳無聲視頻,可選輸入文本描述輔助生成,AI自動生成音頻文件。
- 本地部署:從 GitHub 或 Hugging Face 下載開源代碼與模型權重,安裝依賴環境後加載預訓練模型,輸入視頻路徑調用推理接口生成音頻,支持自定義調整思維鏈參數或獎勵權重。
PrismAudio的項目地址
- 項目官網:https://prismaudio-project.github.io/
- GitHub倉庫:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
- HuggingFace模型庫:https://huggingface.co/FunAudioLLM/PrismAudio
- arXiv技術論文:https://arxiv.org/pdf/2511.18833
- 在線體驗Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio
PrismAudio的同類競品對比
| 對比維度 | PrismAudio | MMAudio | ThinkSound |
|---|---|---|---|
| 開發方 | 阿里通義實驗室 | 新加坡南洋理工大學等 | 阿里通義實驗室 |
| 核心方法 | 分解式思維鏈 + 多維度強化學習 | 多模態Transformer | 單體思維鏈 |
| 參數量 | 5.18億 | 約10億 | 數十億 |
| 推理速度 | 0.63秒/9秒音頻 | 1.30秒/9秒音頻 | 1.07秒/9秒音頻 |
| 輸出音質 | 44kHz立體聲 | 44kHz單聲道 | 44kHz立體聲 |
| 語義一致性(CLAP) | 0.47 | 0.40 | 0.43 |
| 時序同步性(DeSync) | 0.41 | 0.46 | 0.55 |
| 空間準確性(CRW) | 7.72 | — | 13.47 |
| 美學質量(MOS-Q) | 4.21 | 3.95 | 4.05 |
PrismAudio的應用場景
-
影視後期:爲電影、紀錄片、預告片自動生成環境音效,替代傳統擬音工作,降低後期製作成本和時間。
-
短視頻創作:爲Vlog、美食、旅行等無聲視頻快速配上氛圍音,增強ASMR和治癒類內容的沉浸感與傳播效果。
-
遊戲開發:爲過場動畫和CG宣傳片生成動態音效,根據森林、城市、戰場等場景實時匹配環境音,減少音效師重複勞動。
-
廣告營銷:爲產品展示視頻自動添加操作音效,支持快速迭代多版本音軌,提升廣告測試效率和創意靈活性。
-
教育培訓:爲教學視頻和操作演示補充提示音與背景音,豐富多媒體課件的聽覺體驗,提高學習專注度和信息吸收率。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...