PrismAudio – 阿里通義推出的視頻生成音頻框架

AI工具3天前發佈新公告 AI管理員
0 0

PrismAudio是什麼

PrismAudio 是阿里通義實驗室推出的視頻生成音頻(Video-to-Audio)框架,可爲無聲視頻自動配上環境音效。模型首創”分解式思維鏈”技術,讓模型先思考聲音內容、時機、質感、空間位置,再生成音頻,引入四位”老師”(語義、時序、美學、空間)多維打分優化。模型僅5.18億參數,生成9秒音頻僅需0.63秒,性能全面超越現有方法,現已被ICLR 2026收錄。

PrismAudio – 阿里通義推出的視頻生成音頻框架

PrismAudio的主要功能

  • 視頻轉音頻:模型能爲無聲視頻自動生成與畫面匹配的環境音效(如馬蹄聲、風雨聲等)。
  • 語義對齊:模型能確保生成的聲音內容與視頻中的物體、動作準確對應,避免音畫不符。
  • 時序同步:支持精準控制聲音與視覺事件的發生時機,實現嚴絲合縫的同步效果。
  • 美學優化:模型生成自然、有層次感、無電子感的高質量音頻,提升聽覺體驗。
  • 空間定位:支持立體聲輸出,根據畫面中聲源位置自動調整左右聲道,實現聽聲辨位。
  • 思維鏈推理:採用”先思考、再發聲”的分解式思維鏈,讓生成過程可解釋、可控制。

PrismAudio的關鍵信息和使用要求

  • 開發方:阿里通義實驗室(Tongyi Fun Team)
  • 技術類型:視頻生成音頻(V2A)框架
  • 核心創新:分解式思維鏈 + 多維度強化學習
  • 模型規模:5.18 億參數
  • 輸出規格:44kHz 立體聲
  • 推理速度:生成 9 秒音頻僅需 0.63 秒
  • 輸入格式:無聲視頻(支持常見視頻格式)
  • 內容限制:僅生成環境音/音效,不支持人物配音
  • 可選輸入:可搭配文本描述輔助生成(非必須)
  • 硬件需求:支持 GPU 加速,也可 CPU 運行

PrismAudio的核心優勢

  • 四維協同優化:首創分解式思維鏈,將語義、時序、美學、空間四個維度獨立建模並協同優化,避免傳統模型”顧此失彼”的弊端,實現音畫高度統一。
  • 先思考再發聲:突破端到端黑箱生成模式,模型先輸出結構化推理文本(聲音內容、時機、質感、方位),再生成音頻,過程可解釋、可控制。
  • 高效輕量:僅5.18億參數,生成9秒音頻僅需0.63秒,速度比同類模型快近一倍,更適合實時應用場景。
  • 複雜場景魯棒:在自建的AudioCanvas複雜場景基準上表現遠超現有方法,多事件、多聲源場景下仍能保持穩定輸出。

如何使用PrismAudio

  • 在線體驗(推薦新手):訪問 Hugging Face 在線體驗Demo,上傳無聲視頻,可選輸入文本描述輔助生成,AI自動生成音頻文件。
  • 本地部署:從 GitHub 或 Hugging Face 下載開源代碼與模型權重,安裝依賴環境後加載預訓練模型,輸入視頻路徑調用推理接口生成音頻,支持自定義調整思維鏈參數或獎勵權重。

PrismAudio的項目地址

  • 項目官網:https://prismaudio-project.github.io/
  • GitHub倉庫:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
  • HuggingFace模型庫:https://huggingface.co/FunAudioLLM/PrismAudio
  • arXiv技術論文:https://arxiv.org/pdf/2511.18833
  • 在線體驗Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio

PrismAudio的同類競品對比

對比維度 PrismAudio MMAudio ThinkSound
開發方 阿里通義實驗室 新加坡南洋理工大學等 阿里通義實驗室
核心方法 分解式思維鏈 + 多維度強化學習 多模態Transformer 單體思維鏈
參數量 5.18億 約10億 數十億
推理速度 0.63秒/9秒音頻 1.30秒/9秒音頻 1.07秒/9秒音頻
輸出音質 44kHz立體聲 44kHz單聲道 44kHz立體聲
語義一致性(CLAP) 0.47 0.40 0.43
時序同步性(DeSync) 0.41 0.46 0.55
空間準確性(CRW) 7.72 13.47
美學質量(MOS-Q) 4.21 3.95 4.05

PrismAudio的應用場景

  • 影視後期:爲電影、紀錄片、預告片自動生成環境音效,替代傳統擬音工作,降低後期製作成本和時間。
  • 短視頻創作:爲Vlog、美食、旅行等無聲視頻快速配上氛圍音,增強ASMR和治癒類內容的沉浸感與傳播效果。
  • 遊戲開發:爲過場動畫和CG宣傳片生成動態音效,根據森林、城市、戰場等場景實時匹配環境音,減少音效師重複勞動。
  • 廣告營銷:爲產品展示視頻自動添加操作音效,支持快速迭代多版本音軌,提升廣告測試效率和創意靈活性。
  • 教育培訓:爲教學視頻和操作演示補充提示音與背景音,豐富多媒體課件的聽覺體驗,提高學習專注度和信息吸收率。
© 版權聲明

相關文章

暫無評論

暫無評論...