PrismAudio – 阿里通義推出的視頻生成音頻框架

AI工具3天前發佈新公告 AI管理員

0 0 0

PrismAudio是什麼

PrismAudio 是阿里通義實驗室推出的視頻生成音頻（Video-to-Audio）框架，可爲無聲視頻自動配上環境音效。模型首創”分解式思維鏈”技術，讓模型先思考聲音內容、時機、質感、空間位置，再生成音頻，引入四位”老師”（語義、時序、美學、空間）多維打分優化。模型僅5.18億參數，生成9秒音頻僅需0.63秒，性能全面超越現有方法，現已被ICLR 2026收錄。

PrismAudio – 阿里通義推出的視頻生成音頻框架

PrismAudio的主要功能

視頻轉音頻：模型能爲無聲視頻自動生成與畫面匹配的環境音效（如馬蹄聲、風雨聲等）。
語義對齊：模型能確保生成的聲音內容與視頻中的物體、動作準確對應，避免音畫不符。
時序同步：支持精準控制聲音與視覺事件的發生時機，實現嚴絲合縫的同步效果。
美學優化：模型生成自然、有層次感、無電子感的高質量音頻，提升聽覺體驗。
空間定位：支持立體聲輸出，根據畫面中聲源位置自動調整左右聲道，實現聽聲辨位。
思維鏈推理：採用”先思考、再發聲”的分解式思維鏈，讓生成過程可解釋、可控制。

PrismAudio的關鍵信息和使用要求

開發方：阿里通義實驗室（Tongyi Fun Team）
技術類型：視頻生成音頻（V2A）框架
核心創新：分解式思維鏈 + 多維度強化學習
模型規模：5.18 億參數
輸出規格：44kHz 立體聲
推理速度：生成 9 秒音頻僅需 0.63 秒
輸入格式：無聲視頻（支持常見視頻格式）
內容限制：僅生成環境音/音效，不支持人物配音
可選輸入：可搭配文本描述輔助生成（非必須）
硬件需求：支持 GPU 加速，也可 CPU 運行

PrismAudio的核心優勢

四維協同優化：首創分解式思維鏈，將語義、時序、美學、空間四個維度獨立建模並協同優化，避免傳統模型”顧此失彼”的弊端，實現音畫高度統一。
先思考再發聲：突破端到端黑箱生成模式，模型先輸出結構化推理文本（聲音內容、時機、質感、方位），再生成音頻，過程可解釋、可控制。
高效輕量：僅5.18億參數，生成9秒音頻僅需0.63秒，速度比同類模型快近一倍，更適合實時應用場景。
複雜場景魯棒：在自建的AudioCanvas複雜場景基準上表現遠超現有方法，多事件、多聲源場景下仍能保持穩定輸出。

如何使用PrismAudio

在線體驗（推薦新手）：訪問 Hugging Face 在線體驗Demo，上傳無聲視頻，可選輸入文本描述輔助生成，AI自動生成音頻文件。
本地部署：從 GitHub 或 Hugging Face 下載開源代碼與模型權重，安裝依賴環境後加載預訓練模型，輸入視頻路徑調用推理接口生成音頻，支持自定義調整思維鏈參數或獎勵權重。

PrismAudio的項目地址

項目官網：https://prismaudio-project.github.io/
GitHub倉庫：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
HuggingFace模型庫：https://huggingface.co/FunAudioLLM/PrismAudio
arXiv技術論文：https://arxiv.org/pdf/2511.18833
在線體驗Demo：https://huggingface.co/spaces/FunAudioLLM/PrismAudio

PrismAudio的同類競品對比

對比維度	PrismAudio	MMAudio	ThinkSound
開發方	阿里通義實驗室	新加坡南洋理工大學等	阿里通義實驗室
核心方法	分解式思維鏈 + 多維度強化學習	多模態Transformer	單體思維鏈
參數量	5.18億	約10億	數十億
推理速度	0.63秒/9秒音頻	1.30秒/9秒音頻	1.07秒/9秒音頻
輸出音質	44kHz立體聲	44kHz單聲道	44kHz立體聲
語義一致性(CLAP)	0.47	0.40	0.43
時序同步性(DeSync)	0.41	0.46	0.55
空間準確性(CRW)	7.72	—	13.47
美學質量(MOS-Q)	4.21	3.95	4.05

PrismAudio的應用場景

影視後期：爲電影、紀錄片、預告片自動生成環境音效，替代傳統擬音工作，降低後期製作成本和時間。
短視頻創作：爲Vlog、美食、旅行等無聲視頻快速配上氛圍音，增強ASMR和治癒類內容的沉浸感與傳播效果。
遊戲開發：爲過場動畫和CG宣傳片生成動態音效，根據森林、城市、戰場等場景實時匹配環境音，減少音效師重複勞動。
廣告營銷：爲產品展示視頻自動添加操作音效，支持快速迭代多版本音軌，提升廣告測試效率和創意靈活性。
教育培訓：爲教學視頻和操作演示補充提示音與背景音，豐富多媒體課件的聽覺體驗，提高學習專注度和信息吸收率。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Mureka – 崑崙萬維推出的 AI 音樂商用創作平台

earnbyshare2016

48 0

Paradot – AI社交伴侶應用，有記憶能力個性化定製的交友AI

earnbyshare2016

39 0

Cal AI – 掃描食物熱量的APP，AI分析食物中蛋白、碳水和脂肪含量

earnbyshare2016

174 0

Julius – AI數據分析工具，自然語言互動分析獲取可視化結果

earnbyshare2016

4 0

新HiDreamClaw – 智象未來推出的多模態原生 AI Agent 應用

earnbyshare2016

0 0

Seed-TTS – 字節跳動推出的高質量文本到語音生成模型

earnbyshare2016

31 0

暫無評論

暫無評論...