SemanticAudio – 港中文等推出的音頻生成與編輯框架

0 0 0

SemanticAudio是什麼

SemanticAudio 是香港中文大學、LIGHTSPEED、上海交通大學聯合推出的音頻生成與編輯框架。框架將文本到音頻生成拆分爲”語義規劃”與”聲學合成”兩階段，在高層語義空間規劃聲音事件的身份、時序與結構，再渲染爲高質量音頻。框架支持無需訓練的文本引導音頻編輯，在 AudioCaps 和 TTABench 基準上均顯著優於 TangoFlux 等主流方法，實現語義對齊與生成質量的雙重提升。

SemanticAudio的主要功能

文本到音頻生成：輸入自然語言描述，生成環境聲、動作聲、複雜聲音場景等高質量音頻。
語義規劃生成：在高層語義空間規劃聲音事件的全局佈局，再合成聲學細節。
無需訓練音頻編輯：通過 FlowEdit ODE 機制，直接在語義空間中修改聲音屬性，支持替換、調整等操作。
幀級語義嵌入：提取保留時間結構的語義表示，精準描述複雜音頻中的事件順序和局部變化。

SemanticAudio的技術原理

兩階段 Flow Matching 架構：SemanticAudio 將音頻生成拆分爲語義規劃與聲學合成兩階段，Semantic Planner 先從文本生成緊湊語義表示，描繪聲音事件的全局佈局。Acoustic Synthesizer 再用該語義計劃爲條件，生成高質量聲學潛變量並解碼爲音頻。解耦使模型分工明確，避免單階段模型在聲學空間中同時處理語義理解與聲學渲染的耦合問題。
語義空間的構建與壓縮：用 Perception Encoder 提取幀級語義嵌入以保留時間結構，再通過輕量 MLP 壓縮至 128 維。低維語義空間既保留關鍵聲音身份與時序信息，又能被 Flow Matching 模型高效學習，成爲連接文本語義與聲學細節的關鍵中間層。
FlowEdit ODE：用源文本與目標文本的速度場差異引導語義軌跡編輯，將源音頻編碼爲語義潛變量，計算兩文本的速度場差值確定編輯方向，執行 ODE 步進得到目標語義表示，再經聲學合成器還原。編輯在高層語義空間進行，無需額外訓練、反演或配對數據，即可實現屬性級修改。
語義-聲學解耦的核心價值：顯式解耦使模型先在語義空間規劃多事件身份與時序，再合成聲學細節，避免複雜提示詞下的事件缺失與順序錯誤。語義空間爲編輯提供更清晰、可解釋的操作對象，修改更接近”改變聲音內容本身”，實現更穩定靈活的文本引導修改。

SemanticAudio – 港中文等推出的音頻生成與編輯框架

微信關注回覆“開源”，加入AI開源項目交流羣

如何使用SemanticAudio

訪問 Demo 頁面：打開 https://semanticaudio1.github.io/ 體驗在線演示。
輸入文本提示：描述目標聲音場景，如”狗叫之後傳來汽車鳴笛”。
語義規劃：Semantic Planner 生成緊湊語義表示，規劃聲音事件佈局。
聲學合成：Acoustic Synthesizer 將語義計劃渲染爲高質量音頻。
音頻編輯（可選）：輸入源音頻和目標文本，用 FlowEdit ODE 在語義空間中修改聲音屬性。

SemanticAudio的核心優勢

語義對齊顯著提升：通過先規劃語義佈局再合成聲學細節，AudioCaps LAION-CLAP 達到 0.381，優於 TangoFlux 的 0.361，複雜提示詞理解更準確。
無需訓練即可編輯：FlowEdit ODE 機制利用速度場差異在語義空間中引導軌跡，支持屬性級修改，CLAP 提升 +0.094，優於同類方法且無需額外訓練。
生成質量與可控性兼顧：FD 19.1、MOS 3.72，在顯著提升文本-音頻語義對齊的同時保持高保真聽感質量。
複雜提示詞處理強：顯式規劃多事件身份與時序關係，有效避免事件缺失、順序錯誤和文本對齊不足等問題。
更符合人類創作流程：採用先規劃聲音場景結構再補充聲學細節的範式，實現想清楚再說出來的生成方式。

SemanticAudio的同類競品對比

維度	SemanticAudio	TangoFlux
架構	兩階段（語義規劃+聲學合成）	單階段聲學空間生成
語義對齊	LAION-CLAP 0.381	LAION-CLAP 0.361
編輯能力	無需訓練，屬性級修改	需 FlowEdit 適配，效果較弱
複雜提示詞	顯式規劃時序，不易出錯	易遺漏事件或混淆順序
生成質量	FD 19.1，MOS 3.72	FD 22.6
核心差異	語義-聲學解耦，先想後說	直接在聲學空間建模