AudioX – 港科大聯合月之暗面推出的擴散變換器模型，任意內容生成音頻

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

AudioX是什麼

AudioX 是香港科技大學和月之暗面聯合提出的統一擴散變壓器模型，專門用於從任意內容生成音頻和音樂。模型能處理多種輸入模態，包括文本、視頻、圖像、音樂和音頻，生成高質量的音頻輸出。核心創新在於多模態掩碼訓練策略，通過隨機掩碼輸入模態，迫使模型從不完整的輸入中學習，增強跨模態表示能力。

AudioX的主要功能

多模態輸入支持
- 文本到音頻（Text-to-Audio）：根據文本描述生成相應的音效。例如，輸入“狗吠聲”，模型可以生成狗吠的音頻。
- 視頻到音頻（Video-to-Audio）：根據視頻內容生成與之匹配的音效。例如，輸入一個汽車行駛的視頻，模型可以生成汽車發動機的聲音。
- 圖像到音頻（Image-to-Audio）：根據圖像內容生成相應的音效。例如，輸入一張暴風雨的圖片，模型可以生成暴風雨的聲音。
- 音樂生成（Music Generation）：根據文本描述或視頻內容生成音樂。例如，輸入“輕鬆的鋼琴曲”，模型可以生成一段輕鬆的鋼琴音樂。
- 音頻修復（Audio Inpainting）：根據上下文信息修復音頻中的缺失部分。例如，輸入一段有空白的音頻，模型可以填補空白部分，使音頻完整。
- 音樂補全（Music Completion）：根據給定的音樂片段生成後續部分。例如，輸入一段音樂的開頭，模型可以生成後續的音樂片段。
高質量音頻生成：AudioX 使用擴散模型（Diffusion Model）技術，能生成高質量、高保真的音頻和音樂，確保生成的音頻在音質和細節上接近真實音頻。
靈活的自然語言控制：用戶可以通過自然語言描述來精確控制生成的音頻內容。例如，用戶可以指定音效的類型、音樂的風格、樂器的使用等，使生成的音頻更符合需求。
跨模態學習能力：AudioX 能處理多種模態的輸入，將它們有效整合，生成與輸入條件一致的音頻。例如，同時輸入文本和視頻，模型可以綜合考慮兩者的語義信息，生成更貼合場景的音頻。
強大的泛化能力：在多個數據集和任務上表現出色，包括 AudioCaps、VGGSound、MusicCaps、V2M-bench 等，證明了其在不同場景下的泛化能力和適應性。
零樣本生成能力：沒有針對特定模態（如圖像）的專門訓練，AudioX 能在零樣本條件下生成高質量的音頻，展示了強大的通用生成能力。

AudioX的技術原理

擴散模型（Diffusion Model）：AudioX 使用擴散模型的核心思想，將輸入數據逐步添加噪聲，然後通過一個逆向過程逐步去除噪聲，最終生成高質量的音頻或音樂。
- 前向擴散過程：將輸入數據逐步添加高斯噪聲，生成一系列含噪的潛變量。
- 反向去噪過程：通過訓練一個去噪網絡（通常是一個 Transformer），逐步去除噪聲，重建乾淨的音頻數據。
多模態掩碼訓練策略：爲了增強模型的跨模態學習能力，AudioX 採用了多模態掩碼訓練策略。在訓練過程中，模型會隨機掩碼部分輸入模態，迫使模型從不完整的輸入中學習，提高模型的魯棒性和泛化能力。
多模態編碼器和解碼器：AudioX 集成了多種專用編碼器，分別處理不同模態的輸入數據，然後將這些編碼後的特徵融合到一個統一的潛空間中。
- 視頻編碼器：使用 CLIP-ViT-B/32 提取視頻幀的特徵。
- 文本編碼器：使用 T5-base 提取文本的特徵。
- 音頻編碼器：使用自編碼器提取音頻的特徵。
- 特徵融合：將不同模態的特徵通過線性變換和連接操作融合到一個統一的多模態嵌入向量中。
擴散過程中的條件嵌入：在擴散過程中，多模態嵌入向量作爲條件輸入，幫助模型生成與輸入條件一致的音頻或音樂。將融合後的多模態特徵與擴散時間步一起輸入到擴散模型中。通過逐步去除噪聲，生成與輸入條件匹配的高質量音頻或音樂。
數據集和訓練：爲了訓練 AudioX，研究人員構建了兩個大規模的多模態數據集：vggsound-caps，基於 VGGSound 數據集，包含 190K 音頻字幕。V2M-caps，基於 V2M 數據集，包含 600 萬音樂字幕。