Muyan-TTS – 開源文本轉語音模型，零樣本語音合成

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

Muyan-TTS是什麼

Muyan-TTS 是爲播客場景設計的開源文本轉語音（TTS）模型。模型預訓練超過10萬小時的播客音頻數據，能實現零樣本語音合成，無需大量目標說話人的語音數據可生成高質量語音。模型支持說話人適配，進行個性化語音定製。Muyan-TTS 合成速度快，0.33秒能生成1秒音頻，適合實時應用。Muyan-TTS 能自然連貫地合成長篇內容，如播客、有聲書等，支持本地部署和API使用，方便集成到各種應用中。

Muyan-TTS的主要功能

零樣本語音合成：無需大量目標說話人數據，用少量參考語音和文本生成高質量語音。
說話人適配：基於少量目標說話人語音數據微調，實現個性化語音定製。
快速生成：0.33秒生成1秒音頻，適合實時和批量生成長語音內容。
長內容連貫合成：支持自然連貫地合成長篇內容，如播客、有聲書等。
離線部署友好：支持本地推理，確保數據隱私和低延遲。

Muyan-TTS的技術原理

框架設計：基於 GPT-SoVITS 框架，用預訓練的 Llama-3.2-3B 作爲語言模型（LLM），結合 SoVITS 模型進行音頻解碼。LLM 負責將文本和音頻 token 對齊，生成中間表示，SoVITS 模型將中間表示解碼爲音頻波形。
數據處理：數據集包含超過10萬小時的播客音頻數據，經過多階段處理，包括數據收集、清洗和格式化，確保高質量和多樣性。用自動語音識別（ASR）模型將音頻轉錄爲文本，將音頻嵌入量化爲離散 token，形成平行語料庫。
預訓練與微調：LLM 在平行語料庫上進行預訓練，學習文本和音頻 token 之間的關係。基於監督微調（SFT），用少量目標說話人的語音數據進一步優化模型，提高語音合成的自然度和相似度。
解碼器優化：基於 VITS 基礎模型作爲解碼器，減少幻覺問題，提高語音生成的穩定性和自然度。解碼器在高質量音頻數據上進行微調，進一步提升合成語音的保真度和表現力。
推理加速：高效的內存管理和並行推理技術，提高推理速度，降低延遲。支持 API 模式，自動啓用加速功能，適合實時應用。