Muyan-TTS是什麼
Muyan-TTS 是爲播客場景設計的開源文本轉語音(TTS)模型。模型預訓練超過10萬小時的播客音頻數據,能實現零樣本語音合成,無需大量目標說話人的語音數據可生成高質量語音。模型支持說話人適配,進行個性化語音定製。Muyan-TTS 合成速度快,0.33秒能生成1秒音頻,適合實時應用。Muyan-TTS 能自然連貫地合成長篇內容,如播客、有聲書等,支持本地部署和API使用,方便集成到各種應用中。

Muyan-TTS的主要功能
- 零樣本語音合成:無需大量目標說話人數據,用少量參考語音和文本生成高質量語音。
- 說話人適配:基於少量目標說話人語音數據微調,實現個性化語音定製。
- 快速生成:0.33秒生成1秒音頻,適合實時和批量生成長語音內容。
- 長內容連貫合成:支持自然連貫地合成長篇內容,如播客、有聲書等。
- 離線部署友好:支持本地推理,確保數據隱私和低延遲。
Muyan-TTS的技術原理
- 框架設計:基於 GPT-SoVITS 框架,用預訓練的 Llama-3.2-3B 作爲語言模型(LLM),結合 SoVITS 模型進行音頻解碼。LLM 負責將文本和音頻 token 對齊,生成中間表示,SoVITS 模型將中間表示解碼爲音頻波形。
- 數據處理:數據集包含超過10萬小時的播客音頻數據,經過多階段處理,包括數據收集、清洗和格式化,確保高質量和多樣性。用自動語音識別(ASR)模型將音頻轉錄爲文本,將音頻嵌入量化爲離散 token,形成平行語料庫。
- 預訓練與微調:LLM 在平行語料庫上進行預訓練,學習文本和音頻 token 之間的關係。基於監督微調(SFT),用少量目標說話人的語音數據進一步優化模型,提高語音合成的自然度和相似度。
- 解碼器優化:基於 VITS 基礎模型作爲解碼器,減少幻覺問題,提高語音生成的穩定性和自然度。解碼器在高質量音頻數據上進行微調,進一步提升合成語音的保真度和表現力。
- 推理加速:高效的內存管理和並行推理技術,提高推理速度,降低延遲。支持 API 模式,自動啓用加速功能,適合實時應用。
Muyan-TTS的項目地址
- GitHub倉庫:https://github.com/MYZY-AI/Muyan-TTS
- HuggingFace模型庫:https://huggingface.co/MYZY-AI/Muyan-TTS
- arXiv技術論文:https://arxiv.org/pdf/2504.19146
Muyan-TTS的應用場景
- 播客和有聲書:生成長篇內容,自然連貫,節省錄製時間。
- 視頻配音:快速合成英文腳本配音,適配不同角色。
- AI 角色和語音助手:生成特色角色語音,提供自然交互體驗。
- 新聞播報:高效將文本轉語音,適合智能設備播報。
- 教育和遊戲:生成教學語音和遊戲旁白,提升學習和娛樂體驗。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...