Muyan-TTS – 開源文本轉語音模型,零樣本語音合成

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

Muyan-TTS是什麼

Muyan-TTS 是爲播客場景設計的開源文本轉語音(TTS)模型。模型預訓練超過10萬小時的播客音頻數據,能實現零樣本語音合成,無需大量目標說話人的語音數據可生成高質量語音。模型支持說話人適配,進行個性化語音定製。Muyan-TTS 合成速度快,0.33秒能生成1秒音頻,適合實時應用。Muyan-TTS 能自然連貫地合成長篇內容,如播客、有聲書等,支持本地部署和API使用,方便集成到各種應用中。

Muyan-TTS – 開源文本轉語音模型,零樣本語音合成

Muyan-TTS的主要功能

  • 零樣本語音合成:無需大量目標說話人數據,用少量參考語音和文本生成高質量語音。
  • 說話人適配:基於少量目標說話人語音數據微調,實現個性化語音定製。
  • 快速生成:0.33秒生成1秒音頻,適合實時和批量生成長語音內容。
  • 長內容連貫合成:支持自然連貫地合成長篇內容,如播客、有聲書等。
  • 離線部署友好:支持本地推理,確保數據隱私和低延遲。

Muyan-TTS的技術原理

  • 框架設計:基於 GPT-SoVITS 框架,用預訓練的 Llama-3.2-3B 作爲語言模型(LLM),結合 SoVITS 模型進行音頻解碼。LLM 負責將文本和音頻 token 對齊,生成中間表示,SoVITS 模型將中間表示解碼爲音頻波形。
  • 數據處理:數據集包含超過10萬小時的播客音頻數據,經過多階段處理,包括數據收集、清洗和格式化,確保高質量和多樣性。用自動語音識別(ASR)模型將音頻轉錄爲文本,將音頻嵌入量化爲離散 token,形成平行語料庫。
  • 預訓練與微調:LLM 在平行語料庫上進行預訓練,學習文本和音頻 token 之間的關係。基於監督微調(SFT),用少量目標說話人的語音數據進一步優化模型,提高語音合成的自然度和相似度。
  • 解碼器優化:基於 VITS 基礎模型作爲解碼器,減少幻覺問題,提高語音生成的穩定性和自然度。解碼器在高質量音頻數據上進行微調,進一步提升合成語音的保真度和表現力。
  • 推理加速:高效的內存管理和並行推理技術,提高推理速度,降低延遲。支持 API 模式,自動啓用加速功能,適合實時應用。

Muyan-TTS的項目地址

  • GitHub倉庫:https://github.com/MYZY-AI/Muyan-TTS
  • HuggingFace模型庫:https://huggingface.co/MYZY-AI/Muyan-TTS
  • arXiv技術論文:https://arxiv.org/pdf/2504.19146

Muyan-TTS的應用場景

  • 播客和有聲書:生成長篇內容,自然連貫,節省錄製時間。
  • 視頻配音:快速合成英文腳本配音,適配不同角色。
  • AI 角色和語音助手:生成特色角色語音,提供自然交互體驗。
  • 新聞播報:高效將文本轉語音,適合智能設備播報。
  • 教育和遊戲:生成教學語音和遊戲旁白,提升學習和娛樂體驗。
© 版權聲明

相關文章

暫無評論

暫無評論...