Parler-TTS – Hugging Face開源的文本轉語音模型

AI工具2年前 (2024)發佈新公告 AI管理員

3 0 0

Parler-TTS是什麼

Parler-TTS是由Hugging Face推出的一款開源的文本到語音（TTS）模型，能夠通過輸入提示描述模仿特定說話者的風格（性別、音調、說話風格等），生成高質量、聽起來自然的語音。該輕量級的TTS模型是完全開源的，包括所有數據集、預處理、訓練代碼和權重都公開，旨在促進高質量、可控制的TTS模型的創新發展。Parler-TTS的架構基於MusicGen，包含文本編碼器、解碼器和音頻編解碼器，通過集成文本描述和添加嵌入層優化了聲音生成。

Parler-TTS的官網入口

GitHub源碼庫：https://github.com/huggingface/parler-tts
Hugging Face模型地址：https://github.com/huggingface/parler-tts
Hugging Face在線Demo體驗地址：https://huggingface.co/spaces/parler-tts/parler_tts_mini

Parler-TTS的功能特性

高質量語音生成：Parler-TTS能夠根據文本輸入生成高質量、自然聽起來的語音，模仿不同的說話風格，如性別、音高和表達方式等。
風格多樣的語音輸出：通過詳細的文本描述，用戶可以控制生成的語音風格，包括說話者的年齡、情感、速度和環境等特徵。
開源架構：Parler-TTS基於MusicGen架構，包含文本編碼器、解碼器和音頻編解碼器，允許研究者和開發者自由訪問和修改代碼，以適應不同的需求和應用。
易於安裝和使用：Parler-TTS提供了簡單的安裝指令，用戶可以通過一行命令安裝，並提供了易於理解的代碼示例，使得即使是初學者也能快速上手使用。
自定義訓練和微調：用戶可以根據自己的數據集對Parler-TTS進行訓練和微調，以生成特定風格或口音的語音。
倫理和隱私保護：Parler-TTS避免了使用可能侵犯隱私的聲音克隆技術，而是通過文本提示來控制語音生成，確保了技術的倫理性和合規性。

如何體驗Parler-TTS

訪問Parler-TTS的Hugging Face Demo，然後在Input Text處輸入你想要轉錄的文字
在Description處輸入對聲音的提示描述
最後點擊Generate Audio即可生成聲音

Parler-TTS – Hugging Face開源的文本轉語音模型

Parler-TTS的技術架構

Parler-TTS的架構是一個高度靈活和可定製的系統，基於MusicGen架構進行了一些關鍵的改進和調整：

文本編碼器：
- 文本編碼器的作用是將文本描述映射到一系列隱藏狀態表示。
- Parler-TTS使用的是一個凍結的文本編碼器，該編碼器完全初始化自Flan-T5模型。這意味着編碼器的參數在訓練過程中不會改變，它僅僅用於將輸入的文本轉換爲模型可以理解的內部表示。
Parler-TTS解碼器：
- 解碼器是一個語言模型，它基於編碼器的隱藏狀態表示自迴歸地生成音頻標記（或稱爲代碼）。
- 這個過程中，解碼器會逐步生成語音的音頻表示，每一步都會考慮到之前的輸出和文本描述，從而生成連貫且符合描述的語音。
音頻編解碼器：
- 音頻編解碼器的作用是將解碼器預測的音頻標記轉換回可聽的音頻波形。
- Parler-TTS使用的是Descript提供的DAC模型，但也可以選擇使用其他編解碼器模型，例如EnCodec。
架構的改進：
- Parler-TTS在MusicGen架構的基礎上做了一些細微的調整，以提高模型的性能和靈活性。
- 文本描述不僅通過文本編碼器處理，還用於解碼器的交叉注意力層，這使得解碼器能夠更好地結合文本描述和音頻生成。
- 文本提示通過嵌入層處理後與解碼器輸入的隱藏狀態進行拼接，這樣可以將文本提示的語義信息直接融入到語音生成的過程中。
- 音頻編碼器選擇DAC而不是Encodec，因爲DAC在質量上表現更佳。