Fish Speech – 開源的高效文本到語音合成TTS工具

AI工具2個月前更新 AI管理員
2 0

Fish Speech是什麼

Fish Speech是一款由Fish Audio開發的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數據訓練,實現了接近人類水平的語音合成效果,目前已更新到1.2版本。該工具特點包括低顯存需求(僅需4GB)、快速推理速度、高自定義性和靈活性,用戶可快速進行語音克隆而無需複雜訓練。Fish Speech還支持多種語音生成模型,如VITS2、Bert-VITS2等,適用於智能助手、自動客服、語言學習等場景。

Fish Speech – 開源的高效文本到語音合成TTS工具

Fish Speech的功能特色

  • 高效的文本到語音轉換: Fish Speech利用先進的算法,能夠迅速將輸入的文本信息轉換成聽起來自然、流暢的語音。通過優化的聲學模型和語言模型,確保語音的自然度和準確性,使其在多種場景下都能提供高質量的語音輸出。
  • 多語言支持:支持中文、英文和日文,Fish Speech的多語言能力可以跨越語言障礙,爲不同國家和地區的用戶提供服務,爲全球化的應用場景提供了便利。
  • 語音克隆能力:用戶可以上傳自己或他人的一段語音作爲參考,Fish Speech通過深度學習技術,學習並模仿該語音的特徵,實現個性化的語音克隆。該功能在個性化語音助手、有聲讀物製作等領域具有廣泛的應用潛力。
  • 低顯存需求:僅需4GB顯存即可運行,大大降低了硬件門檻,使得更多的用戶能夠在自己的電腦上使用Fish Speech,而不必投資昂貴的硬件設備。
  • 快速推理速度: Fish Speech優化了推理過程,減少了等待時間,提高了語音合成的效率。用戶可以在短時間內獲得所需的語音輸出,提升了整體的使用體驗。
  • 多種語音生成模型: Fish Speech支持包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast和GPT-SoVITS等多種模型,用戶可以根據自己的需求選擇合適的模型,以獲得最佳的語音合成效果。
  • 易於使用: Fish Speech的設計注重用戶體驗,簡化了安裝和配置流程。用戶無需深入瞭解技術細節,即可通過一鍵啓動程序快速開始使用,大大降低了使用門檻。
  • 微調能力: LORA微調技術允許用戶對模型進行細緻的調整,以適應特定的語音風格或表達方式,爲用戶提供了更多的創造性空間。
  • 性能優化: 通過採用gradient checkpointing、causal sampling和flash-attn等先進技術,Fish Speech在模型訓練和推理過程中實現了性能的顯著提升,確保了處理大規模數據時的高效性和穩定性。

Fish Speech – 開源的高效文本到語音合成TTS工具

Fish Speech的官網入口

  • 官方項目主頁:https://speech.fish.audio/
  • GitHub源碼庫:https://github.com/fishaudio/fish-speech
  • Hugging Face模型地址:https://huggingface.co/fishaudio/fish-speech-1.2

如何安裝和使用Fish Speech

運行要求

  • GPU 內存:4GB (用於推理)、16GB (用於微調)
  • 系統:Linux、Windows

Windows配置

Windows 專業用戶可以考慮 WSL2 或 docker 來運行代碼庫。

Windows 非專業用戶可考慮以下爲免 Linux 環境的基礎運行方法(附帶模型編譯功能,即 torch.compile):

  1. 解壓項目壓縮包。
  2. 點擊 install_env.bat 安裝環境。
    • 可以通過編輯 install_env.bat 的 USE_MIRROR 項來決定是否使用鏡像站下載。
    • USE_MIRROR=false 使用原始站下載最新穩定版 torch 環境。USE_MIRROR=true 爲從鏡像站下載最新 torch 環境。默認爲 true
    • 可以通過編輯 install_env.bat 的 INSTALL_TYPE 項來決定是否啓用可編譯環境下載。
    • INSTALL_TYPE=preview 下載開發版編譯環境。INSTALL_TYPE=stable 下載穩定版不帶編譯環境。
  3. 若第2步 INSTALL_TYPE=preview 則執行這一步(可跳過,此步爲激活編譯模型環境)
    1. 使用如下鏈接下載 LLVM 編譯器。
      • LLVM-17.0.6(原站站點下載)
      • LLVM-17.0.6(鏡像站點下載)
      • 下載完 LLVM-17.0.6-win64.exe 後,雙擊進行安裝,選擇合適的安裝位置,最重要的是勾選 Add Path to Current User 添加環境變量。
      • 確認安裝完成。
    2. 下載安裝 Microsoft Visual C++ 可再發行程序包,解決潛在 .dll 丟失問題。
      • MSVC++ 14.40.33810.0 下載
    3. 下載安裝 Visual Studio 社區版以獲取 MSVC++ 編譯工具, 解決 LLVM 的頭文件依賴問題。
        • Visual Studio 下載
        • 安裝好Visual Studio Installer之後,下載Visual Studio Community 2022
        • 如下圖點擊修改按鈕,找到使用C++的桌面開發項,勾選下載

      Fish Speech – 開源的高效文本到語音合成TTS工具

  4. 雙擊 start.bat, 進入 Fish-Speech 訓練推理配置 WebUI 頁面。
    • (可選) 想直接進入推理頁面?編輯項目根目錄下的 API_FLAGS.txt, 前三行修改成如下格式:
      --infer
      # --api
      # --listen ...
      ...
    • (可選) 想啓動 API 服務器?編輯項目根目錄下的 API_FLAGS.txt, 前三行修改成如下格式:
      --infer
      # --api
      # --listen ...
      ...
  5. (可選)雙擊 run_cmd.bat 進入本項目的 conda/python 命令行環境

Linux配置

# 創建一個 python 3.10 虛擬環境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安裝 pytorch
pip3 install torch torchvision torchaudio

# 安裝 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用戶) 安裝 sox
apt install libsox-dev
© 版權聲明

相關文章

暫無評論

暫無評論...