Fish Speech – 開源的高效文本到語音合成TTS工具

AI工具2年前 (2024)更新 AI管理員

89 0 0

Fish Speech是什麼

Fish Speech是一款由Fish Audio開發的開源的文本到語音（TTS）工具，支持中文、英文和日文。通過約15萬小時的多語種數據訓練，實現了接近人類水平的語音合成效果，目前已更新到1.2版本。該工具特點包括低顯存需求（僅需4GB）、快速推理速度、高自定義性和靈活性，用戶可快速進行語音克隆而無需複雜訓練。Fish Speech還支持多種語音生成模型，如VITS2、Bert-VITS2等，適用於智能助手、自動客服、語言學習等場景。

Fish Speech的功能特色

高效的文本到語音轉換： Fish Speech利用先進的算法，能夠迅速將輸入的文本信息轉換成聽起來自然、流暢的語音。通過優化的聲學模型和語言模型，確保語音的自然度和準確性，使其在多種場景下都能提供高質量的語音輸出。
多語言支持：支持中文、英文和日文，Fish Speech的多語言能力可以跨越語言障礙，爲不同國家和地區的用戶提供服務，爲全球化的應用場景提供了便利。
語音克隆能力：用戶可以上傳自己或他人的一段語音作爲參考，Fish Speech通過深度學習技術，學習並模仿該語音的特徵，實現個性化的語音克隆。該功能在個性化語音助手、有聲讀物製作等領域具有廣泛的應用潛力。
低顯存需求：僅需4GB顯存即可運行，大大降低了硬件門檻，使得更多的用戶能夠在自己的電腦上使用Fish Speech，而不必投資昂貴的硬件設備。
快速推理速度： Fish Speech優化了推理過程，減少了等待時間，提高了語音合成的效率。用戶可以在短時間內獲得所需的語音輸出，提升了整體的使用體驗。
多種語音生成模型： Fish Speech支持包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast和GPT-SoVITS等多種模型，用戶可以根據自己的需求選擇合適的模型，以獲得最佳的語音合成效果。
易於使用： Fish Speech的設計注重用戶體驗，簡化了安裝和配置流程。用戶無需深入瞭解技術細節，即可通過一鍵啓動程序快速開始使用，大大降低了使用門檻。
微調能力： LORA微調技術允許用戶對模型進行細緻的調整，以適應特定的語音風格或表達方式，爲用戶提供了更多的創造性空間。
性能優化：通過採用gradient checkpointing、causal sampling和flash-attn等先進技術，Fish Speech在模型訓練和推理過程中實現了性能的顯著提升，確保了處理大規模數據時的高效性和穩定性。

Fish Speech – 開源的高效文本到語音合成TTS工具

Fish Speech的官網入口

官方項目主頁：https://speech.fish.audio/
GitHub源碼庫：https://github.com/fishaudio/fish-speech
Hugging Face模型地址：https://huggingface.co/fishaudio/fish-speech-1.2

如何安裝和使用Fish Speech

運行要求

GPU 內存：4GB (用於推理)、16GB (用於微調)
系統：Linux、Windows

Windows配置

Windows 專業用戶可以考慮 WSL2 或 docker 來運行代碼庫。

Windows 非專業用戶可考慮以下爲免 Linux 環境的基礎運行方法（附帶模型編譯功能，即 torch.compile）：

解壓項目壓縮包。
點擊 install_env.bat 安裝環境。
- 可以通過編輯 install_env.bat 的 USE_MIRROR 項來決定是否使用鏡像站下載。
- USE_MIRROR=false 使用原始站下載最新穩定版 torch 環境。USE_MIRROR=true 爲從鏡像站下載最新 torch 環境。默認爲 true。
- 可以通過編輯 install_env.bat 的 INSTALL_TYPE 項來決定是否啓用可編譯環境下載。
- INSTALL_TYPE=preview 下載開發版編譯環境。INSTALL_TYPE=stable 下載穩定版不帶編譯環境。
若第2步 INSTALL_TYPE=preview 則執行這一步（可跳過，此步爲激活編譯模型環境）
1. 使用如下鏈接下載 LLVM 編譯器。
  - LLVM-17.0.6（原站站點下載）
  - LLVM-17.0.6（鏡像站點下載）
  - 下載完 LLVM-17.0.6-win64.exe 後，雙擊進行安裝，選擇合適的安裝位置，最重要的是勾選 Add Path to Current User 添加環境變量。
  - 確認安裝完成。
2. 下載安裝 Microsoft Visual C++ 可再發行程序包，解決潛在 .dll 丟失問題。
  - MSVC++ 14.40.33810.0 下載
3. 下載安裝 Visual Studio 社區版以獲取 MSVC++ 編譯工具, 解決 LLVM 的頭文件依賴問題。
  - - Visual Studio 下載
    - 安裝好Visual Studio Installer之後，下載Visual Studio Community 2022
    - 如下圖點擊修改按鈕，找到使用C++的桌面開發項，勾選下載
雙擊 start.bat, 進入 Fish-Speech 訓練推理配置 WebUI 頁面。
- (可選) 想直接進入推理頁面？編輯項目根目錄下的 API_FLAGS.txt, 前三行修改成如下格式:
```
--infer
# --api
# --listen ...
...
```
- (可選) 想啓動 API 服務器？編輯項目根目錄下的 API_FLAGS.txt, 前三行修改成如下格式:
```
--infer
# --api
# --listen ...
...
```
（可選）雙擊 run_cmd.bat 進入本項目的 conda/python 命令行環境

Linux配置

# 創建一個 python 3.10 虛擬環境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech

# 安裝 pytorch
pip3 install torch torchvision torchaudio

# 安裝 fish-speech
pip3 install -e .

# (Ubuntu / Debian 用戶) 安裝 sox
apt install libsox-dev

# AI工具