Fish Speech是什麼
Fish Speech是一款由Fish Audio開發的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數據訓練,實現了接近人類水平的語音合成效果,目前已更新到1.2版本。該工具特點包括低顯存需求(僅需4GB)、快速推理速度、高自定義性和靈活性,用戶可快速進行語音克隆而無需複雜訓練。Fish Speech還支持多種語音生成模型,如VITS2、Bert-VITS2等,適用於智能助手、自動客服、語言學習等場景。
Fish Speech的功能特色
- 高效的文本到語音轉換: Fish Speech利用先進的算法,能夠迅速將輸入的文本信息轉換成聽起來自然、流暢的語音。通過優化的聲學模型和語言模型,確保語音的自然度和準確性,使其在多種場景下都能提供高質量的語音輸出。
- 多語言支持:支持中文、英文和日文,Fish Speech的多語言能力可以跨越語言障礙,爲不同國家和地區的用戶提供服務,爲全球化的應用場景提供了便利。
- 語音克隆能力:用戶可以上傳自己或他人的一段語音作爲參考,Fish Speech通過深度學習技術,學習並模仿該語音的特徵,實現個性化的語音克隆。該功能在個性化語音助手、有聲讀物製作等領域具有廣泛的應用潛力。
- 低顯存需求:僅需4GB顯存即可運行,大大降低了硬件門檻,使得更多的用戶能夠在自己的電腦上使用Fish Speech,而不必投資昂貴的硬件設備。
- 快速推理速度: Fish Speech優化了推理過程,減少了等待時間,提高了語音合成的效率。用戶可以在短時間內獲得所需的語音輸出,提升了整體的使用體驗。
- 多種語音生成模型: Fish Speech支持包括VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast和GPT-SoVITS等多種模型,用戶可以根據自己的需求選擇合適的模型,以獲得最佳的語音合成效果。
- 易於使用: Fish Speech的設計注重用戶體驗,簡化了安裝和配置流程。用戶無需深入瞭解技術細節,即可通過一鍵啓動程序快速開始使用,大大降低了使用門檻。
- 微調能力: LORA微調技術允許用戶對模型進行細緻的調整,以適應特定的語音風格或表達方式,爲用戶提供了更多的創造性空間。
- 性能優化: 通過採用gradient checkpointing、causal sampling和flash-attn等先進技術,Fish Speech在模型訓練和推理過程中實現了性能的顯著提升,確保了處理大規模數據時的高效性和穩定性。
Fish Speech的官網入口
- 官方項目主頁:https://speech.fish.audio/
- GitHub源碼庫:https://github.com/fishaudio/fish-speech
- Hugging Face模型地址:https://huggingface.co/fishaudio/fish-speech-1.2
如何安裝和使用Fish Speech
運行要求
- GPU 內存:4GB (用於推理)、16GB (用於微調)
- 系統:Linux、Windows
Windows配置
Windows 專業用戶可以考慮 WSL2 或 docker 來運行代碼庫。
Windows 非專業用戶可考慮以下爲免 Linux 環境的基礎運行方法(附帶模型編譯功能,即 torch.compile
):
- 解壓項目壓縮包。
- 點擊 install_env.bat 安裝環境。
- 可以通過編輯 install_env.bat 的
USE_MIRROR
項來決定是否使用鏡像站下載。 USE_MIRROR=false
使用原始站下載最新穩定版torch
環境。USE_MIRROR=true
爲從鏡像站下載最新torch
環境。默認爲true
。- 可以通過編輯 install_env.bat 的
INSTALL_TYPE
項來決定是否啓用可編譯環境下載。 INSTALL_TYPE=preview
下載開發版編譯環境。INSTALL_TYPE=stable
下載穩定版不帶編譯環境。
- 可以通過編輯 install_env.bat 的
- 若第2步 INSTALL_TYPE=preview 則執行這一步(可跳過,此步爲激活編譯模型環境)
- 使用如下鏈接下載 LLVM 編譯器。
- LLVM-17.0.6(原站站點下載)
- LLVM-17.0.6(鏡像站點下載)
- 下載完 LLVM-17.0.6-win64.exe 後,雙擊進行安裝,選擇合適的安裝位置,最重要的是勾選
Add Path to Current User
添加環境變量。 - 確認安裝完成。
- 下載安裝 Microsoft Visual C++ 可再發行程序包,解決潛在 .dll 丟失問題。
- MSVC++ 14.40.33810.0 下載
- 下載安裝 Visual Studio 社區版以獲取 MSVC++ 編譯工具, 解決 LLVM 的頭文件依賴問題。
-
- Visual Studio 下載
- 安裝好Visual Studio Installer之後,下載Visual Studio Community 2022
- 如下圖點擊
修改
按鈕,找到使用C++的桌面開發
項,勾選下載
-
- 使用如下鏈接下載 LLVM 編譯器。
- 雙擊 start.bat, 進入 Fish-Speech 訓練推理配置 WebUI 頁面。
- (可選) 想直接進入推理頁面?編輯項目根目錄下的
API_FLAGS.txt
, 前三行修改成如下格式:--infer # --api # --listen ... ...
- (可選) 想啓動 API 服務器?編輯項目根目錄下的
API_FLAGS.txt
, 前三行修改成如下格式:--infer # --api # --listen ... ...
- (可選) 想直接進入推理頁面?編輯項目根目錄下的
- (可選)雙擊
run_cmd.bat
進入本項目的 conda/python 命令行環境
Linux配置
# 創建一個 python 3.10 虛擬環境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech
# 安裝 pytorch
pip3 install torch torchvision torchaudio
# 安裝 fish-speech
pip3 install -e .
# (Ubuntu / Debian 用戶) 安裝 sox
apt install libsox-dev
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...