GPT-SoVITS – 開源的聲音克隆項目，只需少量數據即可合成聲音

AI工具2年前 (2024)發佈新公告 AI管理員

0 0 0

GPT-SoVITS是什麼

GPT-SoVITS是一個開源的聲音克隆項目，由B站UP主、RVC變聲器創始人花兒不哭推出，該語音合成工具結合了GPT（Generative Pre-trained Transformer）模型和SoVITS（Speech-to-Video Voice Transformation System）變聲器技術，僅需通過少量的樣本數據實現高質量的語音克隆和文本到語音轉換（TTS）。該工具特別適用於需要快速生成特定人聲的場景，可以幫助用戶在沒有或只有少量目標說話人語音樣本的情況下，訓練出能夠模仿該說話人聲音（包括情感、音色、語速）的模型。

GPT-SoVITS的官網入口

GitHub代碼庫：https://github.com/RVC-Boss/GPT-SoVITS
Hugging Face模型：https://huggingface.co/lj1995/GPT-SoVITS
CodeWithGPT AutoDL在線體驗：https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
Google Colab運行地址：https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb
GPT-SoVITS使用指南：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

GPT-SoVITS – 開源的聲音克隆項目，只需少量數據即可合成聲音

GPT-SoVITS的主要功能

零樣本TTS文本到語音轉換：用戶只需輸入一個5秒的聲音樣本，即可實現即時的文本到語音轉換。
少樣本TTS文本到語音轉換：通過使用1分鐘的訓練數據，可以對模型進行微調，以提高聲音相似度和真實感。
聲音克隆：通過訓練，GPT-SoVITS可以學習並複製特定說話人的聲音特徵，實現聲音克隆生成與特定說話人聲音極爲相似的合成語音。
跨語言支持：GPT-SoVITS支持多種語言的語音合成，使得用戶可以在不同的語言環境中使用該工具。目前支持英語、日語和中文。
WebUI工具：集成了包括聲音伴奏分離、自動訓練集分割、中文ASR（自動語音識別）和文本標註等工具，幫助初學者創建訓練數據集和GPT/SoVITS模型。