ChatTTS – 開源的用於對話的生成式語音合成模型

AI工具2年前 (2024)更新 AI管理員

9 0 0

ChatTTS是什麼

ChatTTS是一款專爲對話場景設計的支持中英文的文本轉語音（TTS）模型，基於約10萬小時的中英文數據進行訓練，能夠生成高質量、自然流暢的對話語音。ChatTTS針對對話式任務進行了優化，實現了更自然、流暢的語音合成，同時支持多說話人，還具備細粒度控制能力，能夠預測和控制韻律特徵，如笑聲、停頓等，超越了大部分開源TTS模型。

ChatTTS的功能特色

文本轉語音：ChatTTS能夠將用戶輸入的文本信息實時轉換成自然流暢的語音輸出，適用於多種語言環境。
多語言支持：除了支持中文，ChatTTS還能夠處理英文文本，使其能夠服務於更廣泛的用戶羣體。
情感和韻律調整：ChatTTS不僅能夠轉換文本，還能夠根據文本內容調整語音的情感色彩和韻律特徵，如語速、語調、停頓等，使得語音更加貼近真實人類說話的自然節奏。
語音角色選擇：用戶可以根據應用場景的需要，從多個預設的語音角色中選擇最合適的聲音，增加語音的個性化和表現力。
交互式Web界面：通過直觀的Web界面，用戶可以直接在瀏覽器中輸入文本並獲取語音輸出，無需編寫代碼。
實時語音交互：ChatTTS支持實時語音合成，非常適合需要即時反饋的對話系統和交互式應用。
語音文件導出：用戶可以將合成的語音導出爲常見的音頻文件格式，方便進行後續的編輯、分享或作爲多媒體內容的一部分。
集成與兼容性：ChatTTS支持集成到各種平台和應用中，可以無縫集成到Web應用、移動應用、桌面軟件等多種環境中。
情感標記系統：ChatTTS支持在文本中嵌入情感標記，允許用戶精細控制語音輸出的情感表達，如在文本中插入[laugh]標記來模擬笑聲。

ChatTTS – 開源的用於對話的生成式語音合成模型

ChatTTS的官網入口

官方GitHub源碼庫：https://github.com/2noise/ChatTTS
Hugging Face模型地址：https://huggingface.co/2Noise/ChatTTS
ModelScope模型地址：https://www.modelscope.cn/models/pzc163/chatTTS/summary

如何運行ChatTTS

方法一、在線體驗Demo

普通用戶可以在ModelScope和Hugging Face上運行社區提供的在線ChatTTS WebUI版的Demo直接體驗

ModelScope版Demo：https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo/summary
Hugging Face版Demo：https://huggingface.co/spaces/Dzkaka/ChatTTS

方法二、本地部署運行

安裝環境：確保你的計算機上安裝了Python和Git。

SDK下載：安裝ModelScope和SDK模型下載

#安裝ModelScope
pip install modelscope

#SDK模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('pzc163/chatTTS')

獲取源碼：通過Git版本控制系統，從ModelScope的代碼倉庫克隆ChatTTS的源碼到本地。
```
#Git模型下載
git clone https://www.modelscope.cn/pzc163/chatTTS.git
```
安裝依賴：進入到項目目錄，使用pip命令安裝所需的Python依賴包。
```
pip install -r requirement.txt
pip install Ipython
pip install soundfile
```

模型推理：可使用魔搭社區免費算力，完成模型推理

from ChatTTS import Chat
from IPython.display import Audio
#下載模型
from modelscope import snapshot_download

model_dir = snapshot_download('pzc163/chatTTS')

chat = Chat()
chat.load_models(source='local', local_path=model_dir)

texts = ["你好,我是ChatTTS,很高興認識大家",]

wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)

# save audio
import soundfile as sf
audio_data = wavs[0]
if len(audio_data.shape) > 1:  
    audio_data = audio_data.flatten()

output_file = './output_audio2.wav'
sf.write(output_file, audio_data, 24000)
print(f"Audio saved to {output_file}")

搭建WebUI並運行

git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
cd ChatTTS
pip install -r requirements.txt
python app.py

ChatTTS的應用場景

虛擬助手和客服機器人：ChatTTS可以爲虛擬助手和在線客服機器人提供自然、流暢的語音輸出，提升用戶體驗。
有聲讀物和電子書：將文本內容轉換爲語音，爲有聲書和電子書提供語音朗讀功能，方便用戶在通勤或做家務時收聽。
社交媒體和內容創作：在社交媒體平台或內容創作中，ChatTTS可以生成吸引人的語音內容，增加互動性和趣味性。
新聞和播客：自動將新聞稿或博客文章轉換成語音，用於播客或新聞廣播。
無障礙輔助：爲視障人士或有閱讀困難的用戶提供語音輔助，使他們能夠通過聽來獲取信息。

# AI工具

文章版权归作者所有，未经允许请勿转载。

moemate – 桌面AI助手，智能多模態分析你的屏幕

earnbyshare2016

36 0

Wisecut – 在線AI視頻編輯工具，自動識別長視頻中的精彩片段

earnbyshare2016

33 0

Seed-VC – 零樣本實現聲音克隆和轉換的技術

earnbyshare2016

13 0

墨魚AIGC – AI原創文案寫作輔助工具

earnbyshare2016

53 0

Fish Speech – 開源的高效文本到語音合成TTS工具

earnbyshare2016

89 0

新Sub2API – 開源 AI API 中轉網關平台，支持多賬戶管理

earnbyshare2016

0 0

暫無評論

暫無評論...

ChatTTS – 開源的用於對話的生成式語音合成模型

ChatTTS是什麼

ChatTTS的功能特色

ChatTTS的官網入口

如何運行ChatTTS

方法一、在線體驗Demo

方法二、本地部署運行

ChatTTS的應用場景

Codestral – Mistral AI推出的代碼生成模型，支持80+編程語言

Seed-TTS – 字節跳動推出的高質量文本到語音生成模型

相關文章

暫無評論

熱門工具

最新文章

ChatTTS – 開源的用於對話的生成式語音合成模型

ChatTTS是什麼

ChatTTS的功能特色

ChatTTS的官網入口

如何運行ChatTTS

方法一、在線體驗Demo

方法二、本地部署運行

ChatTTS的應用場景

Codestral – Mistral AI推出的代碼生成模型，支持80+編程語言

Seed-TTS – 字節跳動推出的高質量文本到語音生成模型

相關文章

暫無評論

廣告位

熱門工具

最新文章