ChatTTS – 開源的用於對話的生成式語音合成模型

AI工具3個月前更新 AI管理員
3 0

ChatTTS是什麼

ChatTTS是一款專爲對話場景設計的支持中英文的文本轉語音(TTS)模型,基於約10萬小時的中英文數據進行訓練,能夠生成高質量、自然流暢的對話語音。ChatTTS針對對話式任務進行了優化,實現了更自然、流暢的語音合成,同時支持多說話人,還具備細粒度控制能力,能夠預測和控制韻律特徵,如笑聲、停頓等,超越了大部分開源TTS模型。

ChatTTS – 開源的用於對話的生成式語音合成模型

ChatTTS的功能特色

  • 文本轉語音:ChatTTS能夠將用戶輸入的文本信息實時轉換成自然流暢的語音輸出,適用於多種語言環境。
  • 多語言支持:除了支持中文,ChatTTS還能夠處理英文文本,使其能夠服務於更廣泛的用戶羣體。
  • 情感和韻律調整:ChatTTS不僅能夠轉換文本,還能夠根據文本內容調整語音的情感色彩和韻律特徵,如語速、語調、停頓等,使得語音更加貼近真實人類說話的自然節奏。
  • 語音角色選擇:用戶可以根據應用場景的需要,從多個預設的語音角色中選擇最合適的聲音,增加語音的個性化和表現力。
  • 交互式Web界面:通過直觀的Web界面,用戶可以直接在瀏覽器中輸入文本並獲取語音輸出,無需編寫代碼。
  • 實時語音交互:ChatTTS支持實時語音合成,非常適合需要即時反饋的對話系統和交互式應用。
  • 語音文件導出:用戶可以將合成的語音導出爲常見的音頻文件格式,方便進行後續的編輯、分享或作爲多媒體內容的一部分。
  • 集成與兼容性:ChatTTS支持集成到各種平台和應用中,可以無縫集成到Web應用、移動應用、桌面軟件等多種環境中。
  • 情感標記系統:ChatTTS支持在文本中嵌入情感標記,允許用戶精細控制語音輸出的情感表達,如在文本中插入[laugh]標記來模擬笑聲。

ChatTTS – 開源的用於對話的生成式語音合成模型

ChatTTS的官網入口

  • 官方GitHub源碼庫:https://github.com/2noise/ChatTTS
  • Hugging Face模型地址:https://huggingface.co/2Noise/ChatTTS
  • ModelScope模型地址:https://www.modelscope.cn/models/pzc163/chatTTS/summary

如何運行ChatTTS

方法一、在線體驗Demo

普通用戶可以在ModelScope和Hugging Face上運行社區提供的在線ChatTTS WebUI版的Demo直接體驗

  • ModelScope版Demo:https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo/summary
  • Hugging Face版Demo:https://huggingface.co/spaces/Dzkaka/ChatTTS

方法二、本地部署運行

  1. 安裝環境:確保你的計算機上安裝了Python和Git。
  2. SDK下載:安裝ModelScope和SDK模型下載
    #安裝ModelScope
    pip install modelscope
    #SDK模型下載
    from modelscope import snapshot_download
    model_dir = snapshot_download('pzc163/chatTTS')
  3. 獲取源碼:通過Git版本控制系統,從ModelScope的代碼倉庫克隆ChatTTS的源碼到本地。
    #Git模型下載
    git clone https://www.modelscope.cn/pzc163/chatTTS.git
  4. 安裝依賴:進入到項目目錄,使用pip命令安裝所需的Python依賴包。
    pip install -r requirement.txt
    pip install Ipython
    pip install soundfile
    
  5. 模型推理:可使用魔搭社區免費算力,完成模型推理
    from ChatTTS import Chat
    from IPython.display import Audio
    #下載模型
    from modelscope import snapshot_download
    
    model_dir = snapshot_download('pzc163/chatTTS')
    
    chat = Chat()
    chat.load_models(source='local', local_path=model_dir)
    
    texts = ["你好,我是ChatTTS,很高興認識大家",]
    
    wavs = chat.infer(texts, use_decoder=True)
    Audio(wavs[0], rate=24_000, autoplay=True)
    
    # save audio
    import soundfile as sf
    audio_data = wavs[0]
    if len(audio_data.shape) > 1:  
        audio_data = audio_data.flatten()
    
    output_file = './output_audio2.wav'
    sf.write(output_file, audio_data, 24000)
    print(f"Audio saved to {output_file}")
  6. 搭建WebUI並運行
    git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
    cd ChatTTS
    pip install -r requirements.txt
    python app.py

ChatTTS的應用場景

  • 虛擬助手和客服機器人:ChatTTS可以爲虛擬助手和在線客服機器人提供自然、流暢的語音輸出,提升用戶體驗。
  • 有聲讀物和電子書:將文本內容轉換爲語音,爲有聲書和電子書提供語音朗讀功能,方便用戶在通勤或做家務時收聽。
  • 社交媒體和內容創作:在社交媒體平台或內容創作中,ChatTTS可以生成吸引人的語音內容,增加互動性和趣味性。
  • 新聞和播客:自動將新聞稿或博客文章轉換成語音,用於播客或新聞廣播。
  • 無障礙輔助:爲視障人士或有閱讀困難的用戶提供語音輔助,使他們能夠通過聽來獲取信息。
© 版權聲明

相關文章

暫無評論

暫無評論...