MOSS-TTSD – 清華實驗室開源的口語對話語音生成模型

AI工具9個月前發佈新公告 AI管理員
0 0

MOSS-TTSD是什麼

MOSS-TTSD(Text to Spoken Dialogue)是開源的口語對話語音生成模型,由清華大學語音與語言實驗室(Tencent AI Lab)開發。能將文本對話腳本轉化爲自然流暢、富有表現力的對話語音,支持中英文雙語生成。模型基於先進的語義-音學神經網絡音頻編解碼器和大規模預訓練語言模型,結合了超過100萬小時的單人語音數據和40萬小時的對話語音數據進行訓練。支持零樣本語音克隆,能根據對話腳本生成準確的對話者切換語音,適用於AI播客、訪談、新聞報道等多種場景。

MOSS-TTSD – 清華實驗室開源的口語對話語音生成模型

MOSS-TTSD的主要功能

  • 高表現力對話語音生成:能將對話腳本轉換爲自然、富有表現力的對話語音,準確捕捉對話中的韻律、語調等特性。
  • 零樣本多說話人音色克隆:支持根據對話腳本生成準確的對話者切換語音,無需額外樣本即可實現兩位對話者的音色克隆。
  • 中英雙語支持:可在中文和英文兩種語言中生成高質量的對話語音。
  • 長篇語音生成:基於低比特率編解碼器和優化的訓練框架,能一次性生成超長語音,避免拼接語音片段的不自然過渡。
  • 完全開源且商業就緒:模型權重、推理代碼和API接口均已開源,支持免費商業使用。

MOSS-TTSD的技術原理

  • 基礎模型架構:MOSS-TTSD 基於 Qwen3-1.7B-base 模型進行續訓練,採用離散化語音序列建模方法。模型通過八層 RVQ(Residual Vector Quantization)碼本對語音進行離散化處理,將連續的語音信號轉換爲離散的 token 序列。這些 token 序列通過自迴歸加 Delay Pattern 的方式生成,最後通過 Tokenizer 的解碼器將 token 還原爲語音。
  • 語音離散化與編碼器創新:核心創新之一是 XY-Tokenizer,是專門設計的語音離散化編碼器。XY-Tokenizer 採用雙階段多任務學習方式訓練:
    • 第一階段:訓練自動語音識別(ASR)任務和重建任務,讓編碼器在編碼語義信息的同時保留粗粒度的聲學信息。
    • 第二階段:固定編碼器和量化層,僅訓練解碼器部分,通過重建損失和 GAN 損失補充細粒度聲學信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的幀率下,能同時建模語義和聲學信息,性能優於其他同類 Codec。
  • 數據處理與預訓練:MOSS-TTSD 使用了約 100 萬小時的單說話人語音數據和 40 萬小時的對話語音數據進行訓練。團隊設計了高效的數據處理流水線,從海量原始音頻中篩選出高質量的單人語音和多人對話語音,進行標註。模型進行了 TTS 預訓練,使用 110 萬小時的中英文 TTS 數據顯著增強了語音韻律和表現力。
  • 長語音生成能力:基於超低比特率的 Codec,MOSS-TTSD 支持最長 960 秒的音頻生成,能一次性生成超長語音,避免了拼接語音片段之間的不自然過渡。

MOSS-TTSD的項目地址

  • 項目官網:https://www.open-moss.com/en/moss-ttsd/
  • Github倉庫:https://github.com/OpenMOSS/MOSS-TTSD
  • HuggingFace模型庫:https://huggingface.co/fnlp/MOSS-TTSD-v0.5
  • 在線體驗Demo:https://huggingface.co/spaces/fnlp/MOSS-TTSD

MOSS-TTSD的應用場景

  • AI 播客製作:MOSS-TTSD 能生成自然流暢的對話語音,特別適合用於 AI 播客的製作。可以模擬真實的對話場景,生成高質量的播客內容。
  • 影視配音:模型支持中英雙語的高表現力對話語音生成,能進行零樣本音色克隆,適用於影視作品中的對話配音。
  • 長篇訪談:MOSS-TTSD 支持最長 960 秒的音頻生成,能一次性生成超長語音,避免了拼接語音片段之間的不自然過渡,非常適合長篇訪談的語音生成。
  • 新聞報道:在新聞報道中,MOSS-TTSD 可以生成自然的對話式語音,用於播報新聞內容,提升新聞的吸引力。
  • 電商直播:模型可以用於數字人對話帶貨等電商直播場景,通過生成自然的對話語音來吸引觀衆。
© 版權聲明

相關文章

暫無評論

暫無評論...