MOSS-TTSD – 清華實驗室開源的口語對話語音生成模型

0 0 0

MOSS-TTSD是什麼

MOSS-TTSD（Text to Spoken Dialogue）是開源的口語對話語音生成模型，由清華大學語音與語言實驗室（Tencent AI Lab）開發。能將文本對話腳本轉化爲自然流暢、富有表現力的對話語音，支持中英文雙語生成。模型基於先進的語義-音學神經網絡音頻編解碼器和大規模預訓練語言模型，結合了超過100萬小時的單人語音數據和40萬小時的對話語音數據進行訓練。支持零樣本語音克隆，能根據對話腳本生成準確的對話者切換語音，適用於AI播客、訪談、新聞報道等多種場景。

MOSS-TTSD的主要功能

高表現力對話語音生成：能將對話腳本轉換爲自然、富有表現力的對話語音，準確捕捉對話中的韻律、語調等特性。
零樣本多說話人音色克隆：支持根據對話腳本生成準確的對話者切換語音，無需額外樣本即可實現兩位對話者的音色克隆。
中英雙語支持：可在中文和英文兩種語言中生成高質量的對話語音。
長篇語音生成：基於低比特率編解碼器和優化的訓練框架，能一次性生成超長語音，避免拼接語音片段的不自然過渡。
完全開源且商業就緒：模型權重、推理代碼和API接口均已開源，支持免費商業使用。

MOSS-TTSD的技術原理

基礎模型架構：MOSS-TTSD 基於 Qwen3-1.7B-base 模型進行續訓練，採用離散化語音序列建模方法。模型通過八層 RVQ（Residual Vector Quantization）碼本對語音進行離散化處理，將連續的語音信號轉換爲離散的 token 序列。這些 token 序列通過自迴歸加 Delay Pattern 的方式生成，最後通過 Tokenizer 的解碼器將 token 還原爲語音。
語音離散化與編碼器創新：核心創新之一是 XY-Tokenizer，是專門設計的語音離散化編碼器。XY-Tokenizer 採用雙階段多任務學習方式訓練：
- 第一階段：訓練自動語音識別（ASR）任務和重建任務，讓編碼器在編碼語義信息的同時保留粗粒度的聲學信息。
- 第二階段：固定編碼器和量化層，僅訓練解碼器部分，通過重建損失和 GAN 損失補充細粒度聲學信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的幀率下，能同時建模語義和聲學信息，性能優於其他同類 Codec。
數據處理與預訓練：MOSS-TTSD 使用了約 100 萬小時的單說話人語音數據和 40 萬小時的對話語音數據進行訓練。團隊設計了高效的數據處理流水線，從海量原始音頻中篩選出高質量的單人語音和多人對話語音，進行標註。模型進行了 TTS 預訓練，使用 110 萬小時的中英文 TTS 數據顯著增強了語音韻律和表現力。
長語音生成能力：基於超低比特率的 Codec，MOSS-TTSD 支持最長 960 秒的音頻生成，能一次性生成超長語音，避免了拼接語音片段之間的不自然過渡。