Seed-TTS – 字節跳動推出的高質量文本到語音生成模型

AI工具2年前 (2024)發佈新公告 AI管理員

30 0 0

Seed-TTS是什麼

Seed-TTS是由字節跳動開發的高級文本到語音（Text to Speech，TTS）模型，能夠生成與人類語音極爲相似的高質量語音，具備出色的上下文學習能力和自然度。Seed-TTS支持對情感、語調、說話風格等語音屬性的精細控制，適用於有聲讀物、視頻配音等多種場景。此外，該模型還具備零樣本學習能力，即使在沒有訓練數據的情況下也能生成高質量語音，並且支持內容編輯和多語種翻譯功能。

Seed-TTS的主要功能

高質量語音生成： Seed-TTS採用了先進的自迴歸模型和聲學聲碼器技術，能夠生成接近人類自然語音的高質量語音。模型在大量數據上進行訓練，學習到豐富的語音特徵和語言模式，從而能夠合成清晰、流暢、自然的語音輸出。
上下文學習：該模型具備出色的上下文學習能力，可以在理解給定文本的上下文基礎上，生成與上下文風格和語義相匹配的語音。無論是連續的對話還是單獨的句子，Seed-TTS都能夠保持語音的連貫性和一致性。
情感控制： Seed-TTS能夠根據文本內容或額外的情感標籤，控制生成語音的情感色彩。用戶可以指定語音中應表達的情感，如憤怒、快樂、悲傷或驚訝等，模型會相應地調整語音的音調、強度和節奏，以匹配所選情感。
語音屬性可控：除了情感，Seed-TTS還允許用戶控制其他語音屬性，包括語調、節奏和說話風格。用戶可以根據應用場景的需求，調整語音使其更正式或非正式，或者更具戲劇化效果。
零樣本學習能力（Zero-shot Learning）：即使沒有特定說話者的訓練數據，Seed-TTS也能夠利用其在大量數據上訓練得到的泛化能力，生成高質量的語音。此能力使得Seed-TTS能夠快速適應新的說話者或語言，而無需額外的訓練過程。
語音編輯： Seed-TTS支持對生成的語音進行編輯，包括內容編輯和說話速度編輯。用戶可以根據需要修改語音中的特定部分，或調整語速以適應不同的聽衆或應用場景。
多語種支持：模型設計支持多種語言的文本輸入，能夠生成相應語言的語音，使得Seed-TTS可以服務於全球化的應用，滿足不同語言用戶的需求。
語音分解： Seed-TTS通過自我蒸餾方法實現了語音的屬性分解，例如可以將語音的音色與其他屬性（如內容和情感）分離，爲語音合成提供了更高的靈活性和控制力，允許用戶獨立地修改和重組語音的不同組成部分。

Seed-TTS的官網入口

官方項目入口：https://bytedancespeech.github.io/seedtts_tech_report/
arXiv技術論文：https://arxiv.org/pdf/2406.02430

Seed-TTS的工作原理

Seed-TTS – 字節跳動推出的高質量文本到語音生成模型

語音分詞（Speech Tokenization）：首先，Seed-TTS使用一個語音分詞器將輸入的語音信號轉換成一系列離散的語音標記（tokens）。這些標記是語音合成的基礎，類似於文本中的字符或單詞。
條件文本和語音處理：接下來，Seed-TTS的自迴歸語言模型根據輸入的文本和語音標記生成目標語音的標記序列。這個過程依賴於模型對語言結構和語音特性的理解，確保生成的語音標記序列在語義和語法上與輸入文本相匹配。
語音表示生成：生成的語音標記序列隨後被送入一個擴散變換器（diffusion transformer）模型。這個模型負責將離散的語音標記轉換成連續的語音表示，這個過程是逐步細化的，從粗糙到精細，以生成平滑且自然的語音波形。
聲學聲碼器（Acoustic Vocoder）：最後，連續的語音表示被送入聲學聲碼器，該組件負責將這些表示轉換成可聽的高質量語音。聲碼器通常使用深度學習技術來模擬人類聲道產生語音的過程。
訓練和微調： Seed-TTS模型在大量數據上進行預訓練，以學習語言和語音的基本規律。之後，可以通過微調來適應特定的說話者或語音風格，進一步提升語音的自然度和表現力。
自我蒸餾和強化學習： Seed-TTS還採用了自我蒸餾方法來實現語音屬性的分解，如音色分離，以及使用強化學習技術來增強模型的魯棒性、說話者相似性和可控性。
端到端處理：對於非自迴歸的變體Seed-TTSDiT，它採用完全基於擴散的架構，直接從文本到語音的端到端處理，不依賴預先估計的音素持續時間。