VoxInstruct – 清華推出的開源語音合成技術，支持多語言和跨語言合成

AI工具2年前 (2024)發佈新公告 AI管理員

12 0 0

VoxInstruct是什麼

VoxInstruct 是由清華大學開源的語音合成技術，能根據人類語言指令生成高度符合用戶需求的語音。系統採用統一的多語言編解碼器語言建模框架，將傳統的文本到語音任務擴展到更廣泛的人類指令到語音任務。VoxInstruct 引入語音語義標記和多種無分類器指導策略，提高語音合成的自然度和表現力。支持多語言和跨語言合成，適用於智能語音助手、有聲讀物、教育培訓等多種場景。

VoxInstruct的主要功能

多語言支持：VoxInstruct 能處理和生成多種語言的語音，支持跨語言的語音合成。
指令到語音生成：直接將人類語言指令轉換爲語音，無需複雜的預處理或分割指令。
語音語義標記：引入語音語義標記（Speech Semantic Tokens）作爲中間表示，幫助模型理解和提取指令中的語音內容。
無分類器指導策略：採用多種無分類器指導（Classifier-Free Guidance, CFG）策略，增強模型對人類指令的理解和語音生成的可控性。
情感和風格控制：VoxInstruct 能根據指令中的情感和風格描述生成相應情感和風格的語音。

VoxInstruct的技術原理

統一的多語言編解碼器語言模型框架：VoxInstruct 使用一個編解碼器框架，處理和理解多種語言的指令，將指令轉換爲相應的語音輸出。
預訓練的文本編碼器：VoxInstruct 基於預訓練的文本編碼器（如 MT5）來理解和處理輸入的自然語言指令，捕捉語言的語義信息。
語音語義標記（Speech Semantic Tokens）：一種中間表示形式，將文本指令映射到語音內容。幫助模型從原始文本中提取關鍵信息，並指導語音的生成。
無分類器指導（Classifier-Free Guidance, CFG）策略：VoxInstruct 結合了 CFG 策略來增強模型對人類指令的響應能力，提高語音合成的自然度和準確性。
神經編解碼器模型：Encodec 作爲聲學編碼器，用於提取聲學特徵作爲中間表示，隨後用於生成語音波形。