MaskGCT – 趣丸科技聯合香港中文大學推出的語音合成大模型

AI工具2周前發佈新公告 AI管理員
2 0

MaskGCT是什麼

MaskGCT是趣丸科技與香港中文大學(深圳)合作推出的語音合成大模型,基於掩碼生成模型與語音表徵解耦編碼的技術,實現在聲音克隆、跨語種合成、語音控制等任務上的顯著效果。模型在多個TTS基準數據集上達到行業領先的水平,某些性能指標甚至超過人類。MaskGCT能快速且逼真地克隆聲音,靈活調整語音的持續時間、速度和情感,支持中文、英文、日文、韓文、法文和德文等六種語言的合成。模型已在Amphion系統中開源,面向全球用戶開放使用。

MaskGCT – 趣丸科技聯合香港中文大學推出的語音合成大模型

MaskGCT的主要功能

  • 聲音克隆:能快速復刻任意音色,包括人類、動漫角色等,且能完整地複製語調、風格和情感。
  • 跨語種合成:支持多種語言的語音合成,包括中文、英文、日文、韓文、法文和德文等,實現跨語言的語音生成。
  • 語音控制:靈活調整生成語音的長度、語速和情緒,支持用編輯文本編輯語音內容,保持韻律和音色的一致性。
  • 高質量語音數據集:訓練於高質量的多語種語音數據集Emilia,提供豐富的語音合成素材。

MaskGCT的技術原理

  • 語音語義表示編解碼器:將語音轉換爲語義標記,用VQ-VAE模型學習向量量化碼本,從語音自監督學習模型中重建語音語義表示。
  • 語音聲學編解碼器:將語音波形量化爲多層離散標記,保留語音的所有信息,用RVQ方法壓縮語音波形,用Vocos架構作爲解碼器。
  • 文本到語義模型:用非自迴歸掩碼生成Transformer,不依賴文本到語音的對齊信息,基於語言模型的上下文學習能力預測語義標記。
  • 語義到聲學模型:用非自迴歸掩碼生成Transformer,語義標記爲條件生成多層聲學標記序列,重建高質量語音波形。

MaskGCT的項目地址

  • GitHub倉庫:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
  • HuggingFace模型庫:https://huggingface.co/amphion/MaskGCT
  • arXiv技術論文:https://arxiv.org/pdf/2409.00750v2
  • 公測版地址(趣丸千音):https://voice.funnycp.com/

MaskGCT的應用場景

  • 有聲讀物和播客:用MaskGCT生成的高質量語音,爲電子書、有聲讀物和播客節目提供自然的朗讀聲音,提升聽衆的聽覺體驗。
  • 智能助手和聊天機器人:在智能設備和客服系統中,MaskGCT提供更加自然和個性化的語音交互體驗。
  • 視頻遊戲和虛擬現實:在遊戲和虛擬現實應用中,MaskGCT爲角色生成逼真的語音,增強沉浸感。
  • 影視製作和配音:在影視後期製作中,MaskGCT快速生成或替換角色的語音,提高製作效率。
  • 語言學習和教育:MaskGCT生成標準或特定口音的語音,輔助語言學習者練習發音和聽力。
© 版權聲明

相關文章

暫無評論

暫無評論...