MaskGCT是什麼
MaskGCT是趣丸科技與香港中文大學(深圳)合作推出的語音合成大模型,基於掩碼生成模型與語音表徵解耦編碼的技術,實現在聲音克隆、跨語種合成、語音控制等任務上的顯著效果。模型在多個TTS基準數據集上達到行業領先的水平,某些性能指標甚至超過人類。MaskGCT能快速且逼真地克隆聲音,靈活調整語音的持續時間、速度和情感,支持中文、英文、日文、韓文、法文和德文等六種語言的合成。模型已在Amphion系統中開源,面向全球用戶開放使用。
MaskGCT的主要功能
- 聲音克隆:能快速復刻任意音色,包括人類、動漫角色等,且能完整地複製語調、風格和情感。
- 跨語種合成:支持多種語言的語音合成,包括中文、英文、日文、韓文、法文和德文等,實現跨語言的語音生成。
- 語音控制:靈活調整生成語音的長度、語速和情緒,支持用編輯文本編輯語音內容,保持韻律和音色的一致性。
- 高質量語音數據集:訓練於高質量的多語種語音數據集Emilia,提供豐富的語音合成素材。
MaskGCT的技術原理
- 語音語義表示編解碼器:將語音轉換爲語義標記,用VQ-VAE模型學習向量量化碼本,從語音自監督學習模型中重建語音語義表示。
- 語音聲學編解碼器:將語音波形量化爲多層離散標記,保留語音的所有信息,用RVQ方法壓縮語音波形,用Vocos架構作爲解碼器。
- 文本到語義模型:用非自迴歸掩碼生成Transformer,不依賴文本到語音的對齊信息,基於語言模型的上下文學習能力預測語義標記。
- 語義到聲學模型:用非自迴歸掩碼生成Transformer,語義標記爲條件生成多層聲學標記序列,重建高質量語音波形。
MaskGCT的項目地址
- GitHub倉庫:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
- HuggingFace模型庫:https://huggingface.co/amphion/MaskGCT
- arXiv技術論文:https://arxiv.org/pdf/2409.00750v2
- 公測版地址(趣丸千音):https://voice.funnycp.com/
MaskGCT的應用場景
- 有聲讀物和播客:用MaskGCT生成的高質量語音,爲電子書、有聲讀物和播客節目提供自然的朗讀聲音,提升聽衆的聽覺體驗。
- 智能助手和聊天機器人:在智能設備和客服系統中,MaskGCT提供更加自然和個性化的語音交互體驗。
- 視頻遊戲和虛擬現實:在遊戲和虛擬現實應用中,MaskGCT爲角色生成逼真的語音,增強沉浸感。
- 影視製作和配音:在影視後期製作中,MaskGCT快速生成或替換角色的語音,提高製作效率。
- 語言學習和教育:MaskGCT生成標準或特定口音的語音,輔助語言學習者練習發音和聽力。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...