MaskGCT – 趣丸科技聯合香港中文大學推出的語音合成大模型

AI工具10個月前發佈新公告 AI管理員

2 0 0

MaskGCT是什麼

MaskGCT是趣丸科技與香港中文大學（深圳）合作推出的語音合成大模型，基於掩碼生成模型與語音表徵解耦編碼的技術，實現在聲音克隆、跨語種合成、語音控制等任務上的顯著效果。模型在多個TTS基準數據集上達到行業領先的水平，某些性能指標甚至超過人類。MaskGCT能快速且逼真地克隆聲音，靈活調整語音的持續時間、速度和情感，支持中文、英文、日文、韓文、法文和德文等六種語言的合成。模型已在Amphion系統中開源，面向全球用戶開放使用。

MaskGCT – 趣丸科技聯合香港中文大學推出的語音合成大模型

MaskGCT的主要功能

聲音克隆：能快速復刻任意音色，包括人類、動漫角色等，且能完整地複製語調、風格和情感。
跨語種合成：支持多種語言的語音合成，包括中文、英文、日文、韓文、法文和德文等，實現跨語言的語音生成。
語音控制：靈活調整生成語音的長度、語速和情緒，支持用編輯文本編輯語音內容，保持韻律和音色的一致性。
高質量語音數據集：訓練於高質量的多語種語音數據集Emilia，提供豐富的語音合成素材。

MaskGCT的技術原理

語音語義表示編解碼器：將語音轉換爲語義標記，用VQ-VAE模型學習向量量化碼本，從語音自監督學習模型中重建語音語義表示。
語音聲學編解碼器：將語音波形量化爲多層離散標記，保留語音的所有信息，用RVQ方法壓縮語音波形，用Vocos架構作爲解碼器。
文本到語義模型：用非自迴歸掩碼生成Transformer，不依賴文本到語音的對齊信息，基於語言模型的上下文學習能力預測語義標記。
語義到聲學模型：用非自迴歸掩碼生成Transformer，語義標記爲條件生成多層聲學標記序列，重建高質量語音波形。

MaskGCT的項目地址

GitHub倉庫：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
HuggingFace模型庫：https://huggingface.co/amphion/MaskGCT
arXiv技術論文：https://arxiv.org/pdf/2409.00750v2
公測版地址（趣丸千音）：https://voice.funnycp.com/

MaskGCT的應用場景

有聲讀物和播客：用MaskGCT生成的高質量語音，爲電子書、有聲讀物和播客節目提供自然的朗讀聲音，提升聽衆的聽覺體驗。
智能助手和聊天機器人：在智能設備和客服系統中，MaskGCT提供更加自然和個性化的語音交互體驗。
視頻遊戲和虛擬現實：在遊戲和虛擬現實應用中，MaskGCT爲角色生成逼真的語音，增強沉浸感。
影視製作和配音：在影視後期製作中，MaskGCT快速生成或替換角色的語音，提高製作效率。
語言學習和教育：MaskGCT生成標準或特定口音的語音，輔助語言學習者練習發音和聽力。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

9款免費好用的AI文本轉語音的工具和網站，智能合成配音

earnbyshare2016

57 0

GOT-OCR2.0 – 開源的端到端OCR模型，多語言多模態識別，多樣化輸入輸出

earnbyshare2016

5 0

potion – AI視頻生成平台，模擬用戶面孔和聲音創建個性化視頻

earnbyshare2016

32 0

Liner.ai – 面向非專業程序員和數據科學家的機器學習工具

earnbyshare2016

1 0

Stability AI開源Stable Diffusion 3 Medium文生圖模型

earnbyshare2016

19 0

GraphMaker – AI數據圖表製作工具，快速創建多種圖表類型

earnbyshare2016

104 0

暫無評論

暫無評論...