VoxCPM2 – OpenBMB開源的語音合成模型

0 0 0

VoxCPM2是什麼

VoxCPM2是OpenBMB開源的2B參數語音合成模型。模型採用無分詞器擴散自迴歸架構，支持30種語言及中文方言，輸出48kHz錄音室級音質。VoxCPM2首創Voice Design功能，可通過文字描述憑空創造聲音；支持可控聲音克隆，在保留參考音色的同時調節情感語速；更有終極克隆模式還原每一處聲音細節。模型訓練數據達236萬小時，實時率0.13，Apache-2.0協議可商用，是新一代多語言TTS的標杆之作。

VoxCPM2的主要功能

Voice Design（聲音設計）：通過自然語言描述（如”溫柔的女聲，30歲左右，語速緩慢”）從零創建虛擬聲音，無需任何參考音頻。
可控聲音克隆（Controllable Cloning）：上傳參考音頻克隆音色，同時可通過文本指令（如”更歡快、語速稍快”）實時調節情感、語速和說話風格。
終極克隆（Ultimate Cloning）：提供參考音頻及其轉錄文本，實現音頻延續式克隆，完美復刻原聲的音色、節奏、氣息和情感細節。
多語言合成：支持30種語言及9種中文方言（粵語、四川話等），可直接輸入任意支持語言的文本合成，無需指定語言標籤。
實時流式生成：支持流式輸出音頻片段，RTF低至0.13（Nano-VLLM加速），適用實時對話場景。
個性化微調：支持SFT全參數微調和LoRA高效微調，僅需5-10分鐘音頻即可定製專屬聲音。

如何使用VoxCPM2

環境準備：通過 pip 安裝 voxcpm 庫確保 Python 環境滿足 3.10 以上版本、PyTorch 2.5 以上和 CUDA 12.0 以上的硬件要求。
模型加載：用 from_pretrained 方法加載 OpenBMB 發佈的 VoxCPM2 預訓練模型到顯存中供後續調用。
基礎合成：調用模型的 generate 方法傳入目標文本內容生成基礎語音，將返回的音頻數組保存爲 48kHz 採樣率的音頻文件。
聲音設計：在待合成文本前添加括號包裹的自然語言描述來實現 Voice Design 功能，無需任何參考音頻可憑空創造出符合描述的虛擬聲音。
聲音克隆：傳入參考音頻文件路徑和目標文本實現基礎聲音克隆，模型會提取參考音頻的說話人音色特徵用於合成新內容。
可控克隆：在參考音頻克隆的基礎上於文本前添加括號內的風格指令來實現可控克隆，在保留原音色的同時調節情感、語速和說話風格。
終極克隆：同時傳入參考音頻、其對應的轉錄文本以及目標合成文本實現終極克隆，模型通過音頻延續方式完美復刻原聲的音色、節奏和氣息細節。
流式生成：調用 generate_streaming 方法啓用流式生成模式，模型逐塊返迴音頻數據片段，適用實時對話和低延遲場景。
命令行工具：在終端使用 voxcpm 命令行工具執行 design 或 clone 子命令，快速完成語音合成和聲音克隆任務無需編寫腳本。
Web 界面：運行項目提供的 app.py 文件啓動基於 Gradio 的 Web 可視化界面，在瀏覽器中通過圖形界面交互式地完成語音合成操作。
生產部署：安裝 nano-vllm-voxcpm 擴展庫並使用其提供的 VoxCPM 類加載模型以實現生產級部署，獲得低至 0.13 的實時率和併發請求處理能力。

VoxCPM2的關鍵信息和使用要求

發佈背景：VoxCPM2 由 OpenBMB（面壁智能）團隊發佈，是 VoxCPM 系列的最新主力版本，採用 Apache-2.0 協議完全開源且可商用。
技術核心：基於 MiniCPM-4 架構的 2B 參數擴散自迴歸模型，訓練數據達 236 萬小時，採用無分詞器設計直接在連續語音空間生成音頻，支持 30 種語言及 9 種中文方言，輸出 48kHz 錄音室級音質。
核心能力：首創 Voice Design 功能通過文字描述憑空創造聲音；支持可控聲音克隆保留參考音色並調節情感語速；終極克隆模式配合轉錄文本實現音頻延續式完美復刻；實時流式生成 RTF 低至 0.13。
硬件環境：Python 需 3.10 及以上版本，PyTorch 需 2.5.0 及以上，CUDA 需 12.0 及以上，顯存需求約 8GB，首次使用需下載約 4GB 模型權重文件。
安裝部署：通過 pip install voxcpm 完成基礎安裝，支持 Python API 編程調用、voxcpm 命令行工具、本地 Web 可視化界面三種交互方式，生產環境建議安裝 nano-vllm-voxcpm 實現高性能併發服務。

VoxCPM2的核心優勢

無分詞器端到端架構：摒棄傳統離散音頻 token，採用擴散自迴歸直接在連續語音表徵空間生成音頻，避免 tokenization 帶來的信息損失，實現更自然的韻律和更豐富的細節表達。
原生聲音設計能力：全球首創僅通過自然語言描述（如”溫柔的中年女性，略帶沙啞”）可憑空創造虛擬聲音，無需任何參考音頻，突破傳統 TTS 必須依賴真人錄音的限制。
深度可控的克隆體系：支持三級克隆精度：基礎克隆保留音色；可控克隆在保留音色的基礎上通過文本指令實時調節情感、語速和風格；終極克隆結合轉錄文本實現音頻延續式完美復刻。
錄音室級音質輸出：採用 AudioVAE V2 非對稱編解碼技術（16kHz 編碼→48kHz 解碼），原生輸出 48kHz 採樣率音頻，內置超分辨率能力，無需外部上採樣器即可獲得廣播級音質。
超大規模多語言覆蓋：支持 30 種主流語言及 9 種中文方言（粵語、四川話等），基於 236 萬小時多語言數據訓練，跨語言音色遷移自然流暢，無需指定語言標籤即可自動識別合成。

VoxCPM2的項目地址

GitHub倉庫：https://github.com/OpenBMB/VoxCPM
HuggingFace模型庫：https://huggingface.co/openbmb/VoxCPM2

VoxCPM2的同類競品對比

對比維度	VoxCPM2	Fish Audio S2	CosyVoice3
參數規模	2B	4B	0.5B / 1.5B
技術架構	無分詞器擴散自迴歸（連續空間生成）	Dual-AR + DAC （離散編解碼）	AR + Flow Matching + HiFi-GAN
輸出音質	48kHz 原生錄音室級	24kHz	16kHz
Voice Design （文字描述生聲音）	✅ 首創支持	❌ 不支持	❌ 不支持
可控克隆（調節情感/語速）	✅ 文本標籤控制	⚠️ 有限支持	✅ 情感指令控制
發音準確度 (Seed-TTS-Eval)	中文CER 0.97% 英文WER 1.84%	中文CER 0.54% 英文WER 0.99%	中文CER 1.12% 英文WER 2.02%
語言覆蓋	30種 + 9種中文方言	80+種語言	9種 + 多種中文方言
首包延遲	~150ms（標準） ~80ms（加速）	—	~100ms
實時率(RTF) RTX 4090	0.30（標準） 0.13（Nano-VLLM）	—	0.15
顯存需求	~8GB	~8GB	~4-6GB