OmniVoice – 小米團隊開源的多語言TTS模型

0 0 0

OmniVoice是什麼

OmniVoice是小米 AI 實驗室新一代 Kaldi 團隊開源的超大規模多語言TTS模型，支持600+語種零樣本語音克隆。模型採用極簡非自迴歸擴散架構，結合全碼本隨機Mask與LLM初始化技術，實現40倍實時推理速度。OmniVoice支持音色設計、音頻去噪、副語言控制（如笑聲）及發音糾正，在音質與語言覆蓋度上達到SOTA水平，特別對低資源語言展現強泛化能力。

OmniVoice的主要功能

超大規模多語言合成：支持 600+ 語種的零樣本 TTS，覆蓋從高頻到低資源小語種，基於 58 萬小時開源數據訓練。
零樣本語音克隆：僅需 3-10 秒參考音頻即可克隆任意說話人音色，支持自動轉錄（內置 Whisper）或手動提供文本。
屬性化音色設計：無需參考音頻，通過自然語言描述（性別、年齡、音調、方言/口音、耳語風格等）直接生成定製聲音。
參考音頻去噪：可處理帶噪聲或混響的參考音頻，提取純淨說話人特徵，避免合成語音攜帶環境雜音。
副語言控制：插入 [laughter]、[sigh] 等標籤添加笑聲、嘆氣等情感
發音糾正：用拼音（如 ZHE2）或 CMU 音素（如 [B EY1 S]）糾正多音字和專有名詞發音

如何使用OmniVoice

安裝部署：用戶可通過 pip 命令或從 GitHub 克隆源碼，執行安裝命令完成 OmniVoice 的部署。
快速體驗：用戶無需編寫代碼可通過啓動本地 Web 服務或訪問 HuggingFace 在線 Demo 來快速體驗 OmniVoice 的語音合成效果。
語音克隆：開發者可用 Python API 加載預訓練模型，通過提供參考音頻和轉寫文本實現零樣本語音克隆功能。
音色設計：用戶可通過自然語言描述說話人的性別、年齡、音調、口音等屬性來直接設計生成特定的音色。
命令行工具：系統支持通過命令行工具進行單條語音合成或跨多 GPU 的批量推理任務處理。
細粒度控制：用戶可在合成文本中插入特定標籤來添加笑聲、嘆氣等副語言表達，或使用拼音和音素符號糾正多音字及專有名詞的發音。

OmniVoice的關鍵信息和使用要求

技術定位：OmniVoice 是小米 AI 實驗室開源的基於擴散語言模型的非自迴歸 TTS 系統，採用極簡雙向 Transformer 架構直接映射文本至多碼本聲學 token，摒棄傳統級聯 pipeline，支持 600+ 語種的零樣本語音克隆與合成。
核心參數：模型擁有 0.8B 參數並基於 Qwen3-0.6B 初始化，基於 58.1 萬小時開源語音數據訓練覆蓋 646 個語種，推理速度達 RTF 0.025（40 倍實時），在中英文及多語言基準測試中的說話人相似度與可懂度指標均達到 SOTA 水平。
功能邊界：支持 3-10 秒參考音頻的零樣本語音克隆（含帶噪/混響音頻去噪）、基於性別/年齡/音調/方言/口音等屬性的音色設計、以及通過標籤和拼音/音素實現的副語言控制與發音糾正。
硬件環境：需要支持 CUDA 的 NVIDIA GPU（推薦 H800/H20 以發揮最佳性能）或支持 MPS 的 Apple Silicon 設備來運行模型推理。
軟件依賴：需在 Python 虛擬環境中安裝 PyTorch（匹配 CUDA 版本）並通過 pip 或源碼安裝 omnivoice 包滿足運行依賴。

OmniVoice的核心優勢

架構極簡高效：採用單階段非自迴歸擴散語言模型架構，用一個雙向 Transformer 直接映射文本至多碼本聲學 token，消除傳統級聯 pipeline 的誤差傳播與信息瓶頸，實現架構簡潔性與性能的雙重突破。
語言覆蓋最廣：基於 58.1 萬小時開源數據訓練，支持 600+ 語種的零樣本語音合成，在低資源小語種上仍保持極低字錯誤率，是目前語言覆蓋範圍最廣的 TTS 模型。
推理速度極快：通過全碼本隨機 masking 策略與高效架構設計，實現 RTF 低至 0.025 的推理速度，即 40 倍快於實時，顯著優於自迴歸模型。
音質與可懂度 SOTA：藉助 LLM 初始化繼承預訓練語言知識，在 LibriSpeech-PC、Seed-TTS 等基準測試中，說話人相似度（SIM-o）與可懂度（WER）均超越現有非自迴歸模型及商用系統。
多維可控能力：支持零樣本語音克隆、基於屬性的音色設計、帶噪音頻去噪、副語言符號（笑聲/嘆氣）插入及拼音/音素級發音糾正，滿足複雜場景下的細粒度控制需求。

OmniVoice的項目地址

GitHub倉庫：https://github.com/k2-fsa/OmniVoice
HuggingFace模型庫：https://huggingface.co/k2-fsa/OmniVoice
arXiv技術論文：https://arxiv.org/pdf/2604.00688
在線體驗Demo：https://huggingface.co/spaces/k2-fsa/OmniVoice

OmniVoice的同類競品對比

維度	OmniVoice	ElevenLabs v2	MiniMax-Speech
語言覆蓋	600+ 語種（含大量低資源語言）	~29 種主流語言	~24 種語言
架構類型	非自迴歸擴散模型（單階段極簡）	自迴歸/混合（黑盒架構）	自迴歸
參數量	0.8B	未公開	未公開
推理速度	RTF 0.025 (40×實時/本地)	較慢 (雲端 API 依賴)	中等 (雲端 API 依賴)
零樣本克隆	支持 (3-10秒/600+語種)	支持 (即時/29語種)	支持
可控功能	音色設計/去噪/ 副語言/發音糾正	基礎克隆 + 情緒控制	基礎克隆

OmniVoice的應用場景

多語言內容本地化：創作者可用 OmniVoice 的 600+ 語種支持能力，將播客、有聲書、教育課程等內容快速轉換爲不同語言版本，同時通過零樣本克隆保持原始說話人音色的一致性。
遊戲與影視配音：遊戲廠商和製片方可通過參考音頻克隆或屬性化音色設計，爲角色生成多樣化語音。
智能客服與助手：企業可部署 OmniVoice 構建支持多語言的智能客服系統，用零樣本克隆複製特定品牌代言人聲音，或通過音色設計生成符合品牌形象的專屬語音助手。
教育與語言學習：教育機構可開發稀有語言學習材料，通過拼音/音素級發音糾正功能幫助學習者掌握中文多音字或英文專有名詞的準確讀音。

# AI工具