MinMo – 阿里通義實驗室推出的多模態語音交互大模型

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

MinMo是什麼

MinMo是阿里巴巴通義實驗室FunAudioLLM團隊推出的多模態大模型，專注於實現無縫語音交互。MinMo擁有約80億參數，基於多階段訓練，在140萬小時多樣化語音數據和廣泛語音任務上進行學習。MinMo支持根據用戶指令控制生成音頻的情感、方言和說話風格，及模仿特定音色，生成效率超過90%。MinMo支持全雙工語音交互，語音到文本延遲約爲100毫秒，全雙工延遲理論上約爲600毫秒，實際約爲800毫秒，可實現用戶與系統之間的同時雙向通信，使多輪對話更加流暢。

MinMo的主要功能

實時語音對話：能實時、自然、流暢地與用戶進行語音對話，理解用戶的語音指令並生成相應的語音回應。
多語言支持：支持多語言語音識別和翻譯，在多種語言環境下與用戶順暢溝通。
情感表達：根據用戶指令生成帶有特定情感（如快樂、悲傷、驚訝等）的語音。
方言和說話風格：支持生成特定方言（如四川話、粵語等）和特定說話風格（如快速、慢速等）的語音。
音色模仿：模仿特定音色，讓語音交互更具個性化和表現力。
全雙工交互：支持用戶和系統同時說話和聆聽，實現更自然、高效的多輪對話，語音到文本延遲約爲100毫秒，全雙工延遲理論上約爲600毫秒，實際約爲800毫秒。

MinMo的技術原理

多模態融合架構：
- 語音編碼器：基於預訓練的SenseVoice-large編碼器模塊，提供強大的語音理解能力，支持多語言語音識別、情感識別和音頻事件檢測。
- 輸入投影器：由兩層Transformer和一層CNN組成，用在維度對齊和降採樣。
- 大型語言模型：用預訓練的Qwen2.5-7B-instruct模型，因其在多個基準測試中表現出色。
- 輸出投影器：單層線性模塊，用在維度對齊。
- 語音標記語言模型：用預訓練的CosyVoice 2 LM模塊，自迴歸生成語音標記。
- Token2wav合成器：將語音標記轉換爲mel頻譜圖，再轉換爲波形，支持實時音頻合成。
- 全雙工預測器：單層Transformer和線性softmax輸出層，用在實時預測是否繼續系統響應或暫停處理用戶輸入。
多階段訓練策略：
- 語音到文本對齊：基於大量語音數據和對應的文本標註，訓練模型學習語音和文本之間的映射關係，讓模型準確地將語音轉換爲文本，爲後續的文本理解和生成打下基礎。
- 文本到語音對齊：讓模型學習如何將文本轉換爲語音，生成自然流暢的語音表達，保持文本的語義信息和情感色彩。
- 語音到語音對齊：進一步提升模型對語音的理解和生成能力，讓模型直接在語音層面進行交互，更好地處理語音的韻律、語調等特徵。
- 雙工交互對齊：模擬真實的全雙工交互場景，訓練模型在同時接收和發送語音信號的情況下，準確地進行語音識別和生成，優化模型在複雜交互環境下的性能。