Spirit LM – Meta推出多模態語言模型，無縫集成語音和文本

AI工具1年前 (2024)發佈新公告 AI管理員

5 0 0

Spirit LM是什麼

Spirit LM是由Meta AI團隊推出的一種多模態語言模型，能無縫地混合文本和語音數據。Spirit LM基於一個預訓練的文本語言模型，用持續在文本和語音單元上的訓練擴展到語音模態。模型有兩個版本：基礎版（BASE）和表達版（EXPRESSIVE）。基礎版用語音語義單元，除表達版除語義單元外，還用音高和風格單元模擬語音的表達性。Spirit LM在訓練時將語音和文本序列連接爲單一的標記集，基於詞級交錯方法。能生成具有文本模型語義能力的文本，和生成具有語音模型表達能力的語音，Spirit LM能在少量樣本的情況下跨模態學習新任務，如自動語音識別（ASR）、文本到語音（TTS）和語音分類。

Spirit LM的主要功能

跨模態語言生成：Spirit LM能生成文本和語音，實現無縫切換。
語義和表達能力：結合文本模型的語義能力和語音模型的表達能力。
少量樣本學習：基於少量樣本快速學習新任務，如ASR、TTS和語音分類。
情感保持：表達版（EXPRESSIVE）能理解和生成具有特定情感的語音和文本。
多模態理解：理解和生成跨模態內容，例如將文本轉換爲語音或反之。

Spirit LM的技術原理

預訓練和擴展：基於預訓練的文本語言模型，用持續在文本和語音單元上的訓練來展模型的語音處理能力。
交錯訓練：用詞級交錯方法，將語音和文本序列連接爲單一的標記集進行訓練，實現語音和文本之間的對齊。
雙模態標記：
- 基礎版（BASE）：用語音語義單元（如HuBERT標記）。
- 表達版（EXPRESSIVE）：除語義單元外，結合音高（F0）和風格單元捕捉語音的表達性。
編碼和解碼：
- 編碼器：將語音轉換爲標記，用HuBERT等模型進行語音編碼。
- 解碼器：將標記還原爲原始模態（文本或語音）。
數據集和訓練：
- 用大規模的文本數據集和語音數據集。
- 基於對齊的語音+文本數據集進行交錯訓練。