Spirit LM – Meta推出多模態語言模型,無縫集成語音和文本

AI工具3周前發佈新公告 AI管理員
2 0

Spirit LM是什麼

Spirit LM是由Meta AI團隊推出的一種多模態語言模型,能無縫地混合文本和語音數據。Spirit LM基於一個預訓練的文本語言模型,用持續在文本和語音單元上的訓練擴展到語音模態。模型有兩個版本:基礎版(BASE)和表達版(EXPRESSIVE)。基礎版用語音語義單元,除表達版除語義單元外,還用音高和風格單元模擬語音的表達性。Spirit LM在訓練時將語音和文本序列連接爲單一的標記集,基於詞級交錯方法。能生成具有文本模型語義能力的文本,和生成具有語音模型表達能力的語音,Spirit LM能在少量樣本的情況下跨模態學習新任務,如自動語音識別(ASR)、文本到語音(TTS)和語音分類。

Spirit LM – Meta推出多模態語言模型,無縫集成語音和文本

Spirit LM的主要功能

  • 跨模態語言生成:Spirit LM能生成文本和語音,實現無縫切換。
  • 語義和表達能力:結合文本模型的語義能力和語音模型的表達能力。
  • 少量樣本學習:基於少量樣本快速學習新任務,如ASR、TTS和語音分類。
  • 情感保持:表達版(EXPRESSIVE)能理解和生成具有特定情感的語音和文本。
  • 多模態理解:理解和生成跨模態內容,例如將文本轉換爲語音或反之。

Spirit LM的技術原理

  • 預訓練和擴展:基於預訓練的文本語言模型,用持續在文本和語音單元上的訓練來展模型的語音處理能力。
  • 交錯訓練:用詞級交錯方法,將語音和文本序列連接爲單一的標記集進行訓練,實現語音和文本之間的對齊。
  • 雙模態標記
    • 基礎版(BASE):用語音語義單元(如HuBERT標記)。
    • 表達版(EXPRESSIVE):除語義單元外,結合音高(F0)和風格單元捕捉語音的表達性。
  • 編碼和解碼
    • 編碼器:將語音轉換爲標記,用HuBERT等模型進行語音編碼。
    • 解碼器:將標記還原爲原始模態(文本或語音)。
  • 數據集和訓練
    • 用大規模的文本數據集和語音數據集。
    • 基於對齊的語音+文本數據集進行交錯訓練。

Spirit LM的項目地址

  • 項目官網:speechbot.github.io/spiritlm
  • GitHub倉庫:https://github.com/facebookresearch/spiritlm
  • arXiv技術論文:https://arxiv.org/pdf/2402.05755

Spirit LM的應用場景

  • 語音助手:集成到智能設備中,提供語音交互功能,如回答問題、設置提醒和控制智能家居設備。
  • 自動語音識別(ASR):將語音轉換爲文本,用在語音轉寫、會議記錄和語音命令系統。
  • 文本到語音(TTS):將文本信息轉換爲語音輸出,用在有聲讀物、新聞播報和導航系統。
  • 情感分析:分析語音或文本中的情感傾向,用在客戶服務、市場研究和社交媒體監控。
  • 語音翻譯:實現語音輸入的實時翻譯,幫助跨語言溝通,適於國際會議和旅遊場景。
© 版權聲明

相關文章

暫無評論

暫無評論...