GLM-4-Voice – 智譜AI推出的端到端情感語音模型

AI工具2周前發佈新公告 AI管理員
2 0

GLM-4-Voice是什麼

GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實時語音對話,能根據用戶指令靈活調整語音的情感、語調、語速和方言等特徵。模型由三個部分組成:GLM-4-Voice-Tokenizer負責將連續語音轉換爲離散token,GLM-4-Voice-Decoder將token轉換回連續語音輸出,GLM-4-Voice-9B基於GLM-4-9B模型進行預訓練和對齊,理解和生成語音。GLM-4-Voice的設計用端到端建模減少信息損失,提高語音交互的自然度和流暢性,且支持低延遲的實時對話,爲用戶提供更加豐富和自然的語音交互體驗。

GLM-4-Voice – 智譜AI推出的端到端情感語音模型

GLM-4-Voice的主要功能

  • 理解和生成語音:直接理解和生成中英文語音,實現流暢的人機交互。
  • 情感表達:模擬不同的情感和語調,如高興、悲傷、生氣、害怕等,讓語音回覆更加自然。
  • 調節語速:根據用戶的指令調整語音的語速,適於不同的對話場景。
  • 實時打斷和指令輸入:支持用戶隨時打斷語音輸出,輸入新的指令調整對話內容。
  • 多語言和方言支持:支持中英文及多種中國方言,如粵語、重慶話、北京話等。
  • 低延遲交互:設計流式思考架構,低延遲實現高質量的語音對話。

GLM-4-Voice的技術原理

  • 端到端建模:與傳統的級聯方案(ASR + LLM + TTS)不同,GLM-4-Voice在一個統一的模型中完成語音的理解和生成,避免信息損失。
  • 音頻Tokenizer:用有監督訓練的音頻Tokenizer將連續的語音輸入轉化爲離散的token,用12.5Hz的低碼率保留語義信息和副語言特徵。
  • 語音解碼器:基於Flow Matching模型結構的語音解碼器,將離散的語音token轉化爲連續的語音輸出,最低只需10個token開始生成,降低對話延遲。
  • 預訓練和對齊:GLM-4-Voice-9B在GLM-4-9B的基礎上進行預訓練和對齊,理解和生成離散化的語音token。預訓練用大量音頻和文本數據,讓模型具備強大的音頻理解和建模能力。
  • 流式推理:支持流式推理,模型能交替輸出文本和語音,用文本作爲參照保證回覆內容的高質量,根據用戶的語音指令實時調整語音輸出。

GLM-4-Voice的項目地址

  • 項目官網:zhipuai.cn/news
  • GitHub倉庫:https://github.com/THUDM/GLM-4-Voice

GLM-4-Voice的應用場景

  • 智能助手:在智能手機、智能家居設備中,作爲智能助手,用語音交互幫助用戶完成各種任務,如設置提醒、查詢天氣、控制家居設備等。
  • 客戶服務:在客戶服務中心,作爲虛擬客服,基於自然語言理解和語音合成技術,爲用戶提供諮詢和解決問題的服務。
  • 教育和學習:在教育領域,作爲語言學習助手,幫助學生練習發音、聽力和口語,提供個性化的學習建議。
  • 娛樂和媒體:在娛樂行業,用在語音合成,爲動畫、遊戲、有聲書等提供自然、富有表現力的語音輸出。
  • 新聞和播報:用在新聞播報,將文本新聞快速轉換爲語音,提供給需要語音信息的用戶。
© 版權聲明

相關文章

暫無評論

暫無評論...