GLM-4-Voice是什麼
GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實時語音對話,能根據用戶指令靈活調整語音的情感、語調、語速和方言等特徵。模型由三個部分組成:GLM-4-Voice-Tokenizer負責將連續語音轉換爲離散token,GLM-4-Voice-Decoder將token轉換回連續語音輸出,GLM-4-Voice-9B基於GLM-4-9B模型進行預訓練和對齊,理解和生成語音。GLM-4-Voice的設計用端到端建模減少信息損失,提高語音交互的自然度和流暢性,且支持低延遲的實時對話,爲用戶提供更加豐富和自然的語音交互體驗。
GLM-4-Voice的主要功能
- 理解和生成語音:直接理解和生成中英文語音,實現流暢的人機交互。
- 情感表達:模擬不同的情感和語調,如高興、悲傷、生氣、害怕等,讓語音回覆更加自然。
- 調節語速:根據用戶的指令調整語音的語速,適於不同的對話場景。
- 實時打斷和指令輸入:支持用戶隨時打斷語音輸出,輸入新的指令調整對話內容。
- 多語言和方言支持:支持中英文及多種中國方言,如粵語、重慶話、北京話等。
- 低延遲交互:設計流式思考架構,低延遲實現高質量的語音對話。
GLM-4-Voice的技術原理
- 端到端建模:與傳統的級聯方案(ASR + LLM + TTS)不同,GLM-4-Voice在一個統一的模型中完成語音的理解和生成,避免信息損失。
- 音頻Tokenizer:用有監督訓練的音頻Tokenizer將連續的語音輸入轉化爲離散的token,用12.5Hz的低碼率保留語義信息和副語言特徵。
- 語音解碼器:基於Flow Matching模型結構的語音解碼器,將離散的語音token轉化爲連續的語音輸出,最低只需10個token開始生成,降低對話延遲。
- 預訓練和對齊:GLM-4-Voice-9B在GLM-4-9B的基礎上進行預訓練和對齊,理解和生成離散化的語音token。預訓練用大量音頻和文本數據,讓模型具備強大的音頻理解和建模能力。
- 流式推理:支持流式推理,模型能交替輸出文本和語音,用文本作爲參照保證回覆內容的高質量,根據用戶的語音指令實時調整語音輸出。
GLM-4-Voice的項目地址
- 項目官網:zhipuai.cn/news
- GitHub倉庫:https://github.com/THUDM/GLM-4-Voice
GLM-4-Voice的應用場景
- 智能助手:在智能手機、智能家居設備中,作爲智能助手,用語音交互幫助用戶完成各種任務,如設置提醒、查詢天氣、控制家居設備等。
- 客戶服務:在客戶服務中心,作爲虛擬客服,基於自然語言理解和語音合成技術,爲用戶提供諮詢和解決問題的服務。
- 教育和學習:在教育領域,作爲語言學習助手,幫助學生練習發音、聽力和口語,提供個性化的學習建議。
- 娛樂和媒體:在娛樂行業,用在語音合成,爲動畫、遊戲、有聲書等提供自然、富有表現力的語音輸出。
- 新聞和播報:用在新聞播報,將文本新聞快速轉換爲語音,提供給需要語音信息的用戶。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...