GLM-4-Voice – 智譜AI推出的端到端情感語音模型

6 0 0

GLM-4-Voice是什麼

GLM-4-Voice是智譜AI推出的端到端情感語音模型，能直接理解和生成中英文語音，支持實時語音對話，能根據用戶指令靈活調整語音的情感、語調、語速和方言等特徵。模型由三個部分組成：GLM-4-Voice-Tokenizer負責將連續語音轉換爲離散token，GLM-4-Voice-Decoder將token轉換回連續語音輸出，GLM-4-Voice-9B基於GLM-4-9B模型進行預訓練和對齊，理解和生成語音。GLM-4-Voice的設計用端到端建模減少信息損失，提高語音交互的自然度和流暢性，且支持低延遲的實時對話，爲用戶提供更加豐富和自然的語音交互體驗。

GLM-4-Voice的主要功能

理解和生成語音：直接理解和生成中英文語音，實現流暢的人機交互。
情感表達：模擬不同的情感和語調，如高興、悲傷、生氣、害怕等，讓語音回覆更加自然。
調節語速：根據用戶的指令調整語音的語速，適於不同的對話場景。
實時打斷和指令輸入：支持用戶隨時打斷語音輸出，輸入新的指令調整對話內容。
多語言和方言支持：支持中英文及多種中國方言，如粵語、重慶話、北京話等。
低延遲交互：設計流式思考架構，低延遲實現高質量的語音對話。

GLM-4-Voice的技術原理

端到端建模：與傳統的級聯方案（ASR + LLM + TTS）不同，GLM-4-Voice在一個統一的模型中完成語音的理解和生成，避免信息損失。
音頻Tokenizer：用有監督訓練的音頻Tokenizer將連續的語音輸入轉化爲離散的token，用12.5Hz的低碼率保留語義信息和副語言特徵。
語音解碼器：基於Flow Matching模型結構的語音解碼器，將離散的語音token轉化爲連續的語音輸出，最低只需10個token開始生成，降低對話延遲。
預訓練和對齊：GLM-4-Voice-9B在GLM-4-9B的基礎上進行預訓練和對齊，理解和生成離散化的語音token。預訓練用大量音頻和文本數據，讓模型具備強大的音頻理解和建模能力。
流式推理：支持流式推理，模型能交替輸出文本和語音，用文本作爲參照保證回覆內容的高質量，根據用戶的語音指令實時調整語音輸出。