Gummy是什麼
Gummy是通義實驗室在2024年雲棲大會上推出的端到端語音翻譯大模型。模型能實時流式生成語音識別與翻譯結果,支持包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十餘種語言的語音輸入,將其翻譯成目標語言。Gummy模型通過端到端的方式,減少翻譯延遲,提高翻譯質量,在多個測試集上取得SOTA(State of the Art)的結果。Gummy支持多語言混翻、術語干預與領域提示等商業化落地的能力,能在跨國會議等場景中無需指定源語種,流暢地將各國語言翻譯至目標語種。
Gummy的主要功能
- 多語言支持:Gummy能處理包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十餘種語言的語音輸入,實時翻譯成目標語言。
- 端到端翻譯:與傳統的級聯繫統不同,Gummy採用端到端的設計,直接將語音翻譯成目標語言,無需依賴中間的文本階段。
- 低延遲翻譯:Gummy的翻譯延遲被降低到0.5秒以內,比人類專家的同傳延時還要快。
- 高質量翻譯:在多個業界公認的開源測試集上,Gummy取得SOTA(State of the Art)的翻譯質量結果。
- 流式翻譯:Gummy支持隨說隨翻,即邊聽邊翻譯,適合實時交流的場景。
Gummy的技術原理
- 端到端設計:Gummy模型通過端到端架構,將源語言的語音輸入映射到目標語言的文本輸出,簡化開發流程並提高了系統性能。
- 深度神經網絡:基於深度學習技術,尤其是深度神經網絡,學習語音到文本的複雜映射關係。
- 實時流式處理:支持實時語音識別和翻譯,實現邊聽邊翻譯。
- wait & predict機制:模型內部採用特殊機制,自動判斷翻譯時機,優化翻譯質量和延遲。
Gummy的項目地址
- 項目官網:tongyi.aliyun.com,目前語音翻譯大模型Gummy部分功能已上線通義APP可下載體驗。
Gummy的應用場景
- 實時語音翻譯:Gummy模型能實時翻譯會議中的發言,爲國際會議、多語言談判等提供同聲傳譯服務。
- 教育和培訓:在教育領域,Gummy輔助語言學習,提供多語言教學內容的實時翻譯,幫助學生和教師跨越語言障礙。
- 旅遊和導航:爲旅行者提供實時語音翻譯,幫助他們與不同語言的當地人交流,或在導航時提供多語言指引。
- 客戶服務:在客戶服務領域,Gummy作爲多語言客服助手,提供快速準確的語言支持,提升客戶滿意度。
- 醫療諮詢:在醫療領域,Gummy提供多語言的醫療諮詢翻譯服務,幫助醫生和患者之間的溝通。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...