Gummy – 通義推出的端到端語音翻譯大模型,能實時流式生成結果

AI工具2個月前發佈新公告 AI管理員
1 0

Gummy是什麼

Gummy是通義實驗室在2024年雲棲大會上推出的端到端語音翻譯大模型。模型能實時流式生成語音識別與翻譯結果,支持包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十餘種語言的語音輸入,將其翻譯成目標語言。Gummy模型通過端到端的方式,減少翻譯延遲,提高翻譯質量,在多個測試集上取得SOTA(State of the Art)的結果。Gummy支持多語言混翻、術語干預與領域提示等商業化落地的能力,能在跨國會議等場景中無需指定源語種,流暢地將各國語言翻譯至目標語種。

Gummy – 通義推出的端到端語音翻譯大模型,能實時流式生成結果

Gummy的主要功能

  • 多語言支持:Gummy能處理包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十餘種語言的語音輸入,實時翻譯成目標語言。
  • 端到端翻譯:與傳統的級聯繫統不同,Gummy採用端到端的設計,直接將語音翻譯成目標語言,無需依賴中間的文本階段。
  • 低延遲翻譯:Gummy的翻譯延遲被降低到0.5秒以內,比人類專家的同傳延時還要快。
  • 高質量翻譯:在多個業界公認的開源測試集上,Gummy取得SOTA(State of the Art)的翻譯質量結果。
  • 流式翻譯:Gummy支持隨說隨翻,即邊聽邊翻譯,適合實時交流的場景。

Gummy的技術原理

  • 端到端設計:Gummy模型通過端到端架構,將源語言的語音輸入映射到目標語言的文本輸出,簡化開發流程並提高了系統性能。
  • 深度神經網絡:基於深度學習技術,尤其是深度神經網絡,學習語音到文本的複雜映射關係。
  • 實時流式處理:支持實時語音識別和翻譯,實現邊聽邊翻譯。
  • wait & predict機制:模型內部採用特殊機制,自動判斷翻譯時機,優化翻譯質量和延遲。

Gummy的項目地址

  • 項目官網:tongyi.aliyun.com,目前語音翻譯大模型Gummy部分功能已上線通義APP可下載體驗。

Gummy的應用場景

  • 實時語音翻譯:Gummy模型能實時翻譯會議中的發言,爲國際會議、多語言談判等提供同聲傳譯服務。
  • 教育和培訓:在教育領域,Gummy輔助語言學習,提供多語言教學內容的實時翻譯,幫助學生和教師跨越語言障礙。
  • 旅遊和導航:爲旅行者提供實時語音翻譯,幫助他們與不同語言的當地人交流,或在導航時提供多語言指引。
  • 客戶服務:在客戶服務領域,Gummy作爲多語言客服助手,提供快速準確的語言支持,提升客戶滿意度。
  • 醫療諮詢:在醫療領域,Gummy提供多語言的醫療諮詢翻譯服務,幫助醫生和患者之間的溝通。
© 版權聲明

相關文章

暫無評論

暫無評論...