Gummy – 通義推出的端到端語音翻譯大模型，能實時流式生成結果

AI工具2年前 (2024)發佈新公告 AI管理員

34 0 0

Gummy是什麼

Gummy是通義實驗室在2024年雲棲大會上推出的端到端語音翻譯大模型。模型能實時流式生成語音識別與翻譯結果，支持包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十餘種語言的語音輸入，將其翻譯成目標語言。Gummy模型通過端到端的方式，減少翻譯延遲，提高翻譯質量，在多個測試集上取得SOTA（State of the Art）的結果。Gummy支持多語言混翻、術語干預與領域提示等商業化落地的能力，能在跨國會議等場景中無需指定源語種，流暢地將各國語言翻譯至目標語種。

Gummy – 通義推出的端到端語音翻譯大模型，能實時流式生成結果

Gummy的主要功能

多語言支持：Gummy能處理包括中文、英語、粵語、日語、韓語、法語、德語、俄語、意大利語、西班牙語等十餘種語言的語音輸入，實時翻譯成目標語言。
端到端翻譯：與傳統的級聯繫統不同，Gummy採用端到端的設計，直接將語音翻譯成目標語言，無需依賴中間的文本階段。
低延遲翻譯：Gummy的翻譯延遲被降低到0.5秒以內，比人類專家的同傳延時還要快。
高質量翻譯：在多個業界公認的開源測試集上，Gummy取得SOTA（State of the Art）的翻譯質量結果。
流式翻譯：Gummy支持隨說隨翻，即邊聽邊翻譯，適合實時交流的場景。

Gummy的技術原理

端到端設計：Gummy模型通過端到端架構，將源語言的語音輸入映射到目標語言的文本輸出，簡化開發流程並提高了系統性能。
深度神經網絡：基於深度學習技術，尤其是深度神經網絡，學習語音到文本的複雜映射關係。
實時流式處理：支持實時語音識別和翻譯，實現邊聽邊翻譯。
wait & predict機制：模型內部採用特殊機制，自動判斷翻譯時機，優化翻譯質量和延遲。

Gummy的項目地址

項目官網：tongyi.aliyun.com，目前語音翻譯大模型Gummy部分功能已上線通義APP可下載體驗。

Gummy的應用場景

實時語音翻譯：Gummy模型能實時翻譯會議中的發言，爲國際會議、多語言談判等提供同聲傳譯服務。
教育和培訓：在教育領域，Gummy輔助語言學習，提供多語言教學內容的實時翻譯，幫助學生和教師跨越語言障礙。
旅遊和導航：爲旅行者提供實時語音翻譯，幫助他們與不同語言的當地人交流，或在導航時提供多語言指引。
客戶服務：在客戶服務領域，Gummy作爲多語言客服助手，提供快速準確的語言支持，提升客戶滿意度。
醫療諮詢：在醫療領域，Gummy提供多語言的醫療諮詢翻譯服務，幫助醫生和患者之間的溝通。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Perplexity – AI搜索引擎，使用聊天的方式進行搜索

earnbyshare2016

6 0

AuraFlow – Fal團隊推出的開源AI文生圖模型

earnbyshare2016

5 0

漢語新解 – 生成創意性文本的prompt，新時代的AI漢語老師

earnbyshare2016

40 0

新Suno v5.5 – Suno推出的 AI 音樂生成模型

earnbyshare2016

0 0

新Mureka V9 – 崑崙萬維推出的最新AI音樂模型

earnbyshare2016

0 0

SoulGen – AI藝術生成平台，文本描述生成高質量多風格作品

earnbyshare2016

134 0

暫無評論

暫無評論...