Fun-ASR1.5是什麼
Fun-ASR1.5是阿里通義團隊推出的端到端語音識別大模型的新一代版本,單模型支持30種語言高精度識別,覆蓋中文七大方言體系及二十餘種地方口音,專項優化古詩詞誦讀識別。模型基於MoE架構實現自動語種切換,無需預設標籤。Fun-ASR1.5讓後處理支持智能標點預測與文本歸一化,讓語音轉寫從能用走向好用。

Fun-ASR1.5的主要功能
-
多語言識別:單模型覆蓋中、英、日、韓、法、德、西、葡、俄、阿拉伯語等30種語言。
-
自動語種切換:無需預設語種標籤,自動識別並切換Code-Switching場景下的多語言混合語音。
-
方言識別:覆蓋七大方言體系及二十餘種地方口音,重點優化15種高需求方言。
-
古詩詞識別:構建先秦至近代古詩詞語音-文本對齊語料庫,支持文言誦讀精準轉寫。
-
智能標點預測:基於上下文語義自動插入逗號、句號、問號等標點符號。
-
文本歸一化:自動將口語中的數字、日期、金額、電話等轉換爲規範書面格式。
Fun-ASR1.5的技術原理
-
MoE架構:採用混合專家架構,聽到特定語言時僅激活相關部分進行處理,提升多語言處理靈活性與效率。
-
分級分階段訓練:在訓練階段分級、分階段使用精準數據,提升真實世界複雜語音場景的應對能力。
-
方言數據驅動:基於數十萬小時真實方言語音數據訓練,平均字錯誤率(CER)相比上一版本下降56.2%。
-
古詩詞語料庫:構建涵蓋《詩經》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經典文本的真人誦讀錄音語料庫。
如何使用Fun-ASR1.5
-
阿里雲百鍊平台:訪問阿里雲百鍊官網,進入模型體驗中心語音板塊調用API。
-
魔搭社區:訪問 https://modelscope.cn/studios/iic/FunAudio-ASR 直接在線體驗。
Fun-ASR1.5的關鍵信息和使用要求
-
產品定位:端到端語音識別大模型。
-
支持語言:30種語言(覆蓋歐洲、東亞、東南亞、南亞及中東主流語種)。
-
方言覆蓋:七大方言體系,重點優化上海話、粵語、四川話等15種高需求方言。
-
古詩詞準確率:內部評測集字符級準確率達97%。
-
使用方式:API調用或在線體驗。
-
無需預設:多語言混合場景下無需提前指定語種標籤。
Fun-ASR1.5的核心優勢
-
單模型多語言:一個模型無縫切換30種語言,減少多模型部署與維護成本。
-
方言識別領先:基於數十萬小時方言數據,CER較上版下降56.2%,支持原汁原味方言文字還原。
-
自動Code-Switching:無需預設即可處理同一段對話中的多語言混合場景。
-
文化場景專項優化:針對古詩詞誦讀進行專項訓練,字符準確率達97%,助力文化傳承。
-
後處理智能化:自動標點與文本歸一化大幅降低會議紀要、法律筆錄等場景的後期人工編輯成本。
Fun-ASR1.5的同類競品對比
| 維度 | Fun-ASR1.5 | Seed-ASR | Tencent-ASR |
|---|---|---|---|
| 語言覆蓋 | 30種語言,單模型覆蓋 | 多語言支持 | 多語言支持 |
| 方言支持 | 七大方言體系,15種重點優化,CER降56.2% | 基礎支持 | 基礎支持 |
| Code-Switching | 無需預設標籤,自動識別切換 | 支持 | 支持 |
| 古詩詞識別 | 專項優化,97%字符準確率 | 未明確 | 未明確 |
| 智能後處理 | 自動標點+文本歸一化(數字/日期/金額/電話) | 基礎標點能力 | 基礎標點能力 |
| 架構特點 | MoE混合專家架構 | 未公開 | 未公開 |
| 開放體驗 | 阿里雲百鍊API + 魔搭社區 | 火山引擎 | 騰訊雲 |
Fun-ASR1.5的應用場景
-
跨國會議:在跨國會議場景中,Fun-ASR1.5可實時精準轉寫多語言混合對話內容,無需參會者提前預設語種或在多個翻譯工具間來回切換。
-
智能音箱:在智能家居與車載語音交互場景中,Fun-ASR1.5能精準識別各類方言指令,讓智能音箱真正”聽得懂鄉音”。
-
在線教育:在國學在線教育場景中,Fun-ASR1.5支持古詩詞誦讀的精準轉寫,以97%的字符級準確率助力傳統文化數字化傳承。
-
新聞採訪:在新聞採訪與內容生產場景中,Fun-ASR1.5可自動添加標點符號並將口語中的數字、日期歸一化爲規範格式,大幅減少後期人工整理時間。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...