Fun-ASR1.5 – 阿里通義推出的端到端語音識別模型

AI工具2天前發佈新公告 AI管理員
0 0

Fun-ASR1.5是什麼

Fun-ASR1.5是阿里通義團隊推出的端到端語音識別大模型的新一代版本,單模型支持30種語言高精度識別,覆蓋中文七大方言體系及二十餘種地方口音,專項優化古詩詞誦讀識別。模型基於MoE架構實現自動語種切換,無需預設標籤。Fun-ASR1.5讓後處理支持智能標點預測與文本歸一化,讓語音轉寫從能用走向好用。

Fun-ASR1.5 – 阿里通義推出的端到端語音識別模型

Fun-ASR1.5的主要功能

  • 多語言識別:單模型覆蓋中、英、日、韓、法、德、西、葡、俄、阿拉伯語等30種語言。
  • 自動語種切換:無需預設語種標籤,自動識別並切換Code-Switching場景下的多語言混合語音。
  • 方言識別:覆蓋七大方言體系及二十餘種地方口音,重點優化15種高需求方言。
  • 古詩詞識別:構建先秦至近代古詩詞語音-文本對齊語料庫,支持文言誦讀精準轉寫。
  • 智能標點預測:基於上下文語義自動插入逗號、句號、問號等標點符號。
  • 文本歸一化:自動將口語中的數字、日期、金額、電話等轉換爲規範書面格式。

Fun-ASR1.5的技術原理

  • MoE架構:採用混合專家架構,聽到特定語言時僅激活相關部分進行處理,提升多語言處理靈活性與效率。
  • 分級分階段訓練:在訓練階段分級、分階段使用精準數據,提升真實世界複雜語音場景的應對能力。
  • 方言數據驅動:基於數十萬小時真實方言語音數據訓練,平均字錯誤率(CER)相比上一版本下降56.2%。
  • 古詩詞語料庫:構建涵蓋《詩經》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經典文本的真人誦讀錄音語料庫。

如何使用Fun-ASR1.5

  • 阿里雲百鍊平台:訪問阿里雲百鍊官網,進入模型體驗中心語音板塊調用API。
  • 魔搭社區:訪問 https://modelscope.cn/studios/iic/FunAudio-ASR 直接在線體驗。

Fun-ASR1.5的關鍵信息和使用要求

  • 產品定位:端到端語音識別大模型。
  • 支持語言:30種語言(覆蓋歐洲、東亞、東南亞、南亞及中東主流語種)。
  • 方言覆蓋:七大方言體系,重點優化上海話、粵語、四川話等15種高需求方言。
  • 古詩詞準確率:內部評測集字符級準確率達97%。
  • 使用方式:API調用或在線體驗。
  • 無需預設:多語言混合場景下無需提前指定語種標籤。

Fun-ASR1.5的核心優勢

  • 單模型多語言:一個模型無縫切換30種語言,減少多模型部署與維護成本。
  • 方言識別領先:基於數十萬小時方言數據,CER較上版下降56.2%,支持原汁原味方言文字還原。
  • 自動Code-Switching:無需預設即可處理同一段對話中的多語言混合場景。
  • 文化場景專項優化:針對古詩詞誦讀進行專項訓練,字符準確率達97%,助力文化傳承。
  • 後處理智能化:自動標點與文本歸一化大幅降低會議紀要、法律筆錄等場景的後期人工編輯成本。

Fun-ASR1.5的同類競品對比

維度 Fun-ASR1.5 Seed-ASR Tencent-ASR
語言覆蓋 30種語言,單模型覆蓋 多語言支持 多語言支持
方言支持 七大方言體系,15種重點優化,CER降56.2% 基礎支持 基礎支持
Code-Switching 無需預設標籤,自動識別切換 支持 支持
古詩詞識別 專項優化,97%字符準確率 未明確 未明確
智能後處理 自動標點+文本歸一化(數字/日期/金額/電話) 基礎標點能力 基礎標點能力
架構特點 MoE混合專家架構 未公開 未公開
開放體驗 阿里雲百鍊API + 魔搭社區 火山引擎 騰訊雲

Fun-ASR1.5的應用場景

  • 跨國會議:在跨國會議場景中,Fun-ASR1.5可實時精準轉寫多語言混合對話內容,無需參會者提前預設語種或在多個翻譯工具間來回切換。
  • 智能音箱:在智能家居與車載語音交互場景中,Fun-ASR1.5能精準識別各類方言指令,讓智能音箱真正”聽得懂鄉音”。
  • 在線教育:在國學在線教育場景中,Fun-ASR1.5支持古詩詞誦讀的精準轉寫,以97%的字符級準確率助力傳統文化數字化傳承。
  • 新聞採訪:在新聞採訪與內容生產場景中,Fun-ASR1.5可自動添加標點符號並將口語中的數字、日期歸一化爲規範格式,大幅減少後期人工整理時間。
© 版權聲明

相關文章

暫無評論

暫無評論...