StepAudio 2.5 ASR – 階躍星辰推出的自動語音識別模型

AI工具2周前發佈新公告 AI管理員
0 0

StepAudio 2.5 ASR是什麼

StepAudio 2.5 ASR 是階躍星辰推出的新一代自動語音識別模型,專爲語音轉寫、會議紀要與長音頻處理設計。模型採用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架構,將多Token預測技術首次引入語音識別領域,實現500 TPS極速推理。模型支持OGG、mp3、wav、PCM等格式輸入,複用32K上下文窗口,單次可端到端轉寫30分鐘音頻,徹底告別傳統切片方案導致的上下文斷裂問題,在速度與精度上達到業內SOTA水準。

StepAudio 2.5 ASR – 階躍星辰推出的自動語音識別模型

StepAudio 2.5 ASR的主要功能

  • 極速語音轉寫:模型推理峯值達500 tokens/s,5分鐘音視頻秒級完成轉寫。
  • 長音頻端到端識別:複用32K上下文窗口,單次完整轉寫30分鐘音頻。
  • 多格式音頻支持:兼容OGG、mp3、wav、PCM等常見音頻格式。
  • 中英文及方言識別:覆蓋中英主流語種,支持方言、帶口音普通話及少量日語、阿拉伯語。
  • 高吞吐解碼:基於MTP-5架構,吞吐量提升400%,推理成本降低80%。

StepAudio 2.5 ASR的技術原理

  • 整體架構設計:模型採用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四層堆疊架構,兼顧音頻表徵提取、維度對齊、語言建模與高吞吐解碼。
  • 音頻編碼層:0.6B Transformer 音頻編碼器將輸入音頻轉化爲 12.5 Hz 的 audio embedding,完成原始聲學信號到語義向量的初步映射。
  • 維度對齊層:Linear Adapter 負責將音頻編碼器輸出與 LLM 隱藏維度對齊,實現跨模態特徵空間的橋接與適配。
  • 語言建模主幹:4B 參數 LLM 作爲模型核心,承擔上下文理解與自迴歸文本生成任務,複用原生 32K 上下文窗口實現長音頻端到端建模。
  • MTP 多 Token 預測:引入 Step 3.5 Flash 同款 MTP-5 模塊,單次前向傳播可額外並行預測 5 個候選 token,突破傳統 ASR 逐 token 順序生成的速度瓶頸。

如何使用StepAudio 2.5 ASR

  • 在線體驗:訪問階躍星辰體驗中心 https://www.stepfun.com/studio/audio?tab=speech-recognition,上傳音頻進行在線轉寫。
  • API接入:前往階躍星辰開放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官網 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ,查看API文檔,獲取模型標識與示例代碼。
  • Demo頁面:訪問Demo頁面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ,查看公開示例與效果展示。
  • 開發者接入:通過程序化調用ASR API,將識別結果接入檢索、摘要、質檢或歸檔鏈路。

StepAudio 2.5 ASR的關鍵信息和使用要求

  • 發佈主體:由階躍星辰(StepFun)正式發佈,已全量上線階躍星辰開放平台與 Step Plan。
  • 模型架構:採用 Audio Encoder(0.6B)+ Linear Adapter + 4B LLM + MTP-5 四層架構,整體參數規模約 4.6B。
  • 推理性能:峯值達 500 tokens/s,吞吐量提升 400%,時延降低 60%,推理成本直降 80%。
  • 上下文能力:複用 LLM 原生 32K 上下文窗口,單次可端到端完整轉寫最長 30 分鐘音頻,無需切片拼接。
  • 支持格式:OGG、mp3、wav、PCM 等常見音頻格式。
  • 語言覆蓋:中英文爲主,支持方言、帶口音普通話,以及少量日語和阿拉伯語。
  • 評測成績:在中文(AISHELL、Wenet、FLEURS-zh)、英文(LibriSpeech、Common Voice、VoxPopuli)及長音頻多項權威基準上均達 SOTA 水平。
  • 訓練數據:預訓練使用千萬小時量級語音音頻數據;ASR 專項訓練包含 10 萬小時高質量短音頻(最長 30 秒)與 5 萬小時長音頻(最長 30 分鐘)。
  • 接入渠道:開發者可通過階躍星辰開放平台 API 或 Step Plan 集成;普通用戶可前往體驗中心在線試用,或訪問 Demo Page 查看效果展示。

StepAudio 2.5 ASR的核心優勢

  • 速度突破:率先將大語言模型推理加速技術引入語音識別領域,推理峯值達 500 tokens/s,吞吐量提升 400%。
  • 成本優勢:推理時延降低 60%,推理成本直降 80%,以更低算力實現更高轉寫上限。
  • 精度領先:在中文、英文及長音頻多項權威評測基準上均達 SOTA 水平,綜合錯誤率行業最低。
  • 長文穩定:複用 32K 原生上下文窗口,單次端到端轉寫 30 分鐘音頻,精度無衰減,徹底告別切片拼接導致的上下文斷裂。
  • 架構創新:基於 ASR+MTP-5 深度融合架構,通過多 Token 並行預測與驗證機制突破傳統逐 token 自迴歸生成的速度瓶頸。
  • 場景覆蓋:支持 OGG、mp3、wav、PCM 等多格式輸入,覆蓋中英主流語種及方言、帶口音普通話等複雜聲學場景。

StepAudio 2.5 ASR的項目地址

  • 技術論文:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
  • 在線體驗Demo:https://stepaudiollm.github.io/step-audio-2.5-asr/

StepAudio 2.5 ASR的同類競品對比

對比維度 StepAudio 2.5 ASR Qwen3 ASR Doubao-ASR-2603
模型架構 Audio Encoder+4B LLM+MTP-5 未公開 未公開
推理速度 500 TPS,吞吐量提升400% 標準自迴歸 標準自迴歸
中文平均CER 2.97% 3.17% 3.34%
英文平均WER 3.68% 3.85% 6.67%
長音頻WER 3.70% 4.20% 6.11%
最大上下文 32K(30分鐘端到端) 未明確 未明確
成本優化 推理成本降低80%

StepAudio 2.5 ASR的應用場景

  • 會議紀要與訪談轉寫:端到端轉寫長時段會議、訪談錄音,保持術語一致性與上下文連貫,無需切片拼接。
  • 字幕生成與媒資預處理:快速生成視頻字幕,支持 OGG、mp3、wav、PCM 等多格式音頻批量處理。
  • 長音頻內容歸檔:適用於播客、講座、庭審等 30 分鐘級音頻的完整轉寫與檢索入庫。
  • 實時語音質檢:憑藉低時延與高吞吐特性,適用於客服通話質檢與內容合規審查場景。
  • 後端系統接入:識別結果可直接接入檢索、摘要、質檢或歸檔鏈路,滿足工業級術語一致性與穩定性要求。
© 版權聲明

相關文章

暫無評論

暫無評論...