StepAudio 2.5 ASR是什麼
StepAudio 2.5 ASR 是階躍星辰推出的新一代自動語音識別模型,專爲語音轉寫、會議紀要與長音頻處理設計。模型採用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架構,將多Token預測技術首次引入語音識別領域,實現500 TPS極速推理。模型支持OGG、mp3、wav、PCM等格式輸入,複用32K上下文窗口,單次可端到端轉寫30分鐘音頻,徹底告別傳統切片方案導致的上下文斷裂問題,在速度與精度上達到業內SOTA水準。

StepAudio 2.5 ASR的主要功能
-
極速語音轉寫:模型推理峯值達500 tokens/s,5分鐘音視頻秒級完成轉寫。
-
長音頻端到端識別:複用32K上下文窗口,單次完整轉寫30分鐘音頻。
-
多格式音頻支持:兼容OGG、mp3、wav、PCM等常見音頻格式。
-
中英文及方言識別:覆蓋中英主流語種,支持方言、帶口音普通話及少量日語、阿拉伯語。
-
高吞吐解碼:基於MTP-5架構,吞吐量提升400%,推理成本降低80%。
StepAudio 2.5 ASR的技術原理
- 整體架構設計:模型採用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四層堆疊架構,兼顧音頻表徵提取、維度對齊、語言建模與高吞吐解碼。
- 音頻編碼層:0.6B Transformer 音頻編碼器將輸入音頻轉化爲 12.5 Hz 的 audio embedding,完成原始聲學信號到語義向量的初步映射。
- 維度對齊層:Linear Adapter 負責將音頻編碼器輸出與 LLM 隱藏維度對齊,實現跨模態特徵空間的橋接與適配。
- 語言建模主幹:4B 參數 LLM 作爲模型核心,承擔上下文理解與自迴歸文本生成任務,複用原生 32K 上下文窗口實現長音頻端到端建模。
- MTP 多 Token 預測:引入 Step 3.5 Flash 同款 MTP-5 模塊,單次前向傳播可額外並行預測 5 個候選 token,突破傳統 ASR 逐 token 順序生成的速度瓶頸。
如何使用StepAudio 2.5 ASR
-
在線體驗:訪問階躍星辰體驗中心 https://www.stepfun.com/studio/audio?tab=speech-recognition,上傳音頻進行在線轉寫。
-
API接入:前往階躍星辰開放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官網 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ,查看API文檔,獲取模型標識與示例代碼。
-
Demo頁面:訪問Demo頁面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ,查看公開示例與效果展示。
-
開發者接入:通過程序化調用ASR API,將識別結果接入檢索、摘要、質檢或歸檔鏈路。
StepAudio 2.5 ASR的關鍵信息和使用要求
- 發佈主體:由階躍星辰(StepFun)正式發佈,已全量上線階躍星辰開放平台與 Step Plan。
- 模型架構:採用 Audio Encoder(0.6B)+ Linear Adapter + 4B LLM + MTP-5 四層架構,整體參數規模約 4.6B。
- 推理性能:峯值達 500 tokens/s,吞吐量提升 400%,時延降低 60%,推理成本直降 80%。
- 上下文能力:複用 LLM 原生 32K 上下文窗口,單次可端到端完整轉寫最長 30 分鐘音頻,無需切片拼接。
- 支持格式:OGG、mp3、wav、PCM 等常見音頻格式。
- 語言覆蓋:中英文爲主,支持方言、帶口音普通話,以及少量日語和阿拉伯語。
- 評測成績:在中文(AISHELL、Wenet、FLEURS-zh)、英文(LibriSpeech、Common Voice、VoxPopuli)及長音頻多項權威基準上均達 SOTA 水平。
- 訓練數據:預訓練使用千萬小時量級語音音頻數據;ASR 專項訓練包含 10 萬小時高質量短音頻(最長 30 秒)與 5 萬小時長音頻(最長 30 分鐘)。
- 接入渠道:開發者可通過階躍星辰開放平台 API 或 Step Plan 集成;普通用戶可前往體驗中心在線試用,或訪問 Demo Page 查看效果展示。
StepAudio 2.5 ASR的核心優勢
- 速度突破:率先將大語言模型推理加速技術引入語音識別領域,推理峯值達 500 tokens/s,吞吐量提升 400%。
- 成本優勢:推理時延降低 60%,推理成本直降 80%,以更低算力實現更高轉寫上限。
- 精度領先:在中文、英文及長音頻多項權威評測基準上均達 SOTA 水平,綜合錯誤率行業最低。
- 長文穩定:複用 32K 原生上下文窗口,單次端到端轉寫 30 分鐘音頻,精度無衰減,徹底告別切片拼接導致的上下文斷裂。
- 架構創新:基於 ASR+MTP-5 深度融合架構,通過多 Token 並行預測與驗證機制突破傳統逐 token 自迴歸生成的速度瓶頸。
- 場景覆蓋:支持 OGG、mp3、wav、PCM 等多格式輸入,覆蓋中英主流語種及方言、帶口音普通話等複雜聲學場景。
StepAudio 2.5 ASR的項目地址
- 技術論文:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
- 在線體驗Demo:https://stepaudiollm.github.io/step-audio-2.5-asr/
StepAudio 2.5 ASR的同類競品對比
| 對比維度 | StepAudio 2.5 ASR | Qwen3 ASR | Doubao-ASR-2603 |
|---|---|---|---|
| 模型架構 | Audio Encoder+4B LLM+MTP-5 | 未公開 | 未公開 |
| 推理速度 | 500 TPS,吞吐量提升400% | 標準自迴歸 | 標準自迴歸 |
| 中文平均CER | 2.97% | 3.17% | 3.34% |
| 英文平均WER | 3.68% | 3.85% | 6.67% |
| 長音頻WER | 3.70% | 4.20% | 6.11% |
| 最大上下文 | 32K(30分鐘端到端) | 未明確 | 未明確 |
| 成本優化 | 推理成本降低80% | 無 | 無 |
StepAudio 2.5 ASR的應用場景
- 會議紀要與訪談轉寫:端到端轉寫長時段會議、訪談錄音,保持術語一致性與上下文連貫,無需切片拼接。
- 字幕生成與媒資預處理:快速生成視頻字幕,支持 OGG、mp3、wav、PCM 等多格式音頻批量處理。
- 長音頻內容歸檔:適用於播客、講座、庭審等 30 分鐘級音頻的完整轉寫與檢索入庫。
- 實時語音質檢:憑藉低時延與高吞吐特性,適用於客服通話質檢與內容合規審查場景。
- 後端系統接入:識別結果可直接接入檢索、摘要、質檢或歸檔鏈路,滿足工業級術語一致性與穩定性要求。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...