StepAudio 2.5 ASR – 階躍星辰推出的自動語音識別模型

1 0 0

StepAudio 2.5 ASR是什麼

StepAudio 2.5 ASR 是階躍星辰推出的新一代自動語音識別模型，專爲語音轉寫、會議紀要與長音頻處理設計。模型採用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架構，將多Token預測技術首次引入語音識別領域，實現500 TPS極速推理。模型支持OGG、mp3、wav、PCM等格式輸入，複用32K上下文窗口，單次可端到端轉寫30分鐘音頻，徹底告別傳統切片方案導致的上下文斷裂問題，在速度與精度上達到業內SOTA水準。

StepAudio 2.5 ASR的主要功能

極速語音轉寫：模型推理峯值達500 tokens/s，5分鐘音視頻秒級完成轉寫。
長音頻端到端識別：複用32K上下文窗口，單次完整轉寫30分鐘音頻。
多格式音頻支持：兼容OGG、mp3、wav、PCM等常見音頻格式。
中英文及方言識別：覆蓋中英主流語種，支持方言、帶口音普通話及少量日語、阿拉伯語。
高吞吐解碼：基於MTP-5架構，吞吐量提升400%，推理成本降低80%。

StepAudio 2.5 ASR的技術原理

整體架構設計：模型採用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四層堆疊架構，兼顧音頻表徵提取、維度對齊、語言建模與高吞吐解碼。
音頻編碼層：0.6B Transformer 音頻編碼器將輸入音頻轉化爲 12.5 Hz 的 audio embedding，完成原始聲學信號到語義向量的初步映射。
維度對齊層：Linear Adapter 負責將音頻編碼器輸出與 LLM 隱藏維度對齊，實現跨模態特徵空間的橋接與適配。
語言建模主幹：4B 參數 LLM 作爲模型核心，承擔上下文理解與自迴歸文本生成任務，複用原生 32K 上下文窗口實現長音頻端到端建模。
MTP 多 Token 預測：引入 Step 3.5 Flash 同款 MTP-5 模塊，單次前向傳播可額外並行預測 5 個候選 token，突破傳統 ASR 逐 token 順序生成的速度瓶頸。

如何使用StepAudio 2.5 ASR

在線體驗：訪問階躍星辰體驗中心 https://www.stepfun.com/studio/audio?tab=speech-recognition，上傳音頻進行在線轉寫。
API接入：前往階躍星辰開放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官網 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ，查看API文檔，獲取模型標識與示例代碼。
Demo頁面：訪問Demo頁面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ，查看公開示例與效果展示。
開發者接入：通過程序化調用ASR API，將識別結果接入檢索、摘要、質檢或歸檔鏈路。

StepAudio 2.5 ASR的關鍵信息和使用要求

發佈主體：由階躍星辰（StepFun）正式發佈，已全量上線階躍星辰開放平台與 Step Plan。
模型架構：採用 Audio Encoder（0.6B）+ Linear Adapter + 4B LLM + MTP-5 四層架構，整體參數規模約 4.6B。
推理性能：峯值達 500 tokens/s，吞吐量提升 400%，時延降低 60%，推理成本直降 80%。
上下文能力：複用 LLM 原生 32K 上下文窗口，單次可端到端完整轉寫最長 30 分鐘音頻，無需切片拼接。
支持格式：OGG、mp3、wav、PCM 等常見音頻格式。
語言覆蓋：中英文爲主，支持方言、帶口音普通話，以及少量日語和阿拉伯語。
評測成績：在中文（AISHELL、Wenet、FLEURS-zh）、英文（LibriSpeech、Common Voice、VoxPopuli）及長音頻多項權威基準上均達 SOTA 水平。
訓練數據：預訓練使用千萬小時量級語音音頻數據；ASR 專項訓練包含 10 萬小時高質量短音頻（最長 30 秒）與 5 萬小時長音頻（最長 30 分鐘）。
接入渠道：開發者可通過階躍星辰開放平台 API 或 Step Plan 集成；普通用戶可前往體驗中心在線試用，或訪問 Demo Page 查看效果展示。

StepAudio 2.5 ASR的核心優勢

速度突破：率先將大語言模型推理加速技術引入語音識別領域，推理峯值達 500 tokens/s，吞吐量提升 400%。
成本優勢：推理時延降低 60%，推理成本直降 80%，以更低算力實現更高轉寫上限。
精度領先：在中文、英文及長音頻多項權威評測基準上均達 SOTA 水平，綜合錯誤率行業最低。
長文穩定：複用 32K 原生上下文窗口，單次端到端轉寫 30 分鐘音頻，精度無衰減，徹底告別切片拼接導致的上下文斷裂。
架構創新：基於 ASR+MTP-5 深度融合架構，通過多 Token 並行預測與驗證機制突破傳統逐 token 自迴歸生成的速度瓶頸。
場景覆蓋：支持 OGG、mp3、wav、PCM 等多格式輸入，覆蓋中英主流語種及方言、帶口音普通話等複雜聲學場景。

StepAudio 2.5 ASR的項目地址

技術論文：https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
在線體驗Demo：https://stepaudiollm.github.io/step-audio-2.5-asr/

StepAudio 2.5 ASR的同類競品對比

對比維度	StepAudio 2.5 ASR	Qwen3 ASR	Doubao-ASR-2603
模型架構	Audio Encoder+4B LLM+MTP-5	未公開	未公開
推理速度	500 TPS，吞吐量提升400%	標準自迴歸	標準自迴歸
中文平均CER	2.97%	3.17%	3.34%
英文平均WER	3.68%	3.85%	6.67%
長音頻WER	3.70%	4.20%	6.11%
最大上下文	32K（30分鐘端到端）	未明確	未明確
成本優化	推理成本降低80%	無	無