Hojo-ASR-V1 是什麼
Hojo-ASR-V1 是初創團隊 Hojo 開源的自動語音識別模型,採用Whisper 特徵提取 + Qwen3-Omni 音頻編碼 + Conformer 適配 + Qwen3-4B 語言模型解碼的架構。模型在 LibriSpeech Clean 數據集上詞錯誤率僅 1.74%,GigaSpeech 7.6%、VoxPopuli 7.02%,性能接近頂尖大廠水平。模型支持本地部署,面向 Agent 工作流與語音輸入場景。

Hojo-ASR-V1 的主要功能
-
高精度語音轉寫:將音頻實時轉換爲文字,支持長句與複雜語義理解。
-
中英文混合識別:對口語化表達、中英文夾雜場景具備強魯棒性。
-
噪聲環境適配:藉助語言模型語義判斷,在嘈雜環境下仍保持較高識別率。
-
專業術語理解:用 Qwen3-4B 的語義能力,準確識別醫療、法律、科技等領域專有名詞。
-
本地離線運行:支持完全本地部署,無需聯網即可完成語音識別,保障數據隱私。
Hojo-ASR-V1 的技術原理
- 聲學特徵提取:音頻通過 OpenAI Whisper 的特徵提取器處理,將原始波形轉換爲高維聲學特徵向量,保留音素與頻譜信息。
- 音頻語義編碼:特徵向量輸入至 Qwen3-Omni 音頻編碼器,進行深度語義編碼,將聲音信息轉化爲與文本語義空間對齊的隱藏狀態表示。
- 特徵適配與壓縮:中間層採用 Conformer 結構,在編碼器與語言模型之間做特徵適配和時序壓縮,平衡計算效率與信息保真度。
- 大語言模型解碼:由 Qwen3-4B 大語言模型接收處理後的特徵,結合語義上下文生成最終文本,使模型能用語言先驗糾正發音相似或噪聲干擾導致的錯誤。
如何使用Hojo-ASR-V1
-
下載模型:訪問 HuggingFace 倉庫
HojoAI/Hojo-ASR-V1或 GitHubHojoAI/Hojo-ASR獲取權重與代碼。 -
安裝依賴:配置 Python 環境,安裝
hojo_asr及相關依賴庫。 -
加載模型:通過
hojo.load_model()接口將模型加載至本地 GPU 或 CPU。 -
輸入音頻:傳入音頻文件路徑或實時音頻流,調用轉寫接口。
-
獲取結果:模型返回識別文本,可接入 DeepSeek、GPT 等大模型進行二次潤色與格式優化。
Hojo-ASR-V1的核心優勢
-
識別精度頂尖:LibriSpeech Clean WER 1.74%,接近英偉達 Canary、IBM Granite 等榜單頭部模型水平。
-
語義級糾錯:不同於傳統 ASR 僅依賴聲學匹配,Qwen3-4B 語言模型能根據上下文語義推斷正確詞彙,大幅降低同音字錯誤。
-
中文場景優化:針對中文口語化表達、輕聲、兒化音等細節深度調優,體驗優於通用多語言模型。
-
隱私安全:支持完全本地部署,敏感語音數據無需上傳雲端,適合企業會議與醫療場景。
Hojo-ASR-V1的項目地址
- GitHub倉庫:https://github.com/HojoAI/Hojo-ASR
- HuggingFace模型庫:https://huggingface.co/HojoAI/Hojo-ASR-V1
Hojo-ASR-V1的同類競品對比
| 維度 | Hojo-ASR-V1 | OpenAI Whisper |
|---|---|---|
| 模型架構 | 編碼器 + 適配器 + LLM 解碼 | Encoder-Decoder |
| 語義理解 | 強(Qwen3-4B 語言模型支撐) | 中等(純聲學映射) |
| 中文優化 | 深度優化,口語化識別強 | 通用多語言,中文細節一般 |
| 開源協議 | Apache-2.0 | MIT |
| 本地部署 | 支持,需一定顯存/內存 | 支持,生態成熟 |
| 榜單 WER | LibriSpeech Clean 1.74% | Large-v3 約 2.1% |
Hojo-ASR-V1的應用場景
-
AI Agent 語音入口:作爲智能體的”耳朵”,將語音指令轉換爲可執行文本,替代鍵盤成爲主要交互方式。
-
系統級語音輸入法:接管操作系統全局輸入,在瀏覽器、ChatGPT、Claude、Notion 等任意文本框中語音打字。
-
會議實時轉寫:本地部署實現離線會議紀要生成,避免商業機密語音數據外傳。
-
播客與視頻字幕:快速將長音頻內容轉爲文字稿,支持後續大模型潤色與結構化整理。
-
智能客服與電話質檢:在呼叫中心場景中實時識別客戶語音,提取關鍵信息與情緒關鍵詞。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...