MMAE – 騰訊混元聯合高校推出的音頻編輯評測基準

0 0 0

MMAE是什麼

MMAE（Massive Multitask Audio Editing Benchmark）是首個面向通用指令式音頻編輯的大規模多任務評測基準，由上海交通大學、上海創智學院、南洋理工大學、騰訊混元團隊等機構聯合推出。基準包含 2,000 條真實場景音頻編輯任務與 17,741 條細粒度 rubric 評測項，系統覆蓋 7 種音頻模態、6 級任務難度、8 類編輯操作，爲下一代智能音頻編輯系統建立標準化、可解釋的評測範式。

MMAE的主要功能

真實場景任務庫：提供 2,000 條來自真實場景的高保真音頻編輯樣本，而非合成數據，確保評測貼近實際應用。
三維繫統分類：建立 Modality（7 種模態：sound / music / speech 及兩兩/三者混合）、Complexity（6 級難度：single → multi-part → multi-instruction → multi-audio → multi-round → multi-hop）、Operation（8 類操作：local 增刪改查屬性編輯 + global 背景/前景/屬性編輯）的正交分類體系。
細粒度 Rubric 評測：爲每條樣本平均設計約 9 條原子化、可驗證的選擇題式 rubric，從指令遵循和”上下文一致性”兩個獨立維度進行評測。
多維量化指標：輸出 IFR、CR與 EMR，實現從平均能力到完美執行率的全面刻畫。
自動化評測流水線：基於 Qwen3-Omni 多模態大模型擔任評判器，支持對模型輸出進行自動、可復現的評分。

MMAE的技術原理

Human-Agent 協作標註：採用五階段數據構建流程——專家頭腦風暴收集場景 → 構建分類學與評測範式 → 指令中心數據收集與動態平衡 → 人機協作 rubric 標註→ 交叉審覈質量檢查。
Rubric-Based 評測範式：將開放式自由格式編輯任務分解爲 17,741 條原子化、正交、客觀的多選題，每條 rubric 僅考覈一個不可再分的屬性，確保評測可解釋且避免信號級指標的模糊性。
雙維度正交評估：IFR 維度考覈模型是否精確執行了指令要求的修改，CR 維度考覈指令未涉及的部分是否被嚴格保留，兩者結合有效阻斷”只改不保”或”只保不改”的投機策略。
穩定評判機制：使用 Qwen3-Omni 作爲外部評判模型，每條 rubric 獨立查詢 3 次取多數決，且每次隨機打亂選項順序以消除位置偏見。

MMAE – 騰訊混元聯合高校推出的音頻編輯評測基準

微信關注回覆 “開源”，加入AI開源項目交流羣

如何使用MMAE

部署評判模型：克隆 Qwen3-Omni 官方倉庫並配置環境，啓動 vLLM 服務，參考腳本在 8 塊 GPU 上啓動兩個 tensor-parallel=4 的實例，分別監聽 8001 與 8002 端口。
準備預測結果：在 MMAE 基準元數據上運行待測音頻編輯模型，將輸出音頻路徑以 chatml 格式追加爲 assistant 回覆，另存爲 JSON 文件。
運行自動評估：執行 python -m eval.score 命令，傳入預測文件路徑、評判模型 API 地址、音頻根目錄及併發數，即可自動生成 IFR、CR、EMR 等指標。

MMAE的核心優勢

真實數據驅動：所有樣本源自真實場景音頻，經過多輪精細化修訂與獨立審覈，避免合成數據帶來的分佈偏移。
錯誤可定位：相比 FAD、CLAP 等粗粒度指標只能給出總體打分，MMAE 的 rubric 體系可精確診斷模型在哪一環節出錯，提供清晰的模型能力診斷路線圖。
防投機設計：同時考覈 IFR 與 CR 並引入 EMR 指標，迫使模型必須在準確修改與保留原內容之間取得平衡，無法通過單一策略刷分。
跨模態統一：首次將 sound、music、speech 及其混合場景納入同一評測框架，解決了此前基準高度碎片化、嚴格域受限的問題。
難度全覆蓋：從最簡單的單步單元素編輯到需要多跳推理和多輪上下文依賴的複雜任務，完整覆蓋模型認知 pipeline 的感知、推理、生成三層能力。

MMAE的項目地址

GitHub倉庫：https://github.com/ddlBoJack/MMAE
arXiv技術論文：https://arxiv.org/pdf/2606.07229

MMAE的同類競品對比

對比維度	MMAE	SpeechEditBench
定位	首個通用音頻編輯評測基準（跨 sound/music/speech）	雙語多屬性語音編輯評測基準（僅 speech）
覆蓋模態	7 種：sound、music、speech 及兩兩/三者混合	僅 speech（中文 + 英文雙語）
數據規模	2,000 條真實場景樣本 + 17,741 條 rubric	未公開具體樣本數，覆蓋 7 種原子屬性編輯任務
任務類型	8 類操作 × 6 級複雜度（single → multi-hop / multi-round）	7 種原子屬性：Content、Emotion、Style、Prosody、Paralinguistic、Speaker、Acoustic；支持組合式多屬性同時編輯
評測維度	IFR（指令遵循率）+ CR（一致性率）+ EMR（精確匹配率）	Target Success（目標達成率）+ Preservation Success（內容保持率）+ Joint Success（聯合成功率）
評測粒度	Rubric 級：每條樣本平均 9 條原子化多選題，可定位具體錯誤環節	屬性級：每個原子任務有預定義閾值（如 WER≤10%、餘弦相似度≥0.5、DNSMOS 增益>0 等）
評判器	Qwen3-Omni（多模態大模型，每條 rubric 獨立查詢 3 次取多數決）	Gemini（多模態大模型，用於情感/風格/副語言評判）+ Whisper（ASR）+ WavLM（說話人嵌入）+ PANNs（場景分類）