EvoQuality – 字節跳動開源的圖像質量評估模型

AI工具2個月前發佈新公告 AI管理員

1 0 0

EvoQuality是什麼

EvoQuality 是字節跳動與香港城市大學聯合推出的自進化視覺語言模型框架，專注於無參考圖像質量評估。模型基於 Qwen2.5-VL-7B 構建，模型完全無需人工標註的質量分數或失真標籤，通過模型自身的成對比較與多數投票生成僞排名標籤，再藉助 GRPO 強化學習算法實現多輪迭代自進化。

EvoQuality – 字節跳動開源的圖像質量評估模型

EvoQuality的主要功能

單圖質量評分：對單張圖像輸出連續質量分數，支持多種失真類型，包含真實失真、合成失真、AI生成失真。
圖像對質量對比：通過成對比較判斷兩張圖像的相對質量優劣，生成可解釋的質量描述文本。
自進化迭代訓練：在離線階段通過多數投票生成高置信度僞標籤，在線階段通過 GRPO 優化策略，形成閉環自我提升。

EvoQuality的技術原理

離線僞標籤生成：對未標註圖像對進行多次查詢，讓當前 VLM 判斷”哪張圖像質量更好”。通過成對多數投票（Pairwise Majority Voting）建立相對質量共識，生成僞排名標籤，完全替代人工 MOS 標註。用 Thurstone Case V 心理測量模型將離散比較結果轉化爲連續的質量分數分佈，生成可優化的保真度獎勵信號。
在線策略進化：用 GRPO 算法將僞標籤轉化爲獎勵信號，更新 VLM 策略。通過組內樣本的相對獎勵估計優勢函數，大幅降低訓練內存與計算開銷。策略模型針對同一批圖像對生成多個回答，根據僞標籤計算的獎勵進行梯度更新。
迭代進化機制：多輪迭代形成正反饋，模型能力提升 → 生成更高質量僞標籤 → 模型進一步進化。實驗表明零樣本 PLCC 平均提升 31.8%。

如何使用EvoQuality

環境準備：安裝 Python 3.8+ 及 PyTorch、Transformers 等依賴庫，確保 GPU 環境可用。
模型加載：從 Hugging Face 拉取 ByteDance/EvoQuality 的模型權重與處理器文件到本地。
單圖質量評分：讀取待評估圖像，構造提示詞如”Please rate the quality of this image from 0 to 100.”並輸入模型。模型輸出連續質量分數及結構化的質量缺陷/優勢描述文本。
圖像對質量對比：準備兩張待對比圖像，構造提示詞如”Which image has better quality? Explain why.”並輸入模型。
批量評估：對圖像數據集進行批量推理，結合多次查詢的多數投票機制生成高置信度僞標籤。
自進化訓練（進階）：用生成的僞標籤通過 GRPO 算法微調模型，啓動新一輪迭代進化持續提升評估精度。

EvoQuality的核心優勢

零標註成本：完全無需人工主觀評分或失真標籤，僅通過模型自身成對比較與多數投票即可生成訓練信號。
性能超越監督模型：在 7 個 IQA 基準中的 5 個上超越當前最先進的監督 VLM-based IQA 方法，零樣本 PLCC 平均提升 31.8%。
自進化閉環能力：通過多輪迭代形成生成僞標籤→訓練模型→模型更強→生成更好標籤的正反饋循環，持續突破性能上限。
跨數據集強泛化：天然支持零樣本跨域評估，無需針對新數據集重新對齊感知尺度或重新訓練。

EvoQuality的項目地址

HuggingFace模型庫：https://huggingface.co/ByteDance/EvoQuality
arXiv技術論文：https://arxiv.org/pdf/2509.25787

EvoQuality的同類競品對比

維度	EvoQuality	VisualQuality-R1
監督方式	完全自監督，零人工標註	需人工 MOS 標註作爲 ground truth
核心算法	GRPO + 成對多數投票僞標籤 + 多輪自進化	GRPO + Thurstone 模型 + 連續保真度獎勵
獎勵來源	模型自身生成的僞排名標籤（無需外部標註）	基於人工 MOS 計算的連續 fidelity measure
模型基礎	Qwen2.5-VL-7B	Qwen2.5-VL-7B
訓練機制	離線僞標籤生成 → 在線 GRPO 優化 → 迭代閉環進化	單輪/有限輪次 RL 訓練，依賴固定標註數據集
數據依賴	僅需未標註圖像，數據獲取零成本	需 KADID-10K、TID2013、KonIQ-10k 等帶 MOS 數據集
迭代能力	支持多輪自舉迭代，模型與標籤質量相互提升	訓練收斂後不再進化，受限於標註數據規模
可解釋性	輸出質量分數 + 結構化質量描述文本	輸出質量分數 + 推理過程（thinking）+ 質量描述
跨數據集訓練	天然支持，無需感知尺度重新對齊	支持多數據集訓練，無需尺度重新對齊

EvoQuality的應用場景

AIGC 內容質檢：自動評估文生圖、圖像超分辨率、老照片修復等 AI 生成內容的感知質量，替代人工審覈，降低內容平台運營成本。
圖像壓縮與傳輸優化：實時評估壓縮後圖像質量，在帶寬與畫質之間尋找最優平衡點，適用於視頻流媒體、雲存儲等場景。
手機攝影輔助：實時分析取景畫面質量，指導用戶調整對焦、曝光、構圖參數，或自動篩選連拍中的最佳成像。
視頻質量評估：將單幀評估擴展至時序維度，分析動態模糊、幀間一致性、碼率波動對觀感的影響，用於視頻編碼與傳輸質量監控。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

RuBii – AI二次元角色創作平台，創建定製個性化的虛擬角色

earnbyshare2016

0 0

新Audio-Visual Flamingo – 英偉達等開源的音頻視覺語言模型

earnbyshare2016

0 0

Documentation.AI – AI文檔平台，產品變更自動更新文檔

earnbyshare2016

1 0

MacWhisper – AI音頻轉文字工具，支持macOS平台

earnbyshare2016

85 0

新MOGE AI 圖像提示詞 – 精選全球頂級圖片Prompt，一鍵複製出圖

earnbyshare2016

0 0

Sih.ai – AI圖像編輯平台，支持圖像重繪等多樣化編輯功能

earnbyshare2016

72 0

暫無評論

暫無評論...