Real-ESRGAN：騰訊推出的開源圖像分辨率提升模型

AI工具2年前 (2024)發佈新公告 AI管理員

5 0 0

Real-ESRGAN是什麼

Real-ESRGAN（Real-World Blind Super-Resolution with Pure Synthetic Data）是由騰訊的ARC實驗室推出的一個開源深度學習模型，專門用於處理和提升低分辨率圖像到高分辨率圖像的質量。這個模型的特點是能夠在沒有真實高分辨率圖像作爲參考的情況下，通過合成的退化過程來訓練，從而模擬現實世界中的圖像退化。這種方法被稱爲“盲超分辨率”（blind super-resolution），因爲它不需要知道圖像是如何從高分辨率退化到低分辨率的。

Real-ESRGAN的功能特色

圖像質量提升：將低分辨率的圖像轉換爲高分辨率的圖像，同時保持或增強圖像的細節和紋理，減少模糊和噪點。
去除僞影：在圖像放大過程中，Real-ESRGAN能夠識別並減少常見的圖像僞影，如振鈴（ringing）和過沖（overshoot）。
模擬真實世界退化：通過高階退化模型，Real-ESRGAN能夠模擬現實世界中的多種圖像退化過程，如相機模糊、傳感器噪聲、銳化、JPEG壓縮等。
無需真實高分辨率圖像：Real-ESRGAN的訓練不依賴於真實高分辨率圖像，而是通過合成的退化過程來生成訓練數據，這使得模型能夠在沒有真實高分辨率圖像的情況下進行訓練。
增強圖像細節：在提升分辨率的同時，Real-ESRGAN能夠增強圖像中的局部細節，如紋理、邊緣和輪廓，使得放大後的圖像更加清晰和自然。

Real-ESRGAN：騰訊推出的開源圖像分辨率提升模型

Real-ESRGAN的官方入口

官方GiHub項目庫：https://github.com/xinntao/Real-ESRGAN
研究論文：https://arxiv.org/abs/2107.10833
Replicate運行地址：https://replicate.com/xinntao/realesrgan
Google Colab運行地址：https://colab.research.google.com/drive/1k2Zod6kSHEvraybHl50Lys0LerhyTMCo?usp=sharing
Arc版Anime-6B：https://arc.tencent.com/zh/ai-demos/imgRestore

Real-ESRGAN的工作原理

Real-ESRGAN的工作原理基於深度學習和生成對抗網絡（GAN）的框架，具體包括以下幾個關鍵步驟：

Real-ESRGAN：騰訊推出的開源圖像分辨率提升模型

數據合成：由於Real-ESRGAN訓練時不使用真實的高分辨率圖像，它首先需要合成訓練數據。這通過模擬現實世界中的圖像退化過程來實現，包括模糊、下采樣、噪聲添加和JPEG壓縮等。這些過程模擬了從高分辨率圖像到低分辨率圖像的退化路徑。爲了增加多樣性，Real-ESRGAN採用了高階退化模型，即通過多次重複這些退化過程來生成訓練樣本。
模型架構：Real-ESRGAN使用了類似於ESRGAN的生成器網絡，這是一個深度卷積神經網絡（CNN），包含多個殘差密集塊（Residual-in-Residual Dense Blocks, RRDBs）。這個網絡負責從低分辨率圖像恢復出高分辨率圖像。爲了提高判別器的能力，Real-ESRGAN還採用了一個帶有譜歸一化（Spectral Normalization, SN）的U-Net判別器。
訓練過程：訓練分爲兩個階段。首先，使用L1損失函數訓練一個以峯值信噪比（PSNR）爲導向的模型（Real-ESRNet）。然後，這個模型被用作生成器的初始化，並結合L1損失、感知損失（基於VGG網絡的特徵圖）和GAN損失（對抗損失）來訓練Real-ESRGAN。這種結合損失的方法旨在在提升圖像細節的同時，保持圖像的真實感。
譜歸一化：爲了穩定訓練過程並提高判別器的性能，Real-ESRGAN在U-Net判別器中使用了譜歸一化。這種技術有助於防止訓練過程中的不穩定性和過擬合，同時能夠提供更準確的梯度反饋，幫助生成器學習如何產生更逼真的圖像。
生成高分辨率圖像：在訓練完成後，Real-ESRGAN的生成器網絡能夠接收低分辨率圖像作爲輸入，並輸出相應的高分辨率圖像。這個過程中，模型會嘗試恢復圖像的細節，同時減少由於退化過程引入的僞影。
評估和優化：訓練完成後，Real-ESRGAN的性能通過在多個真實世界數據集上的測試來評估。這包括使用非參考圖像質量評估指標（如NIQE）和視覺比較。根據評估結果，可以對模型進行進一步的優化和調整。