基于 ESRGAN 的改进研究这个模型被命名为 Real-ESRGAN,总的来说,就是通过模拟高分辨率图像变低分辩率过程中的各种退化,然后看到一张糊图后倒推出来它的高清图。
而它是对超分“前辈”ESRGAN 的进一步研究。
ESRGAN 曾赢得 ECCV2018 PIRM-SR 挑战赛中的第一名,但它在恢复具有未知和复杂退化(degradation)的低分辨率图像方面,也就是盲超分辨率(Blind Super-Resolution)上做的还不够好。
而相比 ESRGAN,Real-ESRGAN 使用合成数据进行训练,引入了高阶退化建模以更全面逼真地模拟复杂的图像退化,重点考虑了合成过程中常见的振铃和 overshoot 伪影。
还采用了一个具有谱归一化(Spectral Normalization)的 U-Net 鉴别器,来提高鉴别器的性能并稳定训练过程,最终实现了“青出于蓝胜于蓝”的效果。
下面就进入具体原理讲解:
通常情况下,真实图像 y 首先与模糊核(blur kernel)k 进行卷积,然后执行具有比例因子 r 的下采样操作,通过添加噪声 n 获得低分辨率图像 x。一般还得再加个 JPEG 压缩,即:
而获得高清图像的过程就是求解 y 的过程(其中 D 表示退化过程)。
然而只采用这一经典的退化模拟,训练后的模型只能处理部分图像,更复杂的退化(尤其是未知噪声和某些伪影)仍无法解决:
所以研究人员就引出了高阶退化过程来模拟出更真实全面的退化,它包含多个重复的经典退化过程,每个又具有不同的退化超参:
下图为 Real-ESRGAN 进行退化模拟的示意图:
采用的是二阶退化,具体来说:
在模糊(blur)退化方面,为了包含更多不同的核形状,Real-ESRGAN 采用了广义高斯模糊核和 plateau-shaped 分布。
降噪(noise)方面,除了颜色噪声和灰度噪声,还模拟了两种常见类型:
- (1)加性高斯噪声:其噪声强度受高斯分布标准差控制;
- (2)泊松噪声:其噪声强度与图像信息成正比。
resize 也就是经典退化模拟里的下采样,在这里为了产生更多模糊图像,就改成了上采样 + 下采样的组合操作。resize 方法中,由于最近邻插值会导致错位,最后就只考虑了面积、双线性和双三次插值。