Low-light images enhancement/暗光/低光/微光增强系列：Attention-guided Low-light Image Enhancement（详解）_综合

以下文字为博主翻译并添加了自己的理解，斜体为博主自己的想法，若有出错请指出。

摘要

暗光图像增强需要同时有效地处理颜色、亮度、对比度、伪影和噪声等多种因素。本文提出了一种新颖的注意力引导增强方案，并在此基础上构建了 端到端多分支（multi-branches） CNN。该方法的关键是计算两个注意力图来分别指导曝光增强和去噪任务。第一个注意力图区分曝光不足的区域和光照较好的区域，而第二个注意力图区分噪音和真实纹理。本论文的方法还能增强暗光图像缺失的对比度。论文还提出了一种创建合成暗光图像的数据集的方法。

Introduction

暗光图像质量退化严重，相比正常曝光图像，细节丢失严重，颜色失真，噪点多，对于现实中的高级视觉任务性能有严重影响。基于HE（直方图均衡）的方法和基于RETINEX的传统方法都不能很好地解决暗光增强的问题，而且这些方法常常忽视去噪。
在之前的研究中，有先去噪，再增强的流程；也有先增强，再去噪的流程。但是前者导致图像变得模糊，后者会放大噪点。而本文的方法，将增强和去噪同时进行，能够有效地避免以上问题。
本文最主要的贡献列为三点：

设计了注意力图为引导的多分支融合网络，能够同时进行去噪和增强
设计了一套高质量的暗光图像训练流程，创建了一个大规模的成对的合成的暗光图像数据集
研究成果表明，方法达到了SOTA

related work

一些基于HE（直方图均衡）的方法单纯扩大了图片的动态范围，但是并没有考虑光照因素，只是关注图片的对比度，会导致增强过多或者增强不足的问题。
一些传统的基于RETINEX的方法，依赖人工调整参数，同时噪声处理方面不尽人意。
一些基于现有深度学习（deep learning）的方法，已经在性能上相比传统方法提升很多，但是很多没有仍旧没有考虑去噪，或者依赖的是传统方法的去噪，这与本文不同，本文特别考虑了去噪这一任务，这是对现有基于深度学习方法的重要补充。
本文还介绍了一些现今流行的去噪方法，同时指出只有同时进行增强和去噪，才能最好地提升图片质量，避免模糊等情况发生。

datasets

作者在一些已有的大型数据集中，以darkness estimation、blur estimation和color estimation三个指标来选择一些符合要求的高质量图像，这些图像一部分中的965张，作为测试集和ground truth，并使用包含22656张图像的数据平衡子集（data-balanced subset）作为训练集。
然后，作者通过线性伽马变换，将正常曝光图像有效地、近似的合成为暗光图像，之后对训练集进行gamma线性变换得到合成的暗光图像，同时模拟相机处理图像程序，利用高斯泊松混合模型生成噪声，得到最终的合成的有噪声的成对的暗光训练集。详细方法请见论文。
值得一提的是，如果单纯使用高质量的图像作为GT来回归，得到的输出图像对比度会降低，具体参见：MBLLEN:Low-light ImageVideo Enhancement Using CNNs，所以作者提出要使用多分支的融合方式来增强图像，恢复其对比度。
我自己感觉，本文的多分支融合，实际上类似通道加权，将学习到的特征全都考虑进去。

methodology

在这里插入图片描述
论文设计了四大模块：Attention-Net，Noise-Net，Enhancement-Net以及Reinforce-Net

Attention-Net
输入为原始暗光图像，采用U-Net结构，输出一张ue-attention map（ue：underexposed），其数值越高，代表区域越亮，反之亦然，范围在[0,1]。
结构如论文图4左小角，计算如下：

另外，论文还指出，ue-attention map实际有点类似RETINEX理论中illumination map，相同的是两者都能指出光照亮度信息。不同的是作者称，反向的ue-attention map的信息质量比illumination map更高，因为illumination map在感知图像中大量黑色的区域会将噪音放大。
如下图：

p.s. 作者这里提出ue-attention map和illumination map的对比非常聪明和科学，因为暗光增强任务中的一大经典且有效的理论就是RETINEX理论，如果能直观地、科学地表明自己的方法更加优秀，则增加了作者方法的科学可信度。
p.s. 为什么是反向的ue-attention map，因为正的ue-attention maps是越亮数值越低，与illumination map相反
Noise-Net
作者称，图像噪点应该是和亮度分布息息相关的，所以注意力机制的ue-attention map可以更好地指导如何进行去噪；同时Noise-Net由dilated convolutional layers（膨胀卷积）构成，增大了感受野，有利于噪声估计。增大感受野，有点类似关注全局content信息。
输入是ue-attention map，输入为noise map。
Enhancement-Net
实际上这里的Enhancement-Net，与MBLLEN非常相似，毕竟本论文就是MBLLEN的升级版。
部分为论文核心结构，分为特征提取模块FEM（feature extraction module）、增强模块EM（enhancement module） 和 融合模块（fusion module）。
原始暗光图像作为input送入带relu的几个直连conv layers组成的FEM后，得到的特征图与之前得到的ue-attention map，noise-map一同作为输入送进EM模块中；同时上一层得到的特征图，作为下一层的FEM的输入。
另外，每一层的EM模块都不相同，EM-1是一组具有较大核尺寸的卷积/反卷积层；EM-2和EM-3具有类似U-Net的结构，不同之处在于skip connection的实现和特征图的大小；EM-4具有网状结构，论文中去掉了BN批归一化，只使用了几个re块来减少模型参数；EM-5由输出尺寸与输入尺寸相同的膨胀卷积层组成。值得一提的是，EM网络中并不共享网络参数！
得到多张不同的EM输出最终进入FM层中，在这里所有EM输出在color channel上进行concat，并用1*1的卷积将其进行融合得到对比度未被增强的输出。
Reinforce-Net
使用膨胀卷积，将Enhancement-Net的输出进行进一步对比度增强，得到最终的增强图像。

loss function

总loss为四个网络结构的loss结合而成：
在这里插入图片描述
权重分别为{100,10,10,1}

** Attention-Net loss**
输入为原始低光图像，计算 L2 loss：
Noise-Net loss
输入为ue-attention map，计算 L1 loss：
Enhancement-Net loss
作者称，单纯使用MSE，MAE等通用loss，会导致模糊和伪影，所以这里专门设计了一系列loss来限制：

从左到右分别为bright loss、structure loss、perceptual loss和regional loss，权重分别为{1,1,0.35,5}
- bright loss可以保证图像拥有足够的亮度，
- structural loss用来保证图像结构的完整并且防止模糊，使用的是SSIM（结构相似度）方法来创建loss，
- perceptual loss可以提升增强图像的视觉质量，使用已经预训好的VGG19（第三个block中第四个卷积层的输出）作为perceptual loss提取层，来比较高层信息中的一致性
- regional loss用来平衡暗光区域和正常曝光区域的增强强度，
  
  ssim（）代表计算SSIM值
Reinforce-Net loss
类似Enhancement-Net loss，

从左到右分别为bright loss、structure loss和perceptual loss，权重为{1,1,0.35}
p.s. 具体loss符号代表含义与实施细节请参考论文

Experimental Evaluation

论文使用了图像增强中常用的PSNR（峰值信噪比） 和 SSIM（结构相似性作为图像质量测试指标，同时还加入了平均亮度Average Brightness (AB) ，视觉信息保真度Visual Information Fidelity (VIF) ，亮度循序误差Lightness Order Error (LOE) ，色调映射图像质量指数Tone Mapped Image Quality Index (TMQI) 和感知图像块相似性度量Learned Perceptual Image Patch Similarity Metric (LPIPS)。

p.s. 在其他工作中，用的最多也就是PSNR和SSIM两个，我这是第一次见到测试了这么多指标的

论文基于自创建的合成数据集和两个公开可用的真实微光数据集（LOL，SID）进行定性和定量的比较，还进行了现实自然图片的实验。

1. 自创建的合成数据集的实验

论文称，之前大多数方法没有去噪功能，所以通过给那些没有去噪的方法加入CBDnet去噪，再进行比较。分为不添加噪声和额外添加噪声两个实验，在两个实验中论文的方法都取得了最好的成绩。红色最好，绿色第二，蓝色第三。
在这里插入图片描述

论文还称，好的网络不仅增强结果质量优秀，网络效率也非常重要，所以做了值得学习训练速度与结果质量的直角坐标对比图，直观、清晰地展示方法的优势，这样的做图方法值得学习：

在这里插入图片描述
2. 现实数据集的实验
通过在LOL数据集上与RetinexNet的对比实验、在SID上的控制变量改变网络结构（单纯使用论文的Enhancement-Net或Reinforce-Net），证明了论文的方法具有更好的性能。

3. 现实自然图片的实验
现实自然图片就是现实中随便取的图片，
在这种数据上得到优秀的增强结果能够证明网络的泛化性更强，实验证明相比其他方法，论文的方法在对比度、颜色保真和色彩饱和度上具有更好的表现。
在这里插入图片描述
4. 观者调查
论文还进行了用户调查，论文的方法有最多的第一排名的选票，第三方来证明论文方法能够输出高质量的输出图像。

5. 泛化研究
为证明论文的鲁棒性和有效性，论文在一些特定领域，例如单色监控、游戏夜景中进行了实验，同时证明了对于如目标检测、实例分割也能提高其网络性能（用在预处理阶段）。在这里插入图片描述
6. 消融实验
论文做了loss function、network structure和numbers of branches的消融实验。
证明了设计的loss确实对性能有提升；证明了使用Attention-Net能够提升质量；证明了并不是分支branches越多或者越少最好，选取为10时效果最好。

在这里插入图片描述

博主总结

注意力机制ue-attention map可以指导网络正确地有的放矢地进行提亮和去噪
Enhancement-Net中的多分支融合机制，因为不共享网络参数，有点类似加权学习，能够关注到原有图像不同层次的信息
在Noise-Net和Reinforce-Net中使用了一般用在语义分割上的膨胀卷积（也称空洞卷积）。因为增大了感受野，能够关注到比较全面的信息
设计了一种创建合成低光图像数据集的方法
在多类型的数据上，设计了非常多且全面的实验，很多实验方法和做图技巧都可以进行参考，用在自己的工作中
low light enhance最关注的的是什么？是噪点、颜色失真和模糊等等指标。论文针对这些最关注的点专门设计网络，并设计实验来验证，同时在论文中表述的非常清楚。例如文中说到以前的增强方法很少关注去噪，而本文专门设计了Attention-Net和Noise-Net来解决这些问题，并通过控制变量的是否额外增加噪点的实验来验证。
善用控制变量法进行实验，如是否添加额外噪声的实验以及单独拿出Enhancement-Net与其他方法对比的实验