当前位置：首页 > news >正文

扩散模型在低光图像增强中的应用与SCEM模块解析

news 2026/6/15 7:13:03

低光环境下的图像采集一直是计算机视觉领域的重大挑战。在夜间摄影、监控安防、自动驾驶等实际应用中，我们常常会遇到图像亮度不足、噪声明显、色彩失真等问题。传统解决方案如提高ISO感光度或延长曝光时间，往往会导致图像噪点增加或运动模糊。

低光图像增强（Low-Light Image Enhancement, LLIE）技术旨在通过算法手段改善这类图像的视觉质量。理想情况下，增强后的图像应当具备以下特征：

近年来，基于深度学习的方法在这一领域取得了显著进展。特别是扩散模型（Diffusion Models）的引入，为低光图像增强带来了新的可能性。与传统的CNN或GAN方法相比，扩散模型通过渐进式去噪的生成方式，能够产生更自然、更高质量的增强结果。

扩散模型的核心在于两个相互逆反的过程：前向扩散和反向去噪。前向扩散过程逐步对图像添加高斯噪声，最终将图像完全转化为随机噪声。这一过程可以表示为：

x_t = √(α_t)x_{t-1} + √(1-α_t)ε_t

其中x_t表示第t步的噪声图像，α_t控制噪声添加的速率，ε_t是从标准正态分布采样的噪声。

反向过程则是学习如何从噪声中逐步恢复原始图像。通过训练一个神经网络（通常是U-Net）来预测每一步添加的噪声，我们可以实现从纯噪声到清晰图像的逆向转换。

在低光图像增强任务中，我们需要将扩散模型改造为条件生成模型。具体做法是将低光图像作为条件输入，引导模型生成对应的正常光照图像。这种条件控制可以通过以下方式实现：

条件扩散模型相比无条件模型具有更强的可控性，能够确保生成结果与输入保持内容一致性。

虽然基础的条件扩散模型已经能够实现低光增强，但在处理复杂光照场景时仍存在以下问题：

为了解决这些问题，论文提出了结构化控制嵌入模块（Structured Control Embedding Module, SCEM）。该模块的核心思想是从低光图像中提取多种物理先验信息，作为细粒度的控制信号指导扩散过程。

SCEM模块从输入图像中提取四种关键特征：

光照图（Illumination Map）：
- 通过最大值通道初始化：T_ini(x,y) = max_c(I_c(x,y)) + δ
- 使用各向异性权重进行优化：考虑局部梯度和全局纹理
- 最终通过能量最小化得到平滑且保持边缘的光照估计
光照不变特征（Illumination-Invariant Features）：
- 通过Retinex理论计算：R_c(x,y) = I_c(x,y)/T_ref(x,y)
- 反映物体的本质反射特性，与光照条件无关
- 有助于保持图像的结构一致性
阴影先验（Shadow Priors）：
- 在频域中通过拉普拉斯算子提取
- 将图像分解为平滑结构成分和残差成分
- 残差成分包含重要的阴影边界信息
色彩不变特征（Color-Invariant Features）：
- 通过通道归一化实现：Φ(x) = [x_r/||x_r||∞, x_g/||x_g||∞, x_b/||x_b||∞]
- 对全局光照变化具有不变性
- 保持色彩关系的稳定性

提取的四种特征通过以下方式融入扩散模型：

这种多层次、细粒度的控制方式，使得扩散过程能够根据不同区域的特性进行自适应的增强处理。

模型使用简化版的噪声预测损失：

L_simple = E[||ε - ε_θ(x_t,t,c)||^2]

其中ε是真实噪声，ε_θ是模型预测的噪声，c表示条件特征。

为了进一步提升增强质量，论文引入了多种辅助损失：

光照对齐损失：
```
L_illum = ||G(x̂_0) - G(x_0)||_1
```
确保增强图像与真实图像的整体亮度一致
色彩保真损失：
```
L_chrom = Σ(1 - (x̂_0·x_0)/(||x̂_0||·||x_0||))
```
最小化色彩向量之间的角度差异
结构相似性损失：基于SSIM指标，保持局部结构和纹理
深度特征一致性损失：使用VGG网络提取高层特征，确保语义一致性

论文在多个标准数据集上进行了评估：

使用了两类评价指标：

全参考指标（有GT图像）：
- PSNR（峰值信噪比）
- SSIM（结构相似性）
- LPIPS（感知相似性）
- FID（Frechet Inception距离）
无参考指标（无GT图像）：
- NIQE（自然图像质量评估）
- BRISQUE（盲图像质量评估）
- PI（感知指数）