融合并行多卷积注意力的扩散模型去雾方法

文档序号：37909798发布日期：2024-05-10 23:49阅读：54来源：国知局

本发明属于深度学习，具体涉及一种融合并行多卷积注意力的扩散模型去雾方法。

背景技术：

1、雾霾会吸收和反射空气中的光线，在气象条件不佳的情况下，采集的图像质量严重不足，往往存在细节模糊、颜色失真、对比度低等问题，从而降低了图像的信息辨识度，严重影响了后续一系列的高级视觉任务的性能，如物体检测、场景识别、和自动驾驶等。因此，研究如何从雾天场景下获取的退化图像中得到清晰图像具有非常重要的现实意义。图像去雾的目标在于消除图像中雾霾的影响，从模糊的图像中恢复清晰的图像，还原图像的细节。

2、现阶段，图像去雾研究主要分成三类：基于特征和先验的方法以及基于学习的方法。基于特征和先验的方法基于大气散射模型的估计，进行相应的去雾处理。这类方法虽然可恢复良好的图像细节,但当采用的假设和先验在一些特定场景下不成立时,会造成去雾后的图像过饱和、颜色失真及处理天空区域困难等问题。cnn近年在一些任务上取得了较大的进展，去雾算法也有大量基于cnn的相关工作。这类方法是主要可以分为两类，第一类仍然是基于大气退化模型，利用神经网络对模型中的参数进行估计，早期的方法大多数是基于这种思想。第二类则是利用输入的有雾图像，直接输出得到去雾后的图像，即是深度学习中的end2end。

3、基于深度学习图像生成的方法在图像去雾方面取得了一定的成果，然而基于生成对抗网络的生成方法受到了各种限制，需要训练多个网络，模型很难收敛，容易导致优化不稳定，网络崩溃等。扩散模型(ddpm)在图像去噪上的应用成功解决了生成对抗网络训练不稳定的问题，逐渐占据图像生成领域的主导地位。但扩散模型存在采样速度慢，最大化似然差、数据泛化能力弱的等缺点。如今很多研究已经从实际应用的角度解决上述限制做出了许多努力。

技术实现思路

1、针对上述扩散模型存在采样速度慢，最大化似然差、数据泛化能力弱的等缺点的技术问题，本发明提供了一种融合并行多卷积注意力的扩散模型去雾方法，将工作重点放在反向过程噪声估计网络的改进上，使其能够更好地应用在图像去雾。首先提出并行多卷积注意力残差块pmca，pmca模块主要包括并行注意力和并行多卷积两部分，通过残差进行多尺度连接；引入改进自选择性卷积核网络的skfusion(selective kernel fuison)融合方式，并通过双三次下采样调整输入图像尺寸，然后使用拉普拉斯金字塔上采样去雾图像，从而使得模型能够处理高分辨率图像，间接提升了扩散模型的效率。

2、为了解决上述技术问题，本发明采用的技术方案为：

3、融合并行多卷积注意力的扩散模型去雾方法，包括下列步骤：

4、s1、以条件扩散模型为基础，改进反向过程噪声估计网络构建图像去雾模型hazediffusion；

5、s2、引入skfusion融合方式，通过动态特征融合和跳跃连接实现对各个尺度的信息更具体和丰富的获取；

6、s3、结合像素、通道和交叉注意力设计了pmca模块，更准确地获取条件信息的特征；通过并行卷积和残差学习，使模型更灵活地关注图像的雾霾区域，并更好地关注有雾图像的局部特征；

7、s4、使用双三次下采样提取高频特征降低图像尺寸，采用基于拉普拉斯金字塔的上采样方法恢复高分辨率图像，提高模型的处理效率。

8、所述s1中图像去雾模型hazediffusion的数据样本为reside数据集，所述reside数据集是图像去雾较为标准的广泛使用的数据集之一，reside数据集由五个子集组成：室内训练集its、室外训练集ots、综合目标测试集sots、真实世界任务驱动测试集rtts和混合主观测试集hsts；its和ots是合成数据集，rtts是真实世界数据集，hsts由合成和真实的有雾图像组成。实验在包含100000个图像对的its数据集上训练模型，并在500对图像的sots的室内数据集上进行测试；在包含313950个图像对的ots上训练模型，并在500对图像的sots的室外测试集上进行测试。

9、所述s1中模型的主体结构是融合有雾图像的条件去雾扩散模型，扩散模型是深度生成模型，向可用训练数据添加噪声，然后反转该过程以恢复数据，模型逐渐学会消除噪声；扩散过程对清晰无雾图像逐渐增加高斯噪声直至变成纯噪声图像；反向过程则是前向过程的逆过程，生成一个随机高斯噪声，将高斯噪声和有雾图像haze共同输入融合并行多卷积注意力的网络模型中，通过反向去雾过程，恢复出清晰图像；将有雾图像haze作为条件加入扩散模型，得到去雾条件扩散模型，能够成功解决真实图像去雾效果差和室内室外数据集分开训练繁琐的问题，提升图像的去雾效果。

10、所述s1中构建图像去雾模型hazediffusion的方法为：hazediffusion模型包含diffusion process和reverse process两大模块；diffusion process模块为噪声添加模块，随机生成一个噪声并与图像连接；reverse process模块为噪声预测模块，将高斯噪声图和有雾图像输入卷积层，并为噪声水平t计算时间嵌入；降采样阶段依次是卷积层、reswithattn层、pcma层、降采样层；在网络的中间阶段是reswithattn层和pcma层；上采样阶段依次是reswithattn层、pcma层、上采样层、reswithattn层；使用sk融合模块融合来自不同阶段的特征映射；pcma模块包括并行注意力和并行多卷积，使用groupnorm层数据归一化，并在模块中使用残差连接丰富特征信息；并行多卷积使用不同卷积核大小的深度可分离卷积提取特征，包括7×7、5×5和3×3的卷积。

11、所述图像去雾模型hazediffusion训练的方法为：

12、利用训练集所构建的hazediffusion网络模型中，采用l1损失监督模型来计算清晰图像和去雾图像之间的平均误差，通过网络输出的最大似然估计进行训练；损失公式定义如下：

13、

14、其中，n为训练集的样本总数，f(x)为生成噪声图像，yi为估计的噪声图像，l1损失函数通过检测f(x)和yi的差值绝对值来优化模型；

15、在训练过程中，扩散模型将真实数据和纯噪声作为输入样本，输出模型估计添加的噪声，然后和每一时刻的真实噪声计算损失，迭代更新模型参数。

16、所述s2中skfusion融合模块动态融合来自不同阶段的特征映射，skfusion融合改进自选择性卷积核网络，通过使用通道注意力融合多个特征分支，设两个特征映射分别为x1和x2，其中x1是来自跳跃连接的特征映射，x2是来自网络模块输出的特征映射；首先x1经过pwconv(pointwise conv)层得到然后使用全局平均池化、多层感知机、softmax激活函数和split运算得到融合权值；

17、{a1,a2}＝split(soft max(fmlp(gap(x1+x2)))

18、通过将和x2融合；其中，gap表示全局平均池化，fmlp表示多层感知机，softma表示softmax激活函数，split表示split运算。

19、所述s3中为改进噪声估计网络设计了并行多卷积注意力pmca模块，包括并行注意力和并行多卷积，使用groupnorm层数据归一化，使训练更加稳定，并在模块中使用残差连接丰富特征信息；并联多个不同尺度的深度可分离卷积层有效地聚合空间信息和转换特征；并联多个注意力机制可以强化模型对全局和局部特征的关注。

20、所述s4中使用双三次下采样提取高频特征降低图像尺寸，将输入图像的尺寸通过双三次下采样调整为256×256像素，通过降低模型的输入来提高扩散模型的计算效率；为了得到高质量的去雾图像，引入拉普拉斯金字塔处理生成的低分辨率图像，恢复图像分辨率，拉普拉斯金字塔在提升图像分辨率上保留了图像的大部分边缘，避免了细节模糊，减少了伪影，过程简单，降低了计算量。

21、本发明与现有技术相比，具有的有益效果是：

22、本发明提出了一种融合并行多卷积注意力的扩散模型去雾方法hazediffusion，将条件扩散模型和深度学习模型的优点结合起来，一定程度上解决了现有去雾算法去雾不彻底、颜色失真、细节模糊等问题，同时简化了室内室外分开训练的繁琐过程，有效提升了图像生成在去雾任务上的性能。本发明在室内合成有雾数据集上取得了27.8163的psnr值和0.9422的ssim值，在室外合成数据集上取得了29.2764的psnr值和0.9583的ssim值；在真实有雾数据集中信息熵(entropy)、雾密度估计(fade)和图像视觉信息保真程度(vif)获得了很高的评价分数，取得了6.6685的entropy值、0.5843的fade值和0.9245的vif值；在主观视觉质量上也表现优秀。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓红霞,崔欣桐,王浚瞩,梁铮,吴越,高巍,杨茂达,赵培森
技术所有人：太原理工大学
我是此专利的发明人

上一篇：一种新型实验室纳米立式研磨机的制作方法
上一篇：一种空中稳定运作的轨道物料搬送车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。