一种多级扩散图像超分辨算法

文档序号：35340139发布日期：2023-09-07 08:10阅读：123来源：国知局

本发明属于计算机视觉，尤其涉及一种多级扩散图像超分辨算法。

背景技术：

1、超分辨率(super-resolution，sr)是一种计算机视觉技术，旨在通过分析和处理低分辨率图像，提高其分辨率和细节，从而生成更高质量的高分辨率图像。超分辨率技术在多个领域具有广泛的应用价值，包括卫星图像处理、医学成像、视频处理和恢复等。随着深度学习和神经网络技术的快速发展，超分辨率领域取得了显著的进展。

2、随着深度学习的兴起，卷积神经网络(cnn)在图像超分辨率领域取得了显著的进展。srcnn是第一个使用深度神经网络进行超分辨率的方法。自srcnn以来，许多基于cnn的超分辨率方法相继被提出，如vdsr、espcn、edsr和rcan等。这些方法通过学习大量的低分辨率和高分辨率图像对，使得超分辨率性能得到了极大的提升。

3、近年来，生成对抗网络(gan)在图像超分辨率领域也取得了重要的突破。gan由生成器和判别器组成，生成器负责生成高分辨率图像，而判别器负责区分真实高分辨率图像和生成器生成的图像。这种对抗过程使得生成的高分辨率图像在感知质量方面取得了显著提升。srgan是第一个将生成对抗网络应用于图像超分辨率的方法，自srgan以来，许多基于gan的超分辨率方法相继被提出，如esrgan、biggan等。

4、尽管深度学习在图像超分辨率领域取得了巨大成功，但仍然存在一些挑战。例如，如何处理实际应用中的多样化退化模式，如模糊、压缩、噪声等；如何在保持高性能的同时生成更为真实和自然的高分辨率图像；如何有效地处理大规模图像数据，减小计算复杂度和内存占用。

5、近年来，扩散模型在图像生成领域取得了显著的成果。相较于传统的深度学习方法，扩散模型表现出更高的性能、更强的泛化能力和鲁棒性。此外，扩散模型支持灵活的模型设计，可根据需求进行定制化优化，并能与其他图像处理方法(如生成对抗网络、卷积神经网络等)相结合，以进一步提升性能。总之，扩散模型为图像处理领域开辟了新的可能性，预示着在超分辨领域未来应用将具有更广阔的发展空间。

技术实现思路

1、本发明目的在于提供一种多级扩散图像超分辨算法，以解决上述背景技术中提到的技术问题。

2、为实现上述目的，本发明的一种多级扩散图像超分辨算法的具体技术方案如下：

3、扩散模型是一种基于随机过程的生成方法，通过在噪声图像上逐步去噪来生成目标图像。它的核心思想是对原始数据添加噪声，然后通过学习一个去噪模型来逆向恢复原始信号。扩散模型具有稳定的训练过程、较好的噪声鲁棒性和可控的生成过程。在各种图像生成任务中，扩散模型已经展示了令人瞩目的性能，包括图像超分辨率、去模糊和图像生成等。

4、扩散模型有着稳定的训练过程，通过条件扩散过程进行训练，这使得训练过程相对稳定，不易受到梯度消失或梯度爆炸的影响；并且在处理噪声时具有较好的鲁棒性，能够在图像重建过程中去除不同程度的噪声；以及可控的生成过程，通过逐步去噪的方式生成高分辨率图像，允许对生成过程进行更细粒度的控制。

5、扩散模型和生成对抗网络在图像超分辨率领域都取得了显著的成果，但它们各自具有一定的优缺点。实际应用中，可以根据具体需求和场景，选择合适的方法或将二者结合以实现最佳性能。

6、一种多级扩散图像超分辨率算法，包括以下步骤，且以下步骤顺次进行：

7、步骤s1、数据预处理阶段

8、首先从原始高分辨率图像创建训练数据集，为生成具有不同退化模式的低分辨率图像，应用高阶退化模块，下采样高分辨率图像以生成低分辨率图像；

9、实际应用中的低分辨率图像，这些图像通常受到噪声、模糊、压缩等多种退化现象的影响。在训练过程中，为了模拟真实世界中的图像退化，本发明使用一种模拟退化过程来生成训练数据，具体如图2所示，将待处理图像传入高阶退化模块后，分别经历第一次退化，第二次退化以及噪声条件增加三个部分。其中，第一次退化包括模糊，下采样，压缩三个步骤；第二次退化包括模糊，下采样，图像压缩与sinc滤波以及第二次下采样四个步骤；噪声条件增加包括上采样与添加噪声两个步骤。

10、应用模糊核：将不同类型和参数的模糊核应用于高分辨率图像，模拟图像的模糊效果；

11、下采样：通过下采样高分辨率图像，进行双三次插值，生成低分辨率图像；

12、添加噪声：向下采样后的图像中添加不同类型的噪声，以模拟实际场景中的噪声干扰；

13、图像压缩：对低分辨率图像进行有损压缩，模拟实际应用中的图像压缩效果；

14、通过这种模拟退化过程，在训练时考虑真实世界的退化模式，从而在处理实际低分辨率图像时表现出更好的性能。

15、步骤s2、选择u-net作为扩散模型主要网络结构，适用于每个模型。定义编码器和解码器，以及跳跃连接；定义级联扩散模型；构建多个扩散模型，分别负责处理不同分辨率的图像；

16、u-net是一种常用于图像分割和超分辨率等任务的卷积神经网络结构，因为其具有强大的特征捕捉能力和跳跃连接结构，能有效地进行去噪任务并保留图像的细节信息，所以选作扩散模型的训练网络。在本算法中，u-net作为基础网络结构，负责从低分辨率图像中提取特征并生成高分辨率图像。

17、图3为本发明的网络结构，图中噪声等级编码为：给定时间步t的固定预算，从分段均匀分布中采样连续噪声等级具体来说，定义t的区间(li-1，li)，其中l为区间端点，当i＞0时，和然后，为了采样连续的噪声等级随机选取一个区间(lk-1，lk)，采样

18、将初始估计图像xt和原始低分辨率图像y传入u-net网络，u-net网络包括下采样阶段与上采样阶段以及它们之间的跳跃连接。其中，上下采样部分包括卷积层与残差模块。在上下采样阶段，包括多次的卷积处理与残差处理；将尺寸相对应的特征图连接起来即为跳跃连接，这些跳跃连接将下采样阶段中捕获的低级特征直接传递到上采样阶段，有助于保留更多的细节信息；将均匀采样得到的噪声等级编码分别按尺度传入残差模块，最终以估计出当前图像的噪声ε。

19、网络中使用残差模块如图4所示，首先对输入进行激活函数处理，然后进行上/下采样和卷积操作，并将其与经过激活函数处理和全连接层处理的嵌入噪声相连接。接着，再次进行激活函数处理、随机失活层处理和卷积操作。最后，将这个输出与初始输入相加，得到最终的输出。

20、通过使用这些具有残差连接的构建模块，使模型能够有效地训练，并生成具有高保真度的自然图像。这些残差块有助于在捕捉图像的多样性和细节方面取得更好的性能。

21、步骤s3、训练

22、在训练过程中，首先对最低分辨率的图像应用第一个扩散模型，然后通过超分辨率扩散模型级联，逐步上采样图像并添加更高分辨率细节，计算生成的高分辨率图像与真实图像的损失，反向传播以更新网络权重，每个迭代步骤中，网络优化高分辨率图像重建，生成新的高分辨率图像并在下一迭代中继续优化，根据固定迭代次数或动态停止条件结束训练；

23、相较于主流超分辨率算法中的gan，扩散模型具有稳定性、高采样质量、显式似然和无需判别器等优势。避免对抗性训练降低了训练不稳定性风险。扩散模型在生成自然、连贯图像方面表现优异。直接计算与优化似然简化了模型评估和选择，无需判别器减轻了复杂性和计算成本。

24、如图5所示为基础扩散模型结构，分为两个过程，正向传播过程和反向传播过程。级联是指多个基础扩散模型通过图6的方式相连接。第一个扩散模型实现的功能与第二/三个不一样，但基础结构是一样的。

25、在正向过程中，扩散模型由在t时间步的过程中逐渐破坏图像x0～q(x0)的前向过程定义：

26、

27、

28、其中xt是在t时刻的观测值，x0是初始的干净图像，∈t是加性高斯噪声，βt是在扩散过程的第t个时间步中添加的噪声方差，i是单位矩阵，αt是噪声缩放因子(0≤αt≤1)，随时间t递增。

29、以及反向过程pθ(x0)＝∫pθ(x0：t)dx1：t，其中：

30、

31、

32、在前向过程中，超参数βt被设置为可以使得xt近似于标准正态分布，所以p(xt)也被设置为标准正态先验。

33、反向过程通过优化证据下限，即elbo(evidence lower bound)，来训练以匹配正向过程的联合分布：

34、

35、其中lt(x0)＝dkl(q(xt|x0)||pθ(xt))。前向过程后验q(xt-1|xt，x0)和边缘q(xt|x0)是高斯型的，并且elbo中的kl散度可以以封闭形式计算。因此，可以通过对上式的随机项采取随机梯度步骤来训练扩散模型。综上所述，使逆过程参数化：

36、

37、

38、其中，αt＝1-βt，

39、正向传播过程是将高分辨率图像逐步降低至低分辨率的过程。在每个时间步，向图像添加噪声，使图像变得更模糊和嘈杂。这个过程模拟了图像在逐渐扩散的过程中逐步失去信息的现象。正向过程的目的是为逆向过程提供一个合适的起点，从而更容易地进行高分辨率图像的重建。

40、逆向传播过程是从低分辨率图像逐步重建高分辨率图像的过程。在每个时间步，根据已经学到的模型逐渐去除噪声，使图像变得更清晰和详细。重建阶段的目标是生成具有高质量和高分辨率的图像，同时保留图像的原始特征和细节。

41、在训练阶段，模型学习如何在正向传播过程中添加合适的噪声以及在逆向传播过程中去除噪声。模型通过大量训练数据进行训练，以了解不同类型的图像特征和结构。这使得模型能够在逆向过程中有效地重建高分辨率图像。

42、在生成阶段，首先利用正向过程将输入的高分辨率图像降低到较低分辨率。然后，使用训练好的模型在逆向过程中从低分辨率图像重建高分辨率图像。在这个过程中，模型逐渐去除噪声并恢复图像的细节。最终，我们得到一个具有高质量和高分辨率的生成图像。

43、级联模型利用多个扩散模型逐步提高图像分辨率。采用条件增强方法，在低分辨率输入上应用数据增强以提高样本质量。这降低了采样过程中的累积误差，实现高质量图像生成。

44、在级联模型的训练过程中，不同阶段的扩散模型分别负责处理不同分辨率的图像。通过将这些扩散模型级联，模型能够在每个阶段优化生成图像的细节，有助于降低采样过程中的累积误差，从而实现高质量的图像生成。

45、在这里，数据x0有一个相关的条件信号c，在生成的情况下是一个标签，在超分辨率的情况下是一个低分辨率的图像；由于最终目标是学习一个条件模型pθ(x0|c)，因此将c作为反向过程的输入。数据和条件信号(x0，c)从数据分布中联合取样，而正向过程保持不变。唯一需要做的修改是将c作为额外的输入注入到神经网络函数近似器中，即用μθ(xt，t)代替μθ(xt，t，c)，σθ同理。

46、

47、

48、

49、在本算法中，使用条件扩散模型来实现图像超分辨率。训练过程如下：

50、步骤s3-1、给定一个高分辨率的图像x0和一个低分辨率的观测值xt。

51、步骤s3-2、使用噪声反向传播方程来计算x(t-1)，在此过程中，∈t是从一个预测分布q(∈t|xt)中采样的。这个预测分布是由神经网络参数化的。

52、步骤s3-3、更新网络参数以最小化生成的x(t-1)与原始高分辨率图像x0之间的损失。

53、通过这种方式，扩散模型能够学习在不同时间节点上学习去噪函数，并实现高质量的图像超分辨率。

54、将超分辨率模型的训练分摊在不同尺度的图片上进行条件增强，意味着可以在训练时尝试不同的高斯噪声和高斯模糊强度。例如在32×32的图像上，于前向过程添加噪声；在64×64的图像上，随机应用高斯模糊；训练完成后，进行超参数搜索，以确定最佳的条件增强方案，使用找到的最佳条件增强方案，生成最终的高分辨率图像。

55、首先生成低分辨率样本，然后通过第一个扩散模型，将低分辨率样本逐级上采样为高分辨率样本。与此同时，将最开始的图片标签分别传入后续的模型中，使用对样本质量最重要的最有效的低分辨率的训练和采样数据，对每个特定的分辨率进行调整，以达到整个管道的最佳性能。

56、步骤s4、验证与测试

57、使用验证集在训练过程中评估网络性能；训练结束后，使用测试集评估最终模型；采用评估指标衡量超分辨率性能。

58、本算法使用的损失函数为均方误差(mean squared error，mse)，评价指标使用峰值信噪比(peak signal-to-noise ratio，psnr)及结构相似性(structural similarityindex，ssim)。

59、均方误差(mean squared error，mse)作为损失函数，它衡量了生成的高分辨率图像与目标高分辨率图像之间的像素级差异。mse损失函数的计算公式如下：

60、

61、其中，x表示目标高分辨率图像，表示生成的高分辨率图像，n是像素数量，xi和分别是目标图像和生成图像的第i个像素值。

62、峰值信噪比(peak signal-to-noise ratio，psnr)是一种广泛使用的图像质量评价指标，用于衡量图像失真的程度。psnr基于mse计算，公式如下：

63、

64、其中，maxx是图像的最大像素值。对于8位深度的图像，maxx＝255。

65、结构相似性指数(structural similarity index measure，ssim)是一种基于图像的局部特征来评估图像质量的指标，它考虑了图像的亮度、对比度和结构信息。ssim的计算公式如下：

66、

67、其中，μx和分别是图像x和的均值，和分别是图像x和的方差，是图像x和的协方差，c1和c2是常数，用于避免分母为零。

68、mse损失函数直接用于算法的训练过程，而psnr和ssim则通常用于评估和比较不同超分辨率方法的性能。

69、本发明的一种多级扩散图像超分辨算法具有以下优点：本算法基于目前最先进的扩散模型，引入级联的思想，并与性能更优越的高阶退化模型相结合，从而在图像重建中实现更高的精度和感知质量，可以更好地应对不同的退化模式，如模糊、噪声等。这种融合设计使其在处理复杂场景和细节恢复方面具有显著优势。

70、此外，通过结合级联的思想和预处理退化模式，本算法能够在保持较高性能的同时，生成更为真实和自然的高分辨率图像。这使得本算法在图像超分辨率领域具有较大的应用潜力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付强姚汉群才华王伟刚马智勇刘广文
技术所有人：长春理工大学
我是此专利的发明人

上一篇：一种洁净室隔墙的施工方法及洁净室隔墙与流程
上一篇：一种通过多次成膜提升电容的阵列基板的制造方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。