一种基于先验知识的频率正则化可逆灰度技术

文档序号:40573254发布日期:2025-01-03 11:36阅读:19来源:国知局
一种基于先验知识的频率正则化可逆灰度技术

本发明涉及图像处理领域,具体地讲,涉及一种基于先验知识的频率正则化可逆灰度技术。


背景技术:

1、在计算机视觉领域,将灰度图像转换回其原始彩色版本是一个具有挑战性且严重不适定的问题,即使是现有的最先进的彩色化方法也不能完全恢复原始彩色图像的颜色信息。为了解决这个颜色信息的可逆损失问题,可逆灰度应运而生。现实生活中,很多的应用场景都需要将彩色图像转换为灰度图像,比如黑白印刷、美学摄影、图像压缩以及信息传输等领域。然而,在对彩色图像进行灰度化的过程中难以避免会造成颜色信息的丢失。虽然可以使用现有的着色方法对生成的灰度图像进行着色,但是利用现有着色技术重新给生成的灰度图像引入的颜色极大可能不是原来的颜色信息。

2、可逆灰度其实涵盖了两种技术手段:图像去色技术(image decolorization)和图像着色技术(image colorization)。图像去色就是将彩色图像转换为具有对比度、结构和光照信息的灰度图像。图像去色一般可分为两类:全局去色和局部去色。局部去色方法着重于增强具有色度边缘的灰度图像的对比度,而全局去色方法则强调同时关注图像的局部和非局部对比度、结构和光照信息来对颜色进行压缩。不论是局部还是全局去色都是不可逆的,因此使颜色信息得到恢复非常困难。图像着色技术则正好和图像去色技术相反,旨在从灰度观测值中恢复颜色信息。近年来,随着深度神经网络的快速发展,特别是生成对抗网络( generative adversarial networks,gans ),越来越多的基于gans的着色网络被设计来应用到各种彩色化任务中。例如自动彩色化,这是第一次尝试对灰度图像进行彩色化。但是由于着色问题的不适定性,用户主导着色方法被提出来,即利用用户的提示和需求完成不同的着色任务。近年来基于流的生成模型也逐渐被应用到了图像着色领域。一个条件归一化着色方案,利用灰度作为指导来进行多样化的图像着色。尽管如此,上述彩色化方法并不具备灰度图像在生成过程中恢复原始颜色信息的能力,这对于可逆灰度来说是不可取的着色技术。可逆灰度旨在从彩色图像中生成可逆的灰度图像,目前还处于研究的初始阶段。可逆灰度的概念,它利用一个自动编码器将原始颜色信息在生成可逆的灰度图像中隐式隐藏。在可逆灰度的基础上,一种基于特征集成和自注意力机制的扩展方案。然而,其主要思想是将颜色信息编码到灰度图中的一些模式中,以便解码器可以通过查看这些模式对原始颜色信息进行重建。换句话说,这些方法的颜色压缩和重建原始颜色图像的质量高度依赖于它们的编码器和解码器的网络深度和参数信息,并且最主要的问题是目前的可逆灰度方法主要集中在如何提升生成灰度图像的视觉质量而忽略了原始颜色图像的重建质量。


技术实现思路

1、本发明要解决的技术问题是提供一种基于先验知识的频率正则化可逆灰度技术,旨在提升重建彩色图像的视觉质量。

2、本发明采用如下技术方案实现发明目的:

3、一种基于先验知识的频率正则化可逆灰度技术,其特征在于,包括以下步骤:

4、s1:原始彩色图像首先作为基于unet框架的去色网络的输入,进而得到生成的灰度图像;

5、s2:引入高频信息提取模块,分别对原始彩色图像进行灰度转换以及高斯模糊后再灰度转换,得到高频信息;

6、s3:生成的灰度图像以及高频信息共同作为着色网络的输入;

7、;

8、其中:表示着色网络,将高频信息和生成的灰度图像使用concat操作合并作为的输入得到重建的彩色图像;

9、s4:去色网络和着色网络是以端到端的形式进行训练。

10、作为本技术方案的进一步限定,所述s1的过程可描述为:

11、(1);

12、其中:为生成的灰度图像;

13、为:基于unet框架的去色网络;

14、为原始彩色图像。

15、作为本技术方案的进一步限定,所述s2的过程可描述为:

16、(2)

17、(3)

18、(4)

19、(5)

20、(6)

21、其中:分别表示原始彩色图像的r、g、b三个单通道图像;

22、表示由通用浮点算法得到的灰度图像;

23、表示的是高斯模糊的高斯核,其中表示的是图像像素点的坐标;

24、为的标准差;

25、 k则代表的是核的尺寸;

26、表示的是使用高斯核对原始彩色图像进行高斯滤波后得到的模糊图像;

27、分别表示滤波图像的r、g、b三个单通道图像;

28、则表示的是得到的高频信息。

29、作为本技术方案的进一步限定,高频信息和生成的灰度图像的大小和维度一样。

30、作为本技术方案的进一步限定,所述s4的训练过程如下:

31、s41:交叉熵损失函数 lmse被用来减小原始彩色图像和重建的彩色图像之间的像素值差异,交叉熵损失的定义如下:

32、(7)

33、其中, || ||2为l2范数;

34、s42:利用三种不同的损失函数来训练去色网络,即亮度损失 llum、对比度损失 lcon和局部结构损失 lloc,其定义如下:

35、(8)

36、(9)

37、(10)

38、其中: l表示的是cie rgb色彩空间中的l通道;

39、用于计算图像局部变化均值的函数;

40、用于提取图像的特征以表示感知损失;

41、表示l1范数;

42、s43:为了控制量化误差,将生成灰度图像的像素值限制在8位无符号整数精度的范围,设计量化损失函数:

43、(11)

44、其中:表示元素最小算子;

45、在此视为一个常数矩阵,其大小和生成灰度图像的大小相同,最小化该损失其实就是使生成灰度图像的像素值尽可能为整数;

46、s44:以利用以下整体损失函数对着色网络和去色网络以端到端的形式进行优化:

47、(12)

48、其中:在此分别表示各种损失函数在训练过程中对应的权重值。

49、与现有技术相比,本发明的优点和积极效果是:

50、传统的可逆灰度可以将颜色信息编码到生成的灰度图像中完成重建任务,但不能以隐式的方式有效隐藏高频信息,限制了颜色信息重建的能力。我们将这一点视为先验知识,并将高频提取模块引入到可逆灰度的框架中,从而迫使解码器专注于融合颜色信息的高频模式。高频提取模块可以减轻编码器的生成压力(其基本思想是减少颜色信息中难以隐式编码到生成的灰度中的高频分量),既可以保证生成的灰度的视觉质量,又可以提高解码器的重建能力。本发明将高频提取模块引入到传统可逆灰度的框架中,迫使解码器专注于融合颜色信息的高频模式,从而在不影响生成灰度图像质量的同时提升了重建的彩色图像的视觉效果。充分的实验结果验证了基于先验知识的频率正则化可逆灰度技术是可行的。与传统的可逆灰度技术相比,重建的彩色图像的的视觉质量(ssim和psnr)都有了明显的提高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1