一种基于感知驱动的弱监督水下图像增强方法

文档序号:33321558发布日期:2023-03-03 20:56阅读:71来源:国知局
一种基于感知驱动的弱监督水下图像增强方法

1.本发明涉及一种水下图像增强方法,尤其是涉及一种基于感知驱动的弱监督水下图像增强方法。


背景技术:

2.近年来,水下探测作业技术已成为海洋技术领域的研究热点。要实现水下探测和作业,水下机器人必须能快速对水下环境中需要捕获信息的目标进行精确识别和定位。但是,由于光在水介质中传输时会出现光衰减情况,设备捕获的退化水下图像和视频难以保持较高的质量,导致远程操作员无法对所获得的退化水下图像和视频内容进行准确地判断,因此对失真水下图像进行增强具有重要意义。而成像出现的失真情况可归为三种:低对比度、颜色偏移和噪声,其中,颜色偏移是因光衰减导致图像内不同颜色光强度失真而引起的,而环境光的散射会导致对比度降低,同时所成像的边缘和细节被模糊。不但如此,水温、盐度和水中颗粒物的类型和数量等其他因素对水下图像的成像也有巨大影响。严峻的水下环境使得水下图像普遍存在以上一种或多种失真问题,但是水下图像质量对于水下视觉任务和研究是极其重要的,因此,如何有效地增强水下图像,使其接近于无水的地面图像已成为一个具有挑战性的问题。
3.目前已有多种水下图像增强算法,但是现有的水下图像增强算法为有监督水下图像增强方法,其在缺乏真实标签数据的情况下使用伪标签驱动网络训练,导致处理能力有限,而且处理结果缺乏对人类感知的关注,并不能符合人类感知对于水下图像的期望,导致处理结果在客观上不符合一幅优秀水下图像的评价。


技术实现要素:

4.本发明所要解决的技术问题是提供一种基于感知驱动的弱监督水下图像增强方法,其能够在缺乏标签数据的情况下进行网络的训练,并且能够在任意场景水下图像的增强上展现出良好的泛化能力,同时在所提出的感知质量损失函数的驱动下能够使得处理的图像结果更加符合人类感知的期待,能够有效地提高增强结果的主观感知和客观评价分数。
5.本发明解决上述技术问题所采用的技术方案为:一种基于感知驱动的弱监督水下图像增强方法,其包括训练阶段和测试阶段,其特征在于在训练阶段中,首先构建一个第一训练集和一个第二训练集,第一训练集包含数个图像子集,每个图像子集包含数对图像对,每对图像对有两幅水下增强图像,不同图像子集中的水下增强图像的场景各不相同,同一个图像子集中的水下增强图像的场景为同一个场景,每对图像对的两幅水下增强图像所采用的水下图像增强方法不同,第二训练集包含数幅不同场景下的原始水下图像和相同数量的不同场景下的自然图像,其中,水下增强图像、原始水下图像和自然图像的尺寸相同;并构建三个神经网络,第1个神经网络作为图像质量评价网络,第2个神经网络作为图像生成器网络,第3个神经网络作为图像鉴别器网络;然后将第一训练集中的每对图像对的每幅水
下增强图像输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,在多轮训练结束后训练得到图像质量评价网络训练模型;再将第二训练集中的每幅原始水下图像输入到图像生成器网络中进行网络训练,每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像,随后将第二训练集中的每幅原始水下图像和对应的增强结果图像以及一幅自然图像分别输入到图像鉴别器网络中进行网络训练,每轮训练结束后先计算图像鉴别器网络的损失函数值,后计算图像生成器网络的损失函数值,交叉训练图像生成器网络和图像鉴别器网络多轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型,其中,计算图像生成器网络的损失函数值时考虑了将第二训练集中的原始水下图像输入到图像质量评价网络训练模型中输出的原始水下图像的质量预测分数以及将第二训练集中的原始水下图像对应的增强结果图像输入到图像质量评价网络训练模型中输出的增强结果图像的质量预测分数;在测试阶段中,将测试用水下图像输入到图像生成器网络训练模型中,图像生成器网络训练模型输出测试用水下图像的增强结果;
6.上述,图像质量评价网络包括1个第一卷积块、4个第二卷积块、12个第三卷积块、1个全局平均池化模型、3个全连接层,由1个第一卷积块、4个第二卷积块、12个第三卷积块构成图像质量评价网络中的编码网络,由1个全局平均池化模型和3个全连接层构成图像质量评价网络中的回归网络;第一卷积块的输入通道数为3、输出通道数为64,第一卷积块的输入端同时接收一幅尺寸为h
×
w的rgb图像的r、g、b三个通道,将第一卷积块的输出端输出的尺寸为的特征图记为i
q1
;第1个第二卷积块的输入通道数为64、输出通道数为256,第1个第二卷积块的输入端接收i
q1
,将第1个第二卷积块的输出端输出的尺寸为的特征图记为i
q2
;第1个第三卷积块的输入通道数为256、输出通道数为256,第1个第三卷积块的输入端接收i
q2
,将第1个第三卷积块的输出端输出的尺寸为的特征图记为i
q3
;第2个第三卷积块的输入通道数为256、输出通道数为256,第2个第三卷积块的输入端接收i
q3
,将第2个第三卷积块的输出端输出的尺寸为的特征图记为i
q4
;第2个第二卷积块的输入通道数为256、输出通道数为512,第2个第二卷积块的输入端接收i
q4
,将第2个第二卷积块的输出端输出的尺寸为的特征图记为i
q5
;第3个第三卷积块的输入通道数为512、输出通道数为512,第3个第三卷积块的输入端接收i
q5
,将第3个第三卷积块的输出端输出的尺寸为的特征图记为i
q6
;第4个第三卷积块的输入通道数为512、输出通道数为512,第4个第三卷积块的输入端接收i
q6
,将第4个第三卷积块的输出端输出的尺寸为的特征图记为i
q7
;第5个第三卷积块的输入通道数为512、输出通道数为512,第5个第三卷积块的输入端接收i
q7
,将第5个第三卷积块的输出端输出的
尺寸为的特征图记为i
q8
;第3个第二卷积块的输入通道数为512、输出通道数为1024,第3个第二卷积块的输入端接收i
q8
,将第3个第二卷积块的输出端输出的尺寸为的特征图记为i
q9
;第6个第三卷积块的输入通道数为1024、输出通道数为1024,第6个第三卷积块的输入端接收i
q9
,将第6个第三卷积块的输出端输出的尺寸为的特征图记为i
q10
;第7个第三卷积块的输入通道数为1024、输出通道数为1024,第7个第三卷积块的输入端接收i
q10
,将第7个第三卷积块的输出端输出的尺寸为的特征图记为i
q11
;第8个第三卷积块的输入通道数为1024、输出通道数为1024,第8个第三卷积块的输入端接收i
q11
,将第8个第三卷积块的输出端输出的尺寸为的特征图记为i
q12
;第9个第三卷积块的输入通道数为1024、输出通道数为1024,第9个第三卷积块的输入端接收i
q12
,将第9个第三卷积块的输出端输出的尺寸为的特征图记为i
q13
;第10个第三卷积块的输入通道数为1024、输出通道数为1024,第10个第三卷积块的输入端接收i
q13
,将第10个第三卷积块的输出端输出的尺寸为的特征图记为i
q14
;第4个第二卷积块的输入通道数为1024、输出通道数为2048,第4个第二卷积块的输入端接收i
q14
,将第4个第二卷积块的输出端输出的尺寸为的特征图记为i
q15
;第11个第三卷积块的输入通道数为2048、输出通道数为2048,第11个第三卷积块的输入端接收i
q15
,将第11个第三卷积块的输出端输出的尺寸为的特征图记为i
q16
;第12个第三卷积块的输入通道数为2048、输出通道数为2048,第12个第三卷积块的输入端接收i
q16
,将第12个第三卷积块的输出端输出的尺寸为的特征图记为i
q17
;全局平均池化模型的输入通道数为2048、输出通道数为2048,全局平均池化模型的输入端接收i
q17
,将全局平均池化模型的输出端输出的尺寸为1
×1×
2048的特征向量记为i
gap1
;第1个全连接层的输入通道数为2048、输出通道数为4096,第1个全连接层的输入端接收i
gap1
,将第1个全连接层的输出端输出的尺寸为1
×1×
2048的特征向量记为i
f1
;第2个全连接层的输入通道数为4096、输出通道数为4096,第2个全连接层的输入端接收i
f1
,将第2个全连接层的输出端输出的尺寸为1
×1×
4096的特征向量记为i
f2
;第3个全连接层的输入通道数为4096、输出通道数为1,第3个全连接层的输入端接收i
f2
,第3个全连接层的输出端输出一个数值,该数值代表输入到图像质量评价网络中的rgb图像的质量预测分数;
7.上述,图像生成器网络包括1个第四卷积块、4个第五卷积块、4个第六卷积块、4个
第七卷积块、1个第八卷积块,由第四卷积块和4个第五卷积块构成图像生成器网络中的编码网络,由4个第六卷积块构成图像生成器网络中的通道注意力模块,由4个第七卷积块和第八卷积块构成图像生成器网络中的解码网络;第四卷积块的输入通道数为3、输出通道数为32,第四卷积块的输入端同时接收一幅尺寸为h
×
w的rgb图像的r、g、b三个通道,将第四卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
e1
;第1个第五卷积块的输入通道数为32、输出通道数为32,第1个第五卷积块的输入端接收i
e1
,将第1个第五卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
e2
;第2个第五卷积块的输入通道数为32、输出通道数为64,第2个第五卷积块的输入端接收i
e2
,将第2个第五卷积块的输出端输出的尺寸为的特征图记为i
e3
;第3个第五卷积块的输入通道数为64、输出通道数为128,第3个第五卷积块的输入端接收i
e3
,将第3个第五卷积块的输出端输出的尺寸为的特征图记为i
e4
;第4个第五卷积块的输入通道数为128、输出通道数为256,第4个第五卷积块的输入端接收i
e4
,将第4个第五卷积块的输出端输出的尺寸为的特征图记为i
e5
;第1个第六卷积块的输入通道数为32、输出通道数为32,第1个第六卷积块的输入端接收i
e2
,将第1个第六卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
c1
;第2个第六卷积块的输入通道数为64、输出通道数为64,第2个第六卷积块的输入端接收i
e3
,将第2个第六卷积块的输出端输出的尺寸为的特征图记为i
c2
;第3个第六卷积块的输入通道数为128、输出通道数为128,第3个第六卷积块的输入端接收i
e4
,将第3个第六卷积块的输出端输出的尺寸为的特征图记为i
c3
;第4个第六卷积块的输入通道数为256、输出通道数为256,第4个第六卷积块的输入端接收i
e5
,将第4个第六卷积块的输出端输出的尺寸为的特征图记为i
c4
;第1个第七卷积块的输入通道数为256、输出通道数为256,第1个第七卷积块的输入端接收i
e5
,将第1个第七卷积块的输出端输出的尺寸为的特征图记为i
d1
;第2个第七卷积块的输入通道数为512、输出通道数为128,第2个第七卷积块的输入端接收对i
d1
和i
c4
进行拼接操作后得到的尺寸为的特征图i
dc1
,将第2个第七卷积块的输出端输出的尺寸为的特征图记为i
d2
;第3个第七卷积块的输入通道数为256、输出通道数为64,第3个第七卷积块的输入端接收对i
d2
和i
c3
进行拼接操作后得到的尺寸为的特征图i
dc2
,将第3个第七卷积块的输出端输出的尺寸为的特征图记为i
d3
;第4个第七卷积块的输入通道数为128、输出通道数为32,第4
个第七卷积块的输入端接收对i
d3
和i
c2
进行拼接操作后得到的尺寸为的特征图i
dc3
,将第4个第七卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
d4
;第八卷积块的输入通道数为64、输出通道数为3,第八卷积块的输入端接收对i
d4
和i
c1
进行拼接操作后得到的尺寸为h
×w×
64的特征图i
dc4
,将第八卷积块的输出端输出的尺寸为h
×w×
3的特征图记为i
d5
,将i
d5
作为rgb图像对应的图像退化信息;对输入到图像生成器网络中的rgb图像与其对应的图像退化信息进行逐元素相加操作,将得到的图像作为图像生成器网络输出的增强结果图像;
8.上述,图像鉴别器网络包括5个第九卷积块和5个第十卷积块,由5个第九卷积块构成图像鉴别器网络中的编码网络,由5个第十卷积块构成图像鉴别器网络中的特征输出模块;第1个第九卷积块的输入通道数为3、输出通道数为32,第1个第九卷积块的输入端同时接收一幅尺寸为h
×
w的rgb图像的r、g、b三个通道,将第1个第九卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
dis1
;第2个第九卷积块的输入通道数为32、输出通道数为64,第2个第九卷积块的输入端接收i
dis1
,将第2个第九卷积块的输出端输出的尺寸为的特征图记为i
dis2
;第3个第九卷积块的输入通道数为64、输出通道数为128,第3个第九卷积块的输入端接收i
dis2
,将第3个第九卷积块的输出端输出的尺寸为的特征图记为i
dis3
;第4个第九卷积块的输入通道数为128、输出通道数为256,第4个第九卷积块的输入端接收i
dis3
,将第4个第九卷积块的输出端输出的尺寸为的特征图记为i
dis4
;第5个第九卷积块的输入通道数为256、输出通道数为512,第5个第九卷积块的输入端接收i
dis4
,将第5个第九卷积块的输出端输出的尺寸为的特征图记为i
dis5
;第1个第十卷积块的输入通道数为32、输出通道数为1,第1个第十卷积块的输入端接收i
dis1
,将第1个第十卷积块的输出端输出的尺寸为h
×w×
1的特征图记为i
dr1
;第2个第十卷积块的输入通道数为64、输出通道数为1,第2个第十卷积块的输入端接收i
dis2
,将第2个第十卷积块的输出端输出的尺寸为的特征图记为i
dr2
;第3个第十卷积块的输入通道数为128、输出通道数为1,第3个第十卷积块的输入端接收i
dis3
,将第3个第十卷积块的输出端输出的尺寸为的特征图记为i
dr3
;第4个第十卷积块的输入通道数为256、输出通道数为1,第4个第十卷积块的输入端接收i
dis4
,将第4个第十卷积块的输出端输出的尺寸为的特征图记为i
dr4
;第5个第十卷积块的输入通道数为512、输出通道数为1,第5个第十卷积块的输入端接收i
dis5
,将第5个第十卷积块的输出端输出的尺寸为的特征图记为i
dr5
;图像鉴别器网络的输出端输出i
dr1
、i
dr2
、i
dr3
、i
dr4
、i
dr5

9.所述的第一训练集的构建过程为:选取n1幅不同场景下的原始水下图像;然后采
用n2种不同的水下图像增强方法对每幅原始水下图像进行增强处理,得到每幅原始水下图像对应的n2幅水下增强图像,并将每幅原始水下图像对应的n2幅水下增强图像构成一个图像子集;再将每个图像子集中的n2幅水下增强图像排成一列,将每幅水下增强图像与位于其后的各幅水下增强图像两两组合成图像对,共得到(n
2-1)+(n
2-2)+

+1对图像对;最后将n1个图像子集共n1×
((n
2-1)+(n
2-2)+

+1)对图像对构成第一训练集;其中,n1≥100,n2≥10,原始水下图像和水下增强图像的尺寸为h
×
w,即原始水下图像和水下增强图像的高度为h且宽度为w。
10.所述的第二训练集的构建过程为:选取n3幅不同场景下的原始水下图像及n3幅不同场景下的自然图像构成第二训练集;其中,n3≥800,原始水下图像和自然图像的尺寸为h
×
w,即原始水下图像和自然图像的高度为h且宽度为w。
11.所述的图像质量评价网络训练模型的具体获取过程为:将第一训练集中的每对图像对的每幅水下增强图像的r、g、b三个通道同时输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,将针对任意一对图像对的质量损失函数值记为loss
quality
,loss
quality
=max(0,-r
×
(q
1-q2)+margin),在训练至少100轮后训练得到图像质量评价网络训练模型;其中,max()为取最大值函数,q1表示该对图像对的第1幅水下增强图像的r、g、b三个通道同时输入到图像质量评价网络中输出的质量预测分数,q2表示该对图像对的第2幅水下增强图像的r、g、b三个通道同时输入到图像质量评价网络中输出的质量预测分数,margin为常数,margin∈(0,1),r表示该对图像对的第1幅水下增强图像与第2幅水下增强图像的主观偏好值,若主观偏好于第1幅水下增强图像则r=1,若主观偏好于第2幅水下增强图像则r=-1。
12.所述的图像生成器网络训练模型和图像鉴别器网络训练模型的具体获取过程为:将第二训练集中的每幅原始水下图像的r、g、b三个通道同时输入到图像生成器网络中进行网络训练,每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像,随后将第二训练集中的每幅原始水下图像的r、g、b三个通道同时输入到图像鉴别器网络中进行网络训练,将第二训练集中的每幅原始水下图像对应的增强结果图像的r、g、b三个通道同时输入到图像鉴别器网络中进行网络训练,将第二训练集中的每幅自然图像输入到图像鉴别器网络中进行网络训练,每轮训练结束后先计算图像鉴别器网络的损失函数值,并记为lossd,在冻结图像鉴别器网络的参数后计算图像生成器网络的损失函数值,并记为lossg,交叉训练图像生成器网络和图像鉴别器网络各至少100轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型;其中,i
raw
表示第二训练集中的原始水下图像,p
raw
表示i
raw
的数据分布,i
result
表示第二训练集
中的原始水下图像对应的增强结果图像,即将第二训练集中的原始水下图像的r、g、b三个通道同时输入到图像生成器网络中输出的增强结果图像,p
result
表示表示i
result
的数据分布,i
nature
表示第二训练集中的自然图像,p
nature
表示i
nature
的数据分布,表示数学期望,d(i
raw
)表示将i
raw
的r、g、b三个通道同时输入到图像鉴别器网络中输出的特征图,d(i
result
)表示将i
result
的r、g、b三个通道同时输入到图像鉴别器网络中输出的特征图,d(i
nature
)表示将i
nature
的r、g、b三个通道同时输入到图像鉴别器网络中输出的特征图,表示数据分布损失函数值,布损失函数值,表示感知损失函数值,符号“||||
2”为求矩阵的2范数符号,表示感知损失网络即vgg-16网络,表示vgg-16网络中的第j层卷积层,表示将i
result
输入到vgg-16网络中第j层卷积层输出的特征图,表示将i
raw
输入到vgg-16网络中第j层卷积层输出的特征图,表示感知质量损失函数值,tanh()表示双曲正切函数,q(i
result
)表示将i
result
的r、g、b三个通道同时输入到图像质量评价网络训练模型中输出的i
result
的质量预测分数,q(i
raw
)表示将i
raw
的r、g、b三个通道同时输入到图像质量评价网络训练模型中输出的i
raw
的质量预测分数,表示保真度损失函数值,符号“|| ||
1”为求矩阵的1范数符号,g(i
nature
)表示将i
nature
的r、g、b三个通道同时输入到图像生成器网络中输出的生成结果图像。
13.所述的测试用水下图像的尺寸为h
×
w,即测试用水下图像的高度为h且宽度为w,将测试用水下图像的r、g、b三个通道同时输入到图像生成器网络训练模型中。
14.所述的第一卷积块由依次连接的第一卷积层和第一下采样层组成,第一卷积层的输入端为第一卷积块的输入端,第一下采样层的输入端接收第一卷积层的输出端输出的特征图,第一下采样层的输出端为第一卷积块的输出端;其中,第一卷积层的输入通道数为3、输出通道数为64、卷积核大小为7
×
7,第一下采样层的采样倍数为2倍;
15.所述的第二卷积块由第二卷积层、第三卷积层、第四卷积层、第五卷积层组成,第二卷积层的输入端和第五卷积层的输入端的公共连接端为其所在的第二卷积块的输入端,第三卷积层的输入端接收第二卷积层的输出端输出的特征图,第四卷积层的输入端接收第三卷积层的输出端输出的特征图,第二卷积块的输出端输出对第四卷积层的输出端输出的特征图与第五卷积层的输出端输出的特征图进行逐元素相加操作后得到的特征图;其中,第1个第二卷积块中:第二卷积层的输入通道数为64、输出通道数为64、卷积核大小为1
×
1,第三卷积层的输入通道数为64、输出通道数为64、卷积核大小为3
×
3,第四卷积层和第五卷积层的输入通道数为64、输出通道数为256、卷积核大小为1
×
1,第2个第二卷积块中:第二卷积层的输入通道数为256、输出通道数为128、卷积核大小为1
×
1,第三卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第四卷积层的输入通道数为128、输出通道
数为512、卷积核大小为1
×
1,第五卷积层的输入通道数为256、输出通道数为512、卷积核大小为1
×
1,第3个第二卷积块中:第二卷积层的输入通道数为512、输出通道数为256、卷积核大小为1
×
1,第三卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第四卷积层的输入通道数为256、输出通道数为1024、卷积核大小为1
×
1,第五卷积层的输入通道数为512、输出通道数为1024、卷积核大小为1
×
1,第4个第二卷积块中:第二卷积层的输入通道数为1024、输出通道数为512、卷积核大小为1
×
1,第三卷积层的输入通道数为512、输出通道数为512、卷积核大小为3
×
3,第四卷积层的输入通道数为512、输出通道数为2048、卷积核大小为1
×
1,第五卷积层的输入通道数为1024、输出通道数为2048、卷积核大小为1
×
1;
16.所述的第三卷积块由第六卷积层、第七卷积层、第八卷积层组成,第六卷积层的输入端为其所在的第三卷积块的输入端,第七卷积层的输入端接收第六卷积层的输出端输出的特征图,第八卷积层的输入端接收第七卷积层的输出端输出的特征图,第三卷积块的输出端输出对第八卷积层的输出端输出的特征图与第六卷积层的输入端接收的特征图进行逐元素相加操作后得到的特征图;其中,第1个第三卷积块和第2个第三卷积块中:第六卷积层的输入通道数为256、输出通道数为64、卷积核大小为1
×
1,第七卷积层的输入通道数为64、输出通道数为64、卷积核大小为3
×
3,第八卷积层的输入通道数为64、输出通道数为256、卷积核大小为1
×
1,第3个第三卷积块至第5个第三卷积块中:第六卷积层的输入通道数为512、输出通道数为128、卷积核大小为1
×
1,第七卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第八卷积层的输入通道数为128、输出通道数为512、卷积核大小为1
×
1,第6个第三卷积块至第10个第三卷积块中:第六卷积层的输入通道数为1024、输出通道数为256、卷积核大小为1
×
1,第七卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第八卷积层的输入通道数为256、输出通道数为1024、卷积核大小为1
×
1,第11个第三卷积块和第12个第三卷积块中:第六卷积层的输入通道数为2048、输出通道数为512、卷积核大小为1
×
1,第七卷积层的输入通道数为512、输出通道数为512、卷积核大小为3
×
3,第八卷积层的输入通道数为512、输出通道数为2048、卷积核大小为1
×
1。
17.所述的第四卷积块由依次连接的第九卷积层和第一relu激活层组成,第九卷积层的输入端为第四卷积块的输入端,第一relu激活层的输入端接收第九卷积层的输出端输出的特征图,第一relu激活层的输出端为第四卷积块的输出端,其中,第九卷积层的输入通道数为3、输出通道数为32、卷积核大小为7
×
7;
18.所述的第五卷积块由第十卷积层、第十一卷积层、第二relu激活层、第十二卷积层、第三relu激活层组成,第十卷积层的输入端为其所在的第五卷积块的输入端,第十一卷积层的输入端接收第十卷积层的输出端输出的特征图,第二relu激活层的输入端接收第十一卷积层的输出端输出的特征图,第十二卷积层的输入端接收第二relu激活层的输出端输出的特征图,第三relu激活层的输入端接收第十二卷积层的输出端输出的特征图,第五卷积块的输出端输出对第三relu激活层的输出端输出的特征图与第十卷积层的输出端输出的特征图进行逐元素相加操作后得到的特征图;其中,第1个第五卷积块中:第十卷积层、第十一卷积层和第十二卷积层的输入通道数均为32、输出通道数均为32、卷积核大小均为3
×
3,第2个第五卷积块中:第十卷积层的输入通道数为32、输出通道数为64、卷积核大小为3
×
3,第十一卷积层和第十二卷积层的输入通道数为64、输出通道数为64、卷积核大小为3
×
3,
第3个第五卷积块中:第十卷积层的输入通道数为64、输出通道数为128、卷积核大小为3
×
3,第十一卷积层和第十二卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第4个第五卷积块中:第十卷积层的输入通道数为128、输出通道数为256、卷积核大小为3
×
3,第十一卷积层和第十二卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3;
19.所述的第六卷积块由第一全局平均池化层、第4个全连接层、第5个全连接层、第6个全连接层、第7个全连接层、第四relu激活层、第五relu激活层、第一expand扩展层、第二expand扩展层、第十三卷积层组成,第一全局平均池化层的输入端为其所在的第六卷积块的输入端,第4个全连接层的输入端接收第一全局平均池化层的输出端输出的由通道全局均值组成的特征向量,第5个全连接层的输入端接收第一全局平均池化层的输出端输出的由通道全局均值组成的特征向量经计算得到的由通道标准差值组成的特征向量,第四relu激活层的输入端接收第4个全连接层的输出端输出的特征向量,第五relu激活层的输入端接收第5个全连接层的输出端输出的特征向量,第6个全连接层的输入端接收第四relu激活层的输出端输出的特征向量,第7个全连接层的输入端接收第五relu激活层的输出端输出的特征向量,第一expand扩展层的输入端接收第6个全连接层的输出端输出的特征向量,第二expand扩展层的输入端接收第7个全连接层的输出端输出的特征向量,对第一expand扩展层的输出端输出的特征图与第二expand扩展层的输出端输出的特征图进行逐元素相加操作,对逐元素相加操作后得到的特征图与所在的第六卷积块的输入端接收的特征图进行拼接,第十三卷积层的输入端接收拼接结果,第十三卷积层的输出端为其所在的第六卷积块的输出端;其中,第1个第六卷积块中:第一全局平均池化层的输入尺寸为h
×w×
32、输出尺寸为1
×1×
32,第4个全连接层和第5个全连接层的输入通道数为32、输出通道数为4,第6个全连接层和第7个全连接层的输入通道数为4、输出通道数为32,第一expand扩展层和第二expand扩展层的输入通道数为32、输出通道数为32,第十三卷积层的输入通道数为64、输出通道数为32、卷积核大小为3
×
3,第2个第六卷积块中:第一全局平均池化层的输入尺寸为输出尺寸为1
×1×
64,第4个全连接层和第5个全连接层的输入通道数为64、输出通道数为8,第6个全连接层和第7个全连接层的输入通道数为8、输出通道数为64,第一expand扩展层和第二expand扩展层的输入通道数为64、输出通道数为64,第十三卷积层的输入通道数为128、输出通道数为64、卷积核大小为3
×
3,第3个第六卷积块中:第一全局平均池化层的输入尺寸为输出尺寸为1
×1×
128,第4个全连接层和第5个全连接层的输入通道数为128、输出通道数为16,第6个全连接层和第7个全连接层的输入通道数为16、输出通道数为128,第一expand扩展层和第二expand扩展层的输入通道数为128、输出通道数为128,第十三卷积层的输入通道数为256、输出通道数为128、卷积核大小为3
×
3,第4个第六卷积块中:第一全局平均池化层的输入尺寸为输出尺寸为1
×1×
256,第4个全连接层和第5个全连接层的输入通道数为256、输出通道数为32,第6个全连接层和第7个全连接层的输入通道数为32、输出通道数为256,第一expand扩展层和第二expand扩展层的输入通道数为256、输出通道数为256,第十三卷积层的输入通道数为512、
输出通道数为256、卷积核大小为3
×
3;
20.所述的第七卷积块由第十四卷积层、第六relu激活层、第十五卷积层、第七relu激活层、第一上采样层、第十六卷积层组成,第十四卷积层的输入端为其所在的第七卷积块的输入端,第六relu激活层的输入端接收第十四卷积层的输出端输出的特征图,第十五卷积层的输入端接收第六relu激活层的输出端输出的特征图,第七relu激活层的输入端接收第十五卷积层的输出端输出的特征图,第一上采样层的输入端接收对第七relu激活层的输出端输出的特征图与所在的第七卷积块的输入端接收的特征图进行逐元素相加操作后得到的特征图,第十六卷积层的输入端接收第一上采样层的输出端输出的特征图,第十六卷积层的输出端为其所在的第七卷积块的输出端;其中,第1个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第十六卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第2个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为512、输出通道数为512、卷积核大小为3
×
3,第十六卷积层的输入通道数为512、输出通道数为128、卷积核大小为3
×
3,第3个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第十六卷积层的输入通道数为256、输出通道数为64、卷积核大小为3
×
3,第4个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第十六卷积层的输入通道数为128、输出通道数为32、卷积核大小为3
×
3,第1个第七卷积块中的第一上采样层的采样倍数为1倍,第2个第七卷积块至第4个第七卷积块中的第一上采样层的采样倍数为2倍;
21.所述的第八卷积块由依次连接的第十七卷积层和第八relu激活层组成,第十七卷积层的输入端为第八卷积块的输入端,第八relu激活层的输入端接收第十七卷积层的输出端输出的特征图,第八relu激活层的输出端为第八卷积块的输出端;其中,第十七卷积层的输入通道数为64、输出通道数为3、卷积核大小为3
×
3。
22.所述的第九卷积块由依次连接的第十八卷积层和第九relu激活层组成,第十八卷积层的输入端为其所在的第九卷积块的输入端,第九relu激活层的输入端接收第十八卷积层的输出端输出的特征图,第九relu激活层的输出端为其所在的第九卷积块的输出端;其中,第1个第九卷积块中的第十八卷积层的输入通道数为3、输出通道数为32、卷积核大小为7
×
7,第2个第九卷积块中的第十八卷积层的输入通道数为32、输出通道数为64、卷积核大小为7
×
7,第3个第九卷积块中的第十八卷积层的输入通道数为64、输出通道数为128、卷积核大小为7
×
7,第4个第九卷积块中的第十八卷积层的输入通道数为128、输出通道数为256、卷积核大小为5
×
5,第5个第九卷积块中的第十八卷积层的输入通道数为256、输出通道数为512、卷积核大小为5
×
5;
23.所述的第十卷积块由依次连接的第十九卷积层和第十relu激活层组成,第十九卷积层的输入端为其所在的第十卷积块的输入端,第十relu激活层的输入端接收第十九卷积层的输出端输出的特征图,第十relu激活层的输出端为其所在的第十卷积块的输出端;其中,第1个第十卷积块中的第十九卷积层的输入通道数为32、输出通道数为1、卷积核大小为7
×
7,第2个第十卷积块中的第十九卷积层的输入通道数为64、输出通道数为1、卷积核大小为7
×
7,第3个第十卷积块中的第十九卷积层的输入通道数为128、输出通道数为1、卷积核大小为7
×
7,第4个第十卷积块中的第十九卷积层的输入通道数为256、输出通道数为1、卷
积核大小为5
×
5,第5个第十卷积块中的第十九卷积层的输入通道数为512、输出通道数为1、卷积核大小为5
×
5。
24.与现有技术相比,本发明的优点在于:
25.1)本发明方法为了能够在缺乏标签图像的情况下对图像生成器网络进行网络训练,使用了由图像生成器网络和图像鉴别器网络构成的生成对抗网络作为基础结构,通过图像生成器网络与图像鉴别器网络之间的相互博弈,促使图像生成器网络能够学习自然图像的数据分布特性,自发的使得任意水下图像能够向自然图像的数据分布靠拢,这一结构的使用使得图像生成器网络可以在缺乏标签图像的情况下,使用任意场景下的原始水下图像进行网络训练,这使得本发明方法相比使用伪标签的有监督水下图像增强算法拥有更佳优秀的泛化能力。
26.2)本发明方法利用具有成对比较质量信息的数据训练图像质量评价网络,用以模拟人类主观感知,训练得到的图像质量评价网络训练模型能够准确测试得到不同水下图像的质量预测分数,本发明方法将质量预测分数设计为一种全新的感知质量损失函数并用于增强图像生成器网络的训练,借此感知质量损失函数的驱动下,图像生成器网络能够输出更符合人类感知期待的结果,实验结果表明,在引入人类感知的限制的情况下,本发明方法在增强水下图像质量方面与人类对水下图像的感知质量具有更高的一致性。
27.3)本发明方法根据水下图像的失真特性:色偏以及低对比度,设计了一种全新的通道注意力模块,该模块通过对全局数据的计算,得到原始水下图像的相应特征,并在图像生成器网络的编解码过程中进行引导,使得图像生成器网络能够对水下图像的这两大严重问题(色偏以及低对比度)进行针对性的处理,得到更好的增强结果。
28.4)本发明方法在感知驱动下使用无标签图像训练图像生成器网络,使得其能够在任意水下图像的增强上展现出良好的泛化能力,从而能够有效地提高增强结果的主观感知和客观评价分数。
附图说明
29.图1为本发明方法的总体实现框架图;
30.图2为本发明方法中构建的图像质量评价网络的框架图;
31.图3为本发明方法中构建的图像生成器网络的框架图;
32.图4为本发明方法中构建的图像鉴别器网络的框架图。
具体实施方式
33.以下结合附图实施例对本发明作进一步详细描述。
34.本发明提出的一种基于感知驱动的弱监督水下图像增强方法,其包括训练阶段和测试阶段,其总体实现框架图如图1所示,其在训练阶段中,首先构建一个第一训练集和一个第二训练集,第一训练集包含数个图像子集,每个图像子集包含数对图像对,每对图像对有两幅水下增强图像,不同图像子集中的水下增强图像的场景各不相同,同一个图像子集中的水下增强图像的场景为同一个场景,每对图像对的两幅水下增强图像所采用的水下图像增强方法不同,第二训练集包含数幅不同场景下的原始水下图像和相同数量的不同场景下的自然图像,其中,水下增强图像、原始水下图像和自然图像的尺寸相同,自然图像为陆
地上捕获的图像;并构建三个神经网络,第1个神经网络作为图像质量评价网络,第2个神经网络作为图像生成器网络,第3个神经网络作为图像鉴别器网络;然后将第一训练集中的每对图像对的每幅水下增强图像输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,在多轮训练结束后训练得到图像质量评价网络训练模型;再将第二训练集中的每幅原始水下图像输入到图像生成器网络中进行网络训练,每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像,随后将第二训练集中的每幅原始水下图像和对应的增强结果图像以及一幅自然图像分别输入到图像鉴别器网络中进行网络训练,每轮训练结束后先计算图像鉴别器网络的损失函数值,后计算图像生成器网络的损失函数值,交叉训练图像生成器网络和图像鉴别器网络多轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型,其中,计算图像生成器网络的损失函数值时考虑了将第二训练集中的原始水下图像输入到图像质量评价网络训练模型中输出的原始水下图像的质量预测分数以及将第二训练集中的原始水下图像对应的增强结果图像输入到图像质量评价网络训练模型中输出的增强结果图像的质量预测分数;在测试阶段中,将测试用水下图像输入到图像生成器网络训练模型中,图像生成器网络训练模型输出测试用水下图像的增强结果。
35.上述,图像质量评价网络如图2所示,包括1个第一卷积块、4个第二卷积块、12个第三卷积块、1个全局平均池化模型、3个全连接层,由1个第一卷积块、4个第二卷积块、12个第三卷积块构成图像质量评价网络中的编码网络,由1个全局平均池化模型和3个全连接层构成图像质量评价网络中的回归网络;第一卷积块的输入通道数为3、输出通道数为64,第一卷积块的输入端同时接收一幅尺寸为h
×
w的rgb图像的r、g、b三个通道,将第一卷积块的输出端输出的尺寸为的特征图记为i
q1
;第1个第二卷积块的输入通道数为64、输出通道数为256,第1个第二卷积块的输入端接收i
q1
,将第1个第二卷积块的输出端输出的尺寸为的特征图记为i
q2
;第1个第三卷积块的输入通道数为256、输出通道数为256,第1个第三卷积块的输入端接收i
q2
,将第1个第三卷积块的输出端输出的尺寸为的特征图记为i
q3
;第2个第三卷积块的输入通道数为256、输出通道数为256,第2个第三卷积块的输入端接收i
q3
,将第2个第三卷积块的输出端输出的尺寸为的特征图记为i
q4
;第2个第二卷积块的输入通道数为256、输出通道数为512,第2个第二卷积块的输入端接收i
q4
,将第2个第二卷积块的输出端输出的尺寸为的特征图记为i
q5
;第3个第三卷积块的输入通道数为512、输出通道数为512,第3个第三卷积块的输入端接收i
q5
,将第3个第三卷积块的输出端输出的尺寸为的特征图记为i
q6
;第4个第三卷积块的输入通道数为512、输出通道数为512,第4个第三卷积块的输入端接收i
q6
,将第4个
第三卷积块的输出端输出的尺寸为的特征图记为i
q7
;第5个第三卷积块的输入通道数为512、输出通道数为512,第5个第三卷积块的输入端接收i
q7
,将第5个第三卷积块的输出端输出的尺寸为的特征图记为i
q8
;第3个第二卷积块的输入通道数为512、输出通道数为1024,第3个第二卷积块的输入端接收i
q8
,将第3个第二卷积块的输出端输出的尺寸为的特征图记为i
q9
;第6个第三卷积块的输入通道数为1024、输出通道数为1024,第6个第三卷积块的输入端接收i
q9
,将第6个第三卷积块的输出端输出的尺寸为的特征图记为i
q10
;第7个第三卷积块的输入通道数为1024、输出通道数为1024,第7个第三卷积块的输入端接收i
q10
,将第7个第三卷积块的输出端输出的尺寸为的特征图记为i
q11
;第8个第三卷积块的输入通道数为1024、输出通道数为1024,第8个第三卷积块的输入端接收i
q11
,将第8个第三卷积块的输出端输出的尺寸为的特征图记为i
q12
;第9个第三卷积块的输入通道数为1024、输出通道数为1024,第9个第三卷积块的输入端接收i
q12
,将第9个第三卷积块的输出端输出的尺寸为的特征图记为i
q13
;第10个第三卷积块的输入通道数为1024、输出通道数为1024,第10个第三卷积块的输入端接收i
q13
,将第10个第三卷积块的输出端输出的尺寸为的特征图记为i
q14
;第4个第二卷积块的输入通道数为1024、输出通道数为2048,第4个第二卷积块的输入端接收i
q14
,将第4个第二卷积块的输出端输出的尺寸为的特征图记为i
q15
;第11个第三卷积块的输入通道数为2048、输出通道数为2048,第11个第三卷积块的输入端接收i
q15
,将第11个第三卷积块的输出端输出的尺寸为的特征图记为i
q16
;第12个第三卷积块的输入通道数为2048、输出通道数为2048,第12个第三卷积块的输入端接收i
q16
,将第12个第三卷积块的输出端输出的尺寸为的特征图记为i
q17
;全局平均池化模型的输入通道数为2048、输出通道数为2048,全局平均池化模型的输入端接收i
q17
,将全局平均池化模型的输出端输出的尺寸为1
×1×
2048的特征向量记为i
gap1
;第1个全连接层的输入通道数为2048、输出通道数为4096,第1个全连接层的输入端接收i
gap1
,将第1个全连接层的输出端输出的尺寸为1
×1×
2048的特征向量记为i
f1
;第2个全连接层的输入通道数为4096、输出通道数为4096,第2个全连接层的输入端接收i
f1
,将第2个全连接层的输出端输出的尺寸为1
×1×
4096的特征向量记为i
f2
;第3个全连接层的输入通道数为4096、输出通道数为1,第3个全连接层的输入端接收if2
,第3个全连接层的输出端输出一个数值,该数值代表输入到图像质量评价网络中的rgb图像的质量预测分数;其中,全局平均池化模型为神经网络中的常规技术,在文献lin m,chen q,yan s.network in network[j].computer science,2013.(网络中的网络,计算机科学)中有记载。
[0036]
上述,图像生成器网络如图3所示,包括1个第四卷积块、4个第五卷积块、4个第六卷积块、4个第七卷积块、1个第八卷积块,由第四卷积块和4个第五卷积块构成图像生成器网络中的编码网络,由4个第六卷积块构成图像生成器网络中的通道注意力模块,由4个第七卷积块和第八卷积块构成图像生成器网络中的解码网络;第四卷积块的输入通道数为3、输出通道数为32,第四卷积块的输入端同时接收一幅尺寸为h
×
w的rgb图像的r、g、b三个通道,将第四卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
e1
;第1个第五卷积块的输入通道数为32、输出通道数为32,第1个第五卷积块的输入端接收i
e1
,将第1个第五卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
e2
;第2个第五卷积块的输入通道数为32、输出通道数为64,第2个第五卷积块的输入端接收i
e2
,将第2个第五卷积块的输出端输出的尺寸为的特征图记为i
e3
;第3个第五卷积块的输入通道数为64、输出通道数为128,第3个第五卷积块的输入端接收i
e3
,将第3个第五卷积块的输出端输出的尺寸为的特征图记为i
e4
;第4个第五卷积块的输入通道数为128、输出通道数为256,第4个第五卷积块的输入端接收i
e4
,将第4个第五卷积块的输出端输出的尺寸为的特征图记为i
e5
;第1个第六卷积块的输入通道数为32、输出通道数为32,第1个第六卷积块的输入端接收i
e2
,将第1个第六卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
c1
;第2个第六卷积块的输入通道数为64、输出通道数为64,第2个第六卷积块的输入端接收i
e3
,将第2个第六卷积块的输出端输出的尺寸为的特征图记为i
c2
;第3个第六卷积块的输入通道数为128、输出通道数为128,第3个第六卷积块的输入端接收i
e4
,将第3个第六卷积块的输出端输出的尺寸为的特征图记为i
c3
;第4个第六卷积块的输入通道数为256、输出通道数为256,第4个第六卷积块的输入端接收i
e5
,将第4个第六卷积块的输出端输出的尺寸为的特征图记为i
c4
;第1个第七卷积块的输入通道数为256、输出通道数为256,第1个第七卷积块的输入端接收i
e5
,将第1个第七卷积块的输出端输出的尺寸为的特征图记为i
d1
;第2个第七卷积块的输入通道数为512、输出通道数为128,第2个第七卷积块的输入端接收对i
d1
和i
c4
进行拼接操作后得到的尺寸为的特征图i
dc1
,将第2个第七卷积块的输出端输出的尺寸为的特征图记为i
d2
;第3个第七卷积块的输入通道数为256、输出通道数为64,第3个第七卷积块的输入端接收对i
d2
和i
c3
进行拼接操作
后得到的尺寸为的特征图i
dc2
,将第3个第七卷积块的输出端输出的尺寸为的特征图记为i
d3
;第4个第七卷积块的输入通道数为128、输出通道数为32,第4个第七卷积块的输入端接收对i
d3
和i
c2
进行拼接操作后得到的尺寸为的特征图i
dc3
,将第4个第七卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
d4
;第八卷积块的输入通道数为64、输出通道数为3,第八卷积块的输入端接收对i
d4
和i
c1
进行拼接操作后得到的尺寸为h
×w×
64的特征图i
dc4
,将第八卷积块的输出端输出的尺寸为h
×w×
3的特征图记为i
d5
,将i
d5
作为rgb图像对应的图像退化信息;对输入到图像生成器网络中的rgb图像与其对应的图像退化信息进行逐元素相加操作,将得到的图像作为图像生成器网络输出的增强结果图像;其中,拼接操作和逐元素相加操作是神经网络中的常规操作。
[0037]
上述,图像鉴别器网络如图4所示,包括5个第九卷积块和5个第十卷积块,由5个第九卷积块构成图像鉴别器网络中的编码网络,由5个第十卷积块构成图像鉴别器网络中的特征输出模块;第1个第九卷积块的输入通道数为3、输出通道数为32,第1个第九卷积块的输入端同时接收一幅尺寸为h
×
w的rgb图像的r、g、b三个通道,将第1个第九卷积块的输出端输出的尺寸为h
×w×
32的特征图记为i
dis1
;第2个第九卷积块的输入通道数为32、输出通道数为64,第2个第九卷积块的输入端接收i
dis1
,将第2个第九卷积块的输出端输出的尺寸为的特征图记为i
dis2
;第3个第九卷积块的输入通道数为64、输出通道数为128,第3个第九卷积块的输入端接收i
dis2
,将第3个第九卷积块的输出端输出的尺寸为的特征图记为i
dis3
;第4个第九卷积块的输入通道数为128、输出通道数为256,第4个第九卷积块的输入端接收i
dis3
,将第4个第九卷积块的输出端输出的尺寸为的特征图记为i
dis4
;第5个第九卷积块的输入通道数为256、输出通道数为512,第5个第九卷积块的输入端接收i
dis4
,将第5个第九卷积块的输出端输出的尺寸为的特征图记为i
dis5
;第1个第十卷积块的输入通道数为32、输出通道数为1,第1个第十卷积块的输入端接收i
dis1
,将第1个第十卷积块的输出端输出的尺寸为h
×w×
1的特征图记为i
dr1
;第2个第十卷积块的输入通道数为64、输出通道数为1,第2个第十卷积块的输入端接收i
dis2
,将第2个第十卷积块的输出端输出的尺寸为的特征图记为i
dr2
;第3个第十卷积块的输入通道数为128、输出通道数为1,第3个第十卷积块的输入端接收i
dis3
,将第3个第十卷积块的输出端输出的尺寸为的特征图记为i
dr3
;第4个第十卷积块的输入通道数为256、输出通道数为1,第4个第十卷积块的输入端接收i
dis4
,将第4个第十卷
积块的输出端输出的尺寸为的特征图记为i
dr4
;第5个第十卷积块的输入通道数为512、输出通道数为1,第5个第十卷积块的输入端接收i
dis5
,将第5个第十卷积块的输出端输出的尺寸为的特征图记为i
dr5
;图像鉴别器网络的输出端输出i
dr1
、i
dr2
、i
dr3
、i
dr4
、i
dr5

[0038]
在一个实施例中,第一训练集的构建过程为:选取n1幅不同场景下的原始水下图像;然后采用n2种不同的水下图像增强方法对每幅原始水下图像进行增强处理,得到每幅原始水下图像对应的n2幅水下增强图像,并将每幅原始水下图像对应的n2幅水下增强图像构成一个图像子集;再将每个图像子集中的n2幅水下增强图像排成一列,将每幅水下增强图像与位于其后的各幅水下增强图像两两组合成图像对,共得到(n
2-1)+(n
2-2)+

+1对图像对;最后将n1个图像子集共n1×
((n
2-1)+(n
2-2)+

+1)对图像对构成第一训练集;其中,n1≥100,n2≥10,原始水下图像和水下增强图像的尺寸为h
×
w,即原始水下图像和水下增强图像的高度为h且宽度为w,n2种不同的水下图像增强方法均为现有方法,但不限于具体采用哪几种。
[0039]
在一个实施例中,第二训练集的构建过程为:选取n3幅不同场景下的原始水下图像及n3幅不同场景下的自然图像构成第二训练集;其中,n3≥800,原始水下图像和自然图像的尺寸为h
×
w,即原始水下图像和自然图像的高度为h且宽度为w。
[0040]
在一个实施例中,图像质量评价网络训练模型的具体获取过程为:将第一训练集中的每对图像对的每幅水下增强图像的r、g、b三个通道同时输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,将针对任意一对图像对的质量损失函数值记为loss
quality
,loss
quality
=max(0,-r
×
(q
1-q2)+margin),在训练至少100轮后训练得到图像质量评价网络训练模型;其中,max()为取最大值函数,q1表示该对图像对的第1幅水下增强图像的r、g、b三个通道同时输入到图像质量评价网络中输出的质量预测分数,q2表示该对图像对的第2幅水下增强图像的r、g、b三个通道同时输入到图像质量评价网络中输出的质量预测分数,margin为常数,margin∈(0,1),在本实施例中取margin=0.5,r表示该对图像对的第1幅水下增强图像与第2幅水下增强图像的主观偏好值,若主观偏好于第1幅水下增强图像则r=1,若主观偏好于第2幅水下增强图像则r=-1,主观偏好值采用现有的成对比较质量的方法来获得,这种方法是一个国际通用标准,这个标准在参考文献r.i.-r.bt,“methodology for the subjective assessment of the quality of television pictures,”international telecommunication union,200(电视图像质量的主观评价方法)中已有记载。
[0041]
在一个实施例中,图像生成器网络训练模型和图像鉴别器网络训练模型的具体获取过程为:将第二训练集中的每幅原始水下图像的r、g、b三个通道同时输入到图像生成器网络中进行网络训练,每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像,随后将第二训练集中的每幅原始水下图像的r、g、b三个通道同时输入到图像鉴别器网络中进行网络训练,将第二训练集中的每幅原始水下图像对应的增强结果图像的r、g、b三个通道同时输入到图像鉴别器网络中进行网络训练,将第二训练集
中的每幅自然图像输入到图像鉴别器网络中进行网络训练,每轮训练结束后先计算图像鉴别器网络的损失函数值,并记为lossd,在冻结图像鉴别器网络的参数后计算图像生成器网络的损失函数值,并记为lossg,交叉训练图像生成器网络和图像鉴别器网络各至少100轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型;其中,i
raw
表示第二训练集中的原始水下图像,p
raw
表示i
raw
的数据分布,i
result
表示第二训练集中的原始水下图像对应的增强结果图像,即将第二训练集中的原始水下图像的r、g、b三个通道同时输入到图像生成器网络中输出的增强结果图像,p
result
表示表示i
result
的数据分布,i
nature
表示第二训练集中的自然图像,p
nature
表示i
nature
的数据分布,表示数学期望,数学期望的表达式为现有生成对抗网络中的常用表达式且的表达式为现有生成对抗网络中的常用表达式且的表达方式已在参考文献z.ni,w.yang,s.wang,l.ma,and s.kwong,“towards unsupervised deep image enhancement with generative adversarial network,”ieee transactions on image processing,vol.29,pp.9140

9151(借助生成对抗网络实现无监督的深度图像增强)中记载,d(i
raw
)表示将i
raw
的r、g、b三个通道同时输入到图像鉴别器网络中输出的特征图,d(i
result
)表示将i
result
的r、g、b三个通道同时输入到图像鉴别器网络中输出的特征图,d(i
nature
)表示将i
nature
的r、g、b三个通道同时输入到图像鉴别器网络中输出的特征图,表示数据分布损失函数值,表示数据分布损失函数值,表示感知损失函数值,符号“|| ||
2”为求矩阵的2范数符号,表示感知损失网络即vgg-16(visual geometry group network)网络,表示vgg-16网络中的第j层卷积层,表示将i
result
输入到vgg-16网络中第j层卷积层输出的特征图,表示将i
raw
输入到vgg-16网络中第j层卷积层输出的特征图,表示感知质量损失函数值,tanh()表示双曲正切函数,q(i
result
)表示将i
result
的r、g、b三个通道同时输入到图像质量评价网络训练模型中输出的i
result
的质量预测分数,q(i
raw
)表示将i
raw
的r、g、b三个通道同时输入到图像质量评价网络训练模型中输出的i
raw
的质量预测分数,表示保真度损失函数值,符号“|| ||
1”为求矩阵的1范数符号,g(i
nature
)表示将i
nature
的r、g、b三个通道同时输入到图像生成器网络中输出的生成结果图像。
[0042]
在一个实施例中,测试用水下图像的尺寸为h
×
w,即测试用水下图像的高度为h且
宽度为w,将测试用水下图像的r、g、b三个通道同时输入到图像生成器网络训练模型中。
[0043]
在一个实施例中,第一卷积块由依次连接的第一卷积层和第一下采样层组成,第一卷积层的输入端为第一卷积块的输入端,第一下采样层的输入端接收第一卷积层的输出端输出的特征图,第一下采样层的输出端为第一卷积块的输出端;其中,第一卷积层的输入通道数为3、输出通道数为64、卷积核大小为7
×
7,第一下采样层的采样倍数为2倍。
[0044]
在一个实施例中,第二卷积块由第二卷积层、第三卷积层、第四卷积层、第五卷积层组成,第二卷积层的输入端和第五卷积层的输入端的公共连接端为其所在的第二卷积块的输入端,第三卷积层的输入端接收第二卷积层的输出端输出的特征图,第四卷积层的输入端接收第三卷积层的输出端输出的特征图,第二卷积块的输出端输出对第四卷积层的输出端输出的特征图与第五卷积层的输出端输出的特征图进行逐元素相加操作后得到的特征图;其中,第1个第二卷积块中:第二卷积层的输入通道数为64、输出通道数为64、卷积核大小为1
×
1,第三卷积层的输入通道数为64、输出通道数为64、卷积核大小为3
×
3,第四卷积层和第五卷积层的输入通道数为64、输出通道数为256、卷积核大小为1
×
1,第2个第二卷积块中:第二卷积层的输入通道数为256、输出通道数为128、卷积核大小为1
×
1,第三卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第四卷积层的输入通道数为128、输出通道数为512、卷积核大小为1
×
1,第五卷积层的输入通道数为256、输出通道数为512、卷积核大小为1
×
1,第3个第二卷积块中:第二卷积层的输入通道数为512、输出通道数为256、卷积核大小为1
×
1,第三卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第四卷积层的输入通道数为256、输出通道数为1024、卷积核大小为1
×
1,第五卷积层的输入通道数为512、输出通道数为1024、卷积核大小为1
×
1,第4个第二卷积块中:第二卷积层的输入通道数为1024、输出通道数为512、卷积核大小为1
×
1,第三卷积层的输入通道数为512、输出通道数为512、卷积核大小为3
×
3,第四卷积层的输入通道数为512、输出通道数为2048、卷积核大小为1
×
1,第五卷积层的输入通道数为1024、输出通道数为2048、卷积核大小为1
×
1。
[0045]
在一个实施例中,第三卷积块由第六卷积层、第七卷积层、第八卷积层组成,第六卷积层的输入端为其所在的第三卷积块的输入端,第七卷积层的输入端接收第六卷积层的输出端输出的特征图,第八卷积层的输入端接收第七卷积层的输出端输出的特征图,第三卷积块的输出端输出对第八卷积层的输出端输出的特征图与第六卷积层的输入端接收的特征图进行逐元素相加操作后得到的特征图;其中,第1个第三卷积块和第2个第三卷积块中:第六卷积层的输入通道数为256、输出通道数为64、卷积核大小为1
×
1,第七卷积层的输入通道数为64、输出通道数为64、卷积核大小为3
×
3,第八卷积层的输入通道数为64、输出通道数为256、卷积核大小为1
×
1,第3个第三卷积块至第5个第三卷积块中:第六卷积层的输入通道数为512、输出通道数为128、卷积核大小为1
×
1,第七卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第八卷积层的输入通道数为128、输出通道数为512、卷积核大小为1
×
1,第6个第三卷积块至第10个第三卷积块中:第六卷积层的输入通道数为1024、输出通道数为256、卷积核大小为1
×
1,第七卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第八卷积层的输入通道数为256、输出通道数为1024、卷积核大小为1
×
1,第11个第三卷积块和第12个第三卷积块中:第六卷积层的输入通道数为2048、输出通道数为512、卷积核大小为1
×
1,第七卷积层的输入通道数为512、输出通道数为512、卷
积核大小为3
×
3,第八卷积层的输入通道数为512、输出通道数为2048、卷积核大小为1
×
1。
[0046]
在一个实施例中,第四卷积块由依次连接的第九卷积层和第一relu激活层组成,第九卷积层的输入端为第四卷积块的输入端,第一relu激活层的输入端接收第九卷积层的输出端输出的特征图,第一relu激活层的输出端为第四卷积块的输出端,其中,第九卷积层的输入通道数为3、输出通道数为32、卷积核大小为7
×
7。
[0047]
在一个实施例中,第五卷积块由第十卷积层、第十一卷积层、第二relu激活层、第十二卷积层、第三relu激活层组成,第十卷积层的输入端为其所在的第五卷积块的输入端,第十一卷积层的输入端接收第十卷积层的输出端输出的特征图,第二relu激活层的输入端接收第十一卷积层的输出端输出的特征图,第十二卷积层的输入端接收第二relu激活层的输出端输出的特征图,第三relu激活层的输入端接收第十二卷积层的输出端输出的特征图,第五卷积块的输出端输出对第三relu激活层的输出端输出的特征图与第十卷积层的输出端输出的特征图进行逐元素相加操作后得到的特征图;其中,第1个第五卷积块中:第十卷积层、第十一卷积层和第十二卷积层的输入通道数均为32、输出通道数均为32、卷积核大小均为3
×
3,第2个第五卷积块中:第十卷积层的输入通道数为32、输出通道数为64、卷积核大小为3
×
3,第十一卷积层和第十二卷积层的输入通道数为64、输出通道数为64、卷积核大小为3
×
3,第3个第五卷积块中:第十卷积层的输入通道数为64、输出通道数为128、卷积核大小为3
×
3,第十一卷积层和第十二卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第4个第五卷积块中:第十卷积层的输入通道数为128、输出通道数为256、卷积核大小为3
×
3,第十一卷积层和第十二卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3。
[0048]
在一个实施例中,第六卷积块由第一全局平均池化层、第4个全连接层、第5个全连接层、第6个全连接层、第7个全连接层、第四relu激活层、第五relu激活层、第一expand扩展层、第二expand扩展层、第十三卷积层组成,第一全局平均池化层的输入端为其所在的第六卷积块的输入端,第4个全连接层的输入端接收第一全局平均池化层的输出端输出的由通道全局均值组成的特征向量,第5个全连接层的输入端接收第一全局平均池化层的输出端输出的由通道全局均值组成的特征向量经计算得到的由通道标准差值组成的特征向量,第四relu激活层的输入端接收第4个全连接层的输出端输出的特征向量,第五relu激活层的输入端接收第5个全连接层的输出端输出的特征向量,第6个全连接层的输入端接收第四relu激活层的输出端输出的特征向量,第7个全连接层的输入端接收第五relu激活层的输出端输出的特征向量,第一expand扩展层的输入端接收第6个全连接层的输出端输出的特征向量,第二expand扩展层的输入端接收第7个全连接层的输出端输出的特征向量,对第一expand扩展层的输出端输出的特征图与第二expand扩展层的输出端输出的特征图进行逐元素相加操作,对逐元素相加操作后得到的特征图与所在的第六卷积块的输入端接收的特征图进行拼接,第十三卷积层的输入端接收拼接结果,第十三卷积层的输出端为其所在的第六卷积块的输出端;其中,第1个第六卷积块中:第一全局平均池化层的输入尺寸为h
×w×
32、输出尺寸为1
×1×
32,第4个全连接层和第5个全连接层的输入通道数为32、输出通道数为4,第6个全连接层和第7个全连接层的输入通道数为4、输出通道数为32,第一expand扩展层和第二expand扩展层的输入通道数为32、输出通道数为32,第十三卷积层的输入通道数为64、输出通道数为32、卷积核大小为3
×
3,第2个第六卷积块中:第一全局平均池化层的
输入尺寸为输出尺寸为1
×1×
64,第4个全连接层和第5个全连接层的输入通道数为64、输出通道数为8,第6个全连接层和第7个全连接层的输入通道数为8、输出通道数为64,第一expand扩展层和第二expand扩展层的输入通道数为64、输出通道数为64,第十三卷积层的输入通道数为128、输出通道数为64、卷积核大小为3
×
3,第3个第六卷积块中:第一全局平均池化层的输入尺寸为输出尺寸为1
×1×
128,第4个全连接层和第5个全连接层的输入通道数为128、输出通道数为16,第6个全连接层和第7个全连接层的输入通道数为16、输出通道数为128,第一expand扩展层和第二expand扩展层的输入通道数为128、输出通道数为128,第十三卷积层的输入通道数为256、输出通道数为128、卷积核大小为3
×
3,第4个第六卷积块中:第一全局平均池化层的输入尺寸为输出尺寸为1
×1×
256,第4个全连接层和第5个全连接层的输入通道数为256、输出通道数为32,第6个全连接层和第7个全连接层的输入通道数为32、输出通道数为256,第一expand扩展层和第二expand扩展层的输入通道数为256、输出通道数为256,第十三卷积层的输入通道数为512、输出通道数为256、卷积核大小为3
×
3。
[0049]
在一个实施例中,第七卷积块由第十四卷积层、第六relu激活层、第十五卷积层、第七relu激活层、第一上采样层、第十六卷积层组成,第十四卷积层的输入端为其所在的第七卷积块的输入端,第六relu激活层的输入端接收第十四卷积层的输出端输出的特征图,第十五卷积层的输入端接收第六relu激活层的输出端输出的特征图,第七relu激活层的输入端接收第十五卷积层的输出端输出的特征图,第一上采样层的输入端接收对第七relu激活层的输出端输出的特征图与所在的第七卷积块的输入端接收的特征图进行逐元素相加操作后得到的特征图,第十六卷积层的输入端接收第一上采样层的输出端输出的特征图,第十六卷积层的输出端为其所在的第七卷积块的输出端;其中,第1个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第十六卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第2个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为512、输出通道数为512、卷积核大小为3
×
3,第十六卷积层的输入通道数为512、输出通道数为128、卷积核大小为3
×
3,第3个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为256、输出通道数为256、卷积核大小为3
×
3,第十六卷积层的输入通道数为256、输出通道数为64、卷积核大小为3
×
3,第4个第七卷积块中:第十四卷积层和第十五卷积层的输入通道数为128、输出通道数为128、卷积核大小为3
×
3,第十六卷积层的输入通道数为128、输出通道数为32、卷积核大小为3
×
3,第1个第七卷积块中的第一上采样层的采样倍数为1倍,第2个第七卷积块至第4个第七卷积块中的第一上采样层的采样倍数为2倍。
[0050]
在一个实施例中,第八卷积块由依次连接的第十七卷积层和第八relu激活层组成,第十七卷积层的输入端为第八卷积块的输入端,第八relu激活层的输入端接收第十七卷积层的输出端输出的特征图,第八relu激活层的输出端为第八卷积块的输出端;其中,第十七卷积层的输入通道数为64、输出通道数为3、卷积核大小为3
×
3。
[0051]
在一个实施例中,第九卷积块由依次连接的第十八卷积层和第九relu激活层组
成,第十八卷积层的输入端为其所在的第九卷积块的输入端,第九relu激活层的输入端接收第十八卷积层的输出端输出的特征图,第九relu激活层的输出端为其所在的第九卷积块的输出端;其中,第1个第九卷积块中的第十八卷积层的输入通道数为3、输出通道数为32、卷积核大小为7
×
7,第2个第九卷积块中的第十八卷积层的输入通道数为32、输出通道数为64、卷积核大小为7
×
7,第3个第九卷积块中的第十八卷积层的输入通道数为64、输出通道数为128、卷积核大小为7
×
7,第4个第九卷积块中的第十八卷积层的输入通道数为128、输出通道数为256、卷积核大小为5
×
5,第5个第九卷积块中的第十八卷积层的输入通道数为256、输出通道数为512、卷积核大小为5
×
5。
[0052]
在一个实施例中,第十卷积块由依次连接的第十九卷积层和第十relu激活层组成,第十九卷积层的输入端为其所在的第十卷积块的输入端,第十relu激活层的输入端接收第十九卷积层的输出端输出的特征图,第十relu激活层的输出端为其所在的第十卷积块的输出端;其中,第1个第十卷积块中的第十九卷积层的输入通道数为32、输出通道数为1、卷积核大小为7
×
7,第2个第十卷积块中的第十九卷积层的输入通道数为64、输出通道数为1、卷积核大小为7
×
7,第3个第十卷积块中的第十九卷积层的输入通道数为128、输出通道数为1、卷积核大小为7
×
7,第4个第十卷积块中的第十九卷积层的输入通道数为256、输出通道数为1、卷积核大小为5
×
5,第5个第十卷积块中的第十九卷积层的输入通道数为512、输出通道数为1、卷积核大小为5
×
5。
[0053]
为了进一步说明本发明方法的可行性和有效性,对本发明方法进行实验。
[0054]
为了评价本发明方法,帮助水下图像增强和恢复研究领域的发展,从li c,guo c,ren w,et al.an underwater image enhancement benchmark dataset and beyond[j].ieee transactions on image processing,2019.(水下图像增强基准数据集和增强算法)中所建的水下增强图像数据集uieb(underwater image enhancement benchmark)和liu r,fan x,zhu m,et al.real-world underwater enhancement:challenges,benchmarks,and solutions under natural light[j],2020.(真实水下图像增强:挑战、基准和解决方案)中所建的水下增强图像数据集ruie(real-world underwater enhancement)中选取图像,选取标准为:包含不同内容的水下图像,具备不同的色偏(绿色、蓝色和蓝绿色)、具有不同程度的模糊以及包含生物或物体。通过实验来验证本发明方法在水下增强图像数据集uieb和ruie上的性能,为了使实验结果更具备说服力,将本发明方法得到的结果与几种近几年出现的优秀的水下图像增强方法得到的结果作比较,以验证本发明方法的优异性。
[0055]
利用评估图像质量评价方法的3个常用客观参量作为评价指标,即uiqm(引自panetta k,gao c and agaian s,human-visual-system-inspired underwater image quality measures[j],ieee journal of oceanic engineering,2016.(人类视觉系统启发的水下图像质量测量))、uciqe(引自yang m and sowmya a.an underwater color image quality evaluation metric[j],in ieee transactions on image processing,2015.(水下彩色图像质量评估指标))和nuiq(jiang q,gu y,li c,cong r and shao f,underwater image enhancement quality evaluation:benchmark dataset and objective metric[j],in ieee transactions on circuits and systems for video technology,2022.(水下图像增强质量评价基准数据集及客观指标))。uiqm、uciqe和nuiq
都为传统水下图像质量评价指标。表1给出了本发明方法(ours)与其他7种水下图像增强方法在同一个数据集上的不同指标得分结果。7种水下图像增强方法分别为:bl-tm引自(song w,wang y,huang d,a liotta and c perra.enhancement of underwater images with statistical model of background light and optimization of transmission map[j].in ieee transactions on broadcasting,2020.(基于背景光统计模型和传输图优化的水下图像增强算法)),cyclegan引自(zhu j y,park t,isola p,et al.unpaired image-to-image translation using cycle-consistent adversarial networks[c],proceedings of the ieee international conference on computer vision.2017.(基于循环一致性对抗网络进行非成对的图像转换)),funiegan引自(fu b,wang l,wang r,et al.underwater image restoration and enhancement via residual two-fold attention networks[j].int.j.comput.intell.syst.,2021.(基于双重注意力的水下图像恢复和增强网络)),uwcnn引自(anwar s,li c,porikli f.deep underwater image enhancement[j].arxiv preprint arxiv:1807.03528,2018.(深度水下图像增强)),water-net引自(li c,guo c,ren w,et al.an underwater image enhancement benchmark dataset and beyond[j].ieee transactions on image processing,2019.(水下图像增强基准数据集和增强算法)),gl-net引自(fu x,cao x.,underwater image enhancement with global

local networks and compressed-histogram equalization[j],signal processing:image communication,2020.(全局特征增强网络和直方图均衡化增强水下图像)),ucolor引自(li c,anwar s,hou j,cong r,guo c and ren w,underwater image enhancement via medium transmission-guided multi-color space embedding[j],in ieee transactions on image processing,2021.(通过传输引导的多颜色空间水下图像增强))。
[0056]
表1本发明方法与其他7种方法的3种不同指标的得分比较
[0057][0058]
从表1中可以看出,本发明方法得到的质量评价分数总体高于其他7种方法,展示出了本发明方法的优秀。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1