本申请涉及图像处理,特别是涉及一种基于掩模自编码器的视频水体分割模型的构建方法及装置。
背景技术:
1、视频水体分割作为计算机视觉领域中的重要任务,旨在从视频序列中自动识别并分离出水体区域,这对于环境监测、自然灾害预警和水资源管理等方面具有广泛的应用价值,随着遥感技术和无人机监控的普及,获取连续的水域视频数据变得更加容易,但如何高效准确地处理这些数据,提取有价值的信息,成为了一个亟待解决的问题。
2、然而,由于自然环境的复杂性导致水体在不同光照、天气条件下的外观变化巨大,增加了分割难度,其次,传统的视频水体分割方法依赖于深度学习等技术,这些技术虽然性能强大,但通常需要复杂的模型结构来结合大量的标注数据进行训练,这限制了在实际场景中的应用。
3、综上所述,亟需一种可以通过简单的模型结构在缺乏大量标记数据的情况下可以实现高精度的水体分割的方法,从而更好的在实际场景中进行应用。
技术实现思路
1、本申请实施例提供了一种基于掩模自编码器的视频水体分割模型的构建方法及装置,设计了一种掩模自编码器并以单帧监督的方式对视频水体分割模型进行训练,并且只需要对初始帧进行标注从而以自监督学习的方式从而减少了视频的标注成本并提高了视频水体分割的精度。
2、第一方面,本申请实施例提供了一种基于掩模自编码器的视频水体分割模型的构建方法,所述方法包括:
3、获取至少一包含水体的视频帧序列作为训练样本,并对每一视频帧序列中的初始帧进行水体标注后输入到构建好的视频水体分割架构;
4、所述视频水体分割架构包括场景编码模块、时空特征聚合模块以及掩模自编码-解码模块,所述场景编码模块对视频帧序列中的每一帧进行编码分别得到与每一帧对应的多尺度图像;
5、所述时空特征聚合模块以输入的当前帧作为查询,以与当前帧的上一帧对应的多尺度图像作为键,以与当前帧的上一帧对应的预测分割结果作为值进行注意力计算得到当前帧的粗糙水体分割图,其中,若当前帧的上一帧为初始帧则以初始帧的水体标注信息作为初始帧的预测分割结果;
6、在所述掩模自编码-解码模块中基于当前帧的粗糙水体分割图、与当前帧对应的多尺度图像以及当前帧得到当前帧的水体特征,将当前帧的水体特征逐步与当前帧对应的多尺度图像进行融合得到当前帧的精细水体分割图,并以当前帧的精细水体分割图为下一帧的预测分割结果来获取下一帧的精细水体分割图直至获取除初始帧外每一帧图像的精细水体分割图;
7、再由所述时空特征聚合模块以初始帧作为查询,并分别以设定数量的精细水体分割图为键,以与键对应的多尺度图像为值进行注意力计算得到初始帧的粗糙水体分割图,再由所述掩模自编码-解码模块对初始帧的粗糙水体分割图进行细化得到初始帧的精细水体分割图;
8、使用初始帧的精细水体分割图与初始帧的水体标注信息构建损失函数,当损失函数满足设定条件时保留当前视频水体分割架构的参数得到视频水体分割模型。
9、第二方面,本申请实施例提供了一种视频水体分割方法,包括:
10、获取待分割视频帧序列,将所述待分割视频帧序列输入到训练好的视频水体分割模型中得到水体分割结果。
11、第三方面,本申请实施例提供了一种基于掩模自编码器的视频水体分割模型的构建装置,包括:
12、获取模块,用于获取至少一包含水体的视频帧序列作为训练样本,并对每一视频帧序列中的初始帧进行水体标注后输入到构建好的视频水体分割架构;
13、场景编码模块,所述视频水体分割架构包括场景编码模块、时空特征聚合模块以及掩模自编码-解码模块,所述场景编码模块对视频帧序列中的每一帧进行编码分别得到与每一帧对应的多尺度图像;
14、时空特征聚合模块,所述时空特征聚合模块以输入的当前帧作为查询,以与当前帧的上一帧对应的多尺度图像作为键,以与当前帧的上一帧对应的预测分割结果作为值进行注意力计算得到当前帧的粗糙水体分割图,其中,若当前帧的上一帧为初始帧则以初始帧的水体标注信息作为初始帧的预测分割结果;
15、掩模自编码-解码模块,在所述掩模自编码-解码模块中基于当前帧的粗糙水体分割图、与当前帧对应的多尺度图像以及当前帧得到当前帧的水体特征,将当前帧的水体特征逐步与当前帧对应的多尺度图像进行融合得到当前帧的精细水体分割图,并以当前帧的精细水体分割图为下一帧的预测分割结果来获取下一帧的精细水体分割图直至获取除初始帧外每一帧图像的精细水体分割图;
16、初始帧预测模块,再由所述时空特征聚合模块以初始帧作为查询,并分别以设定数量的精细水体分割图为键,以与键对应的多尺度图像为值进行注意力计算得到初始帧的粗糙水体分割图,再由所述掩模自编码-解码模块对初始帧的粗糙水体分割图进行细化得到初始帧的精细水体分割图;
17、损失计算模块,使用初始帧的精细水体分割图与初始帧的水体标注信息构建损失函数,当损失函数满足设定条件时保留当前视频水体分割架构的参数得到视频水体分割模型。
18、第四方面, 本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种基于掩模自编码器的视频水体分割模型的构建方法或一种视频水体分割方法。
19、第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种基于掩模自编码器的视频水体分割模型的构建方法或一种视频水体分割方法。
20、本发明的主要贡献和创新点如下:
21、本申请实施例以视频帧序列作为训练样本输入到视频水体分割架构中,视频水体分割架构通过时空特征聚合模块来使用上一帧的预测分割结果来对当前帧的分割结果进行预测,所以本方案在进行标注时仅对视频帧序列中的初始帧进行标注即可,大大减少了标注的人工成本;本方案设计了一种掩模自编码-解码模块来对粗糙水体分割图进行精细化处理,从而保证了对当前帧的水体分割预测的准确性,并以当前帧的精细水体分割图为下一帧的预测分割结果来获取下一帧的精细水体分割图,从而通过自监督的方式使用小样本在少量标注的情况下即可获取高准确性的水体分割结果。
22、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
1.一种基于掩模自编码器的视频水体分割模型的构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于掩模自编码器的视频水体分割模型的构建方法,其特征在于,在“所述场景编码模块对视频帧序列中的每一帧进行编码分别得到与每一帧对应的多尺度图像”步骤中,所述场景编码器由一个卷积层与多个残差结构相连,所述多尺度图像包括每一残差结构输出的不同大小的特征图。
3.根据权利要求1所述的一种基于掩模自编码器的视频水体分割模型的构建方法,其特征在于,在“以与当前帧的上一帧对应的多尺度图像作为键”步骤中,以当前帧的上一帧对应的多尺度图像中分辨率最小的特征图为键。
4.根据权利要求1所述的一种基于掩模自编码器的视频水体分割模型的构建方法,其特征在于,将所述预测分割结果降采样为与多尺度图像中分辨率最小的特征图相同大小后作为值。
5.根据权利要求1所述的一种基于掩模自编码器的视频水体分割模型的构建方法,其特征在于,所述掩模自编码-解码模块包括掩模编码单元以及掩模解码单元,所述掩模编码单元由编码卷积层、多个编码残差块以及一个特征编码融合模块进行串联,先将当前帧与当前帧的粗糙水体分割图进行拼接后输入到掩模编码单元中经由编码卷积层、多个编码残差块后输出第一特征图,所述第一特征图的大小与多尺度图像中分辨率最小的特征图相同,且编码残差块的数量与场景编码模块中残差块的数量相同,所述特征编码融合模块使用空间注意力和通道注意力操作将第一特征图与多尺度图像中分辨率最小的特征图进行融合得到第一水体特征图。
6.根据权利要求5所述的一种基于掩模自编码器的视频水体分割模型的构建方法,其特征在于,所述掩模解码单元由特征解码融合单元、多个上采样层以及分类头串联,所述特征解码融合单元与所述特征编码融合单元相同,在所述特征解码融合单元中使用空间注意力和通道注意力操作再次将第一水体特征图与多尺度图像中分辨率最小的特征图进行融合得到第二水体特征图,使用多个上采样层逐步对所述第二水体特征图进行上采样,并在每一次上采样结束后使用上采样结果融合多尺度图像中与上采样结果大小相同的特征图得到第三水体特征图,所述分类头使用双线性插值上采样操作对第三水体特征图进行输出处理得到当前帧的精细水体分割图。
7.一种视频水体分割方法,其特征在于,包括:
8.一种基于掩模自编码器的视频水体分割模型的构建装置,其特征在于,
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-6任一所述的一种基于掩模自编码器的视频水体分割模型的构建方法或权利要求7所述的一种视频水体分割方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-6任一所述的一种基于掩模自编码器的视频水体分割模型的构建方法或权利要求7所述的一种视频水体分割方法。