本发明涉及水尺计重,尤其涉及一种基于双域扩散方式的不稳定水线读数方法和系统。
背景技术:
1、水尺计重是通过对承运船舶的吃水及船用物料的测定,根据船舶有关图表,测算船舶排水量和有关物料重量,以计算载运货物重量的一种方式,而精确的船舶吃水水线读数是水尺计重中最基本的要求。目前,许多港口选择依靠人力使用目视测量水位,获取吃水读数,然而,一些观测点位于偏远和危险地区,依靠人工读取水位效率低、劳动密集且不方便,难以满足高精度和高效率的要求。而使用水位传感器,如超声波、测距仪、光学传感器和压力传感器等可以代替人工进行准确读数,但这些传感器安装和维护成本高,且对环境敏感,不宜长期使用。因此采用计算机视觉来进行水位的读取将是现在的主流研究方向。
2、常用的机器视觉读取水位的方法有使用二值化来处理图像,从而快速获取水线和水尺字符的像素坐标,通过坐标进行读数;也有使用深度卷积神经网络来训练学习图像特征,通过图像分割和目标检测双任务模型完成读数识别。然而,在水体清澈的情况下,水中存在的倒影会导致传统方法误识别水中的字符,造成读数混乱;且在沿海地区,水线受海浪影响较大,在恶劣天气下,海平面的波动起伏过大以至于单纯使用像素值或者深度学习网络无法识别正确的水线位置和形状;且摄像机一般离船体较远,拍摄出来的图像中字符字体较小难以识别,传统的图像处理方法和深度学习方法难以适用于上述情况下水线的识别和读数。
技术实现思路
1、本发明提供了一种基于双域扩散方式的不稳定水线读数方法和系统,
2、用以对不稳定水线进行读数。所述技术方案如下:
3、一方面,提供了一种基于双域扩散方式的不稳定水线读数方法,包括:
4、s1、收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
5、s2、对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
6、s3、将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
7、s4、将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
8、s5、将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
9、s6、将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
10、可选地,所述扩散引导分类器由词嵌入层、全连接层和分类头构成,其中所述词嵌入层用于对输入的分类用文本编码,将所述水线、倒影以及船体部分的噪声图像和编码后的文本分别输入所述全连接层,所述全连接层用于提取噪声图像特征,分类头用于向所述基于双域扩散方式的水线生成模型传递分类结果,所述分类结果通过限制扩散生成概率来对所述基于双域扩散方式的水线生成模型的扩散生成进行引导和控制,具体实现的算式如下所示:
11、(1)
12、公式(1)中表示为源域图像,y表示部分加噪图像,表示无条件扩散生成概率,表示所述扩散引导分类器输出的引导分类概率,表示受引导分类控制的扩散生成概率;
13、根据公式(1)训练一个可以对噪声图像分类的网络,将水线、倒影以及船体部分的噪声图像和对应的分类用文本:倒影、水线和船体,输入所述扩散引导分类器中,让所述扩散引导分类器具有对噪声图像分类的能力,从而获得区分水线和其他物体的能力。
14、可选地,所述基于双域扩散方式的水线生成模型包括:卷积层、源域扩散模型和目标域扩散模型,通过一种双重扩散隐式桥接的方法,来对图像进行生成式编码和解码,具体包括:
15、首先使用所述卷积层提取输入的源域图像中的特征生成源域图像编码,所述源域图像编码作为所述源域扩散模型的约束条件,用于约束所述源域扩散模型的生成,使所述源域扩散模型生成所述源域图像的潜在编码,所述潜在编码作为所述目标域扩散模型的约束条件,使用所述目标域扩散模型生成所述水线形状图像;
16、由于扩散过程从单个模型作用变为双域模型共同作用,扩散模型的扩散公式也需要发生改变来适配双域模型,通过一种求解概率流常微分方程ode的扩散公式来改变原本单个模型的扩散过程,以适配双域模型的编码解码过程,具体公式如下:
17、(2)
18、公式(2)中表示图像在初始时刻下的扩散状态;表示图像在扩散过程中某一时刻的状态;分别表示初始时刻和完成扩散的时刻,表示单个扩散模型下的扩散公式,其公式如下所示:
19、(3)
20、公式(3)中为可学习的参数,为随机噪声;
21、以公式(2)为基础,给定源域图像样本,源域扩散模型,目标域扩散模型,设中间生成的潜在编码为,则由双域扩散方式得到目标图像的公式为:
22、 ;
23、(4)
24、公式(4)中,当时,为生成潜在编码的过程;当时,为生成水线形状图像的过程。
25、可选地,所述动态图像读数网络由多个局部卷积层、第一全连接层、单阶段目标检测分支、第二全连接层和记忆单元构成;
26、将所述生成的水线形状图像输入所述多个局部卷积层,所述多个局部卷积层的个数可人工设置,作用为迅速定位到所述生成的水线形状图像中生成的水线位置,提取包括弯曲度、波动频率的水线特征,通过所述第一全连接层输出水线坐标;
27、将所述源域图像输入所述单阶段目标检测分支,对所述源域图像中的水尺字符进行检测分类,获取字符坐标;
28、将所述水线坐标和所述字符坐标输入所述第二全连接层,输出单张源域图像的水线读数;
29、通过所述记忆单元实时存储连续多帧源域图像的水线读数结果,通过学习提取它们的不稳定波动特征,输出连续多帧源域图像的最优水线读数。
30、可选地,所述单阶段目标检测分支以残差网络为基础,基于卷积的深度将每张所述源域图像转换为三种尺度的三张特征图,并使用一种特征金字塔算法来对所述三种尺度的特征图进行特征融合,所述特征金字塔算法如下:
31、将小尺度特征图上采样1倍2次,使尺寸与大尺度特征图一致;
32、对中尺度特征图上采样1倍1次,使尺寸也与大尺度特征图一致;
33、将尺寸一致的三张特征图叠加在一起形成融合后的特征图,融合的特征图包含更加丰富的语义信息;
34、通过分类检测头来输出结果,所述分类检测头由若干卷积层和全连接层的组合构成,这些组合根据融合的特征图分别输出目标的检测框属性和目标的类别,若有n个预测的类别,则有n+1个卷积层与全连接层的组合来构成所述分类检测头,所述目标为字符,所述目标的类别为不同字符的个数。
35、可选地,所述记忆单元通过捕获时间序列数据中的方差不恒定性来提取数据的波动性,其计算公式如下:
36、;
37、上式中为预测值,也就是所述记忆单元输出的最优水线读数,为所述记忆单元存储的连续多帧源域图像水线读数的平均值;为可学习的参数,为t时刻存储的读数与的差值平方。
38、可选地,所述训练集中的源域图像整体加噪得到的噪声图像作为所述基于双域扩散方式的水线生成模型训练用标签;
39、所述基于双域扩散方式的水线生成模型的训练包括:前向加噪部分和反向去噪部分;
40、其中源域扩散模型的前向加噪部分是向源域图像添加噪声,以源域图像编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加源域图像编码约束进行反向去噪,生成潜在编码;
41、目标域扩散模型的前向加噪部分也是向源域图像添加噪声,以潜在编码为约束生成噪声并和噪声图像标签计算损失,并反向传播训练模型参数;反向去噪部分通过对随机高斯噪声添加潜在编码约束进行反向去噪,生成目标水线图像;
42、从所述整体加噪的噪声图像中提取出的水线、倒影以及船体部分的噪声图像作为所述扩散引导分类器训练用标签,所述训练集中的源域图像的人工读数结果作为所述动态图像读数网络训练用标签。
43、另一方面,提供了一种基于双域扩散方式的不稳定水线读数系统,包括:
44、收集预处理模块,用于收集并预处理多张船体水尺源域图像,并划分为训练集与测试集;
45、加噪提取模块,用于对所述训练集中的源域图像进行整体加噪,得到噪声图像,并根据所述源域图像中的水线、倒影以及船体部分的位置大小,将所述噪声图像中对应的部分分别提取出来,形成水线、倒影以及船体部分的噪声图像;
46、第一训练模块,用于将所述水线、倒影以及船体部分的噪声图像和对应的分类用文本分别输入扩散引导分类器,训练所述扩散引导分类器输出引导分类概率;
47、第二训练模块,用于将所述源域图像和所述引导分类概率输入到基于双域扩散方式的水线生成模型,训练所述基于双域扩散方式的水线生成模型输出生成的水线形状图像;
48、第三训练模块,用于将所述生成的水线形状图像和所述源域图像分别输入动态图像读数网络,训练所述动态图像读数网络输出最优的水线读数;
49、识别输出模块,用于将待识别水尺图像和水线文本输入训练完成的由所述扩散引导分类器、所述基于双域扩散方式的水线生成模型和所述动态图像读数网络构成的整体模型,识别输出所述待识别水尺图像中的水线读数。
50、另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于双域扩散方式的不稳定水线读数方法。
51、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于双域扩散方式的不稳定水线读数方法。
52、上述技术方案,与现有技术相比至少具有如下有益效果:
53、本发明搭建基于双域扩散方式的水线识别生成模型,通过以图生图(不需要文本约束)的方式进行水线形状的生成,并结合设计扩散引导分类器,让模型在训练过程中提取水体与倒影的特征,将它们分隔开来避免混淆,并提取形变水线的特征,生成更准确的水线形状,同时,设计一种动态图像读数网络来对连续多帧图像进行识别,输出最优的水线读数,以达到动态识别不稳定水线的效果,具体的:
54、1)相比于传统的水线识别图像处理方法,本发明基于双域扩散方式进行图生图(不需要文本约束)的水线生成,再结合扩散引导分类器能够提取水体与倒影以及其他物体的差异性,并在实际应用阶段中避免倒影混淆问题。
55、2)相比于一般的扩散模型,本发明的双域扩散方式模型可以在水尺计重任务不适合传统的文本约束的情况下,不需要文本作为约束条件生成目标图像(可以认为这种不需要文本为约束条件的生成方式为以图生图的方式),同时本发明的双域方式相比单域方式,加深了模型的深度,通过先生成潜在编码再生成目标图像的方式,解决了图生图扩散模型的生成可控性差的问题。
56、3)相比于通常的深度学习方法,本发明通过动态图像读数网络,通过单阶段目标检测分支提高了对图像中小目标船体字符的识别精度,并对多帧动态水线图像进行连续识别,进而输出最优的读数,解决了单一图像无法得到不稳定水线准确读数的技术痛点。