一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法与流程

文档序号:32492494发布日期:2022-12-10 03:25阅读:36来源:国知局
一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法与流程
一种基于faster-rir7-ec的混凝土裂缝快速识别方法
技术领域
1.本发明涉及混凝土视觉损伤识别技术领域,具体涉及一种基于faster-rir7-ec的混凝土裂缝快速识别方法。


背景技术:

2.混凝土作为最常用的建筑材料被广泛应用于房屋、桥梁等基础设施建设,然而在基础设施运营期间会产生裂缝,影响其安全性,为了避免裂缝扩展带来的结构坍塌风险,混凝土裂缝损伤检测是十分必要的。
3.随着无人机技术和无线传输技术的发展,使大体积混凝土的海量数据高效获取成为了可能,为发展智能识别提供了基础。与传统的结构损伤检测方法相比,采用机器视觉技术的裂缝检测避免了人工检测耗时费力而无法频繁检测,具有主观性的问题。但是通用网络为了满足各领域的识别需求,往往具有庞大的体量。在深度学习网络进行混凝土裂缝识别时,裂缝类型仅十余种,通用网络体量大、训练时间长,硬件需求高。有必要发展轻量化网络,搭建收敛速度快,识别map(平均精度)高的混凝土裂缝专用深度学习目标识别算法。


技术实现要素:

4.为解决上述问题,本发明提供一种基于faster-rir7-ec的混凝土裂缝快速识别方法。
5.为实现上述目的,本发明提供了如下的技术方案。
6.一种基于faster-rir7-ec的混凝土裂缝快速识别方法,包括以下步骤:
7.搭建faster-rir7-ec网络模型;所述faster-rir7-ec网络模型包括依次连接的ir7-ec特征提取层、区域生成网络rpn、roi head和后处理层;
8.其中,所述ir7-ec特征提取层包括依次连接的卷积层、7个inverted residual-eca结构、cbam注意力机制;所述inverted residual-eca结构为倒残差结构与eca注意力机制相连接构成;所述roi head包括roi pooling、全连接层和postprocess detections;
9.采集待识别的裂缝图像,通过ir7-ec特征提取层,对裂缝图像在通道和空间层面进行特征提取,获得蕴含裂缝信息的特征提取图;
10.将特征提取图输入区域生成网络rpn中,在特征提取图上生成候选框,并确定候选框内包含的裂缝和背景;将rpn生成的候选框投影到ir7-ec输出的特征图上获得相应的特征矩阵;
11.将每个特征矩阵通过roi head,输出混凝土裂缝在特征图中的位置和类型;
12.通过后处理层将混凝土裂缝在特征图中的位置和类型投影回实际裂缝图像,获得实际混凝土裂缝位置和类型。
13.优选地,还包括:对所述faster-rir7-ec网络模型进行训练,包括以下步骤:
14.采集裂缝图像,建立裂缝类型识别图像数据集,其中,裂缝图像数据集包括裂缝识别图像训练集和验证集;
15.对裂缝图像数据集进行归一化处理:遍历所有裂缝图像,找到高度与宽度最大的图像,以最大宽高为模板,其他所有图像左上角与模板对齐,右侧与下侧大小不足的位置补0直至与模板等大,使得输入图像分辨率统一与模板一致;
16.将归一化处理后的图像数据集输入到faster-rir7-ec网络模型中获得识别结果;
17.将识别结果与训练集的真实结果对比,将损失带入优化函数,更新网络参数,直到网络拟合;其中,损失包括rpn损失和roi head损失。
18.优选地,所述ir7-ec特征提取层的搭建,具体包括以下步骤:
19.建立依次连接的10层网络框架;
20.第1层包括卷积核3
×
3大小的卷积层、batch normalization归一化层和hardswish激活函数,步长2,输入通道3,输出通道数16;
21.第2层到第8层为inverted residual-eca结构,包括三部分:
22.第一部分包括卷积核1
×
1大小的卷积层、batch normalization归一化层和relu6激活函数,第二部分包括卷积核3
×
3大小的卷积层、batch normalization归一化层和relu6激活函数,第三部分为eca注意力机制,结构包括平均池化层、卷积核1
×
1大小卷积层和sigmoid函数,第四部分结构包括卷积核1
×
1大小的卷积层、batch normalization归一化层和线性激活函数;
23.第9层包括卷积核3
×
3大小的卷积层、batch normalization归一化层和hardswish激活函数,步长1,输入通道96,输出通道数96;
24.第10层为cbam注意力机制,包括两部分:
25.第一部分为通道注意力机制,包括平均池化层、最大池化层、全连接层1、relu6激活函数、全连接层2和sigmoid函数,第二部分为空间注意力机制,包括平均池化层、最大池化层、卷积核7
×
7大小的卷积层和sigmoid函数。
26.优选地,所述ir7-ec特征提取层的特征提取过程,包括以下步骤:
27.对归一化处理后的图像样本数据输入第1层,先后通过卷积层、batch normalization归一化层和hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
28.将通过第1层初步提取的特征输入到第2层到第8层,依次通过7个inverted residual-eca结构,输入数据通过inverted residual-eca结构中第一部分处理后使得输入数据通道维数扩增,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过eca注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,按照相似的操作依次将数据通过所有inverted residual-eca结构;
29.将通过第2层到第8层后所得到的数据输入第9层进行特征提取;
30.将通过第9层特征提取后的数据输入第10层cbam注意力机制,对数据进行通道和空间层面的进行更进一步的特征提取,得到蕴含裂缝信息更多的特征图。
31.优选地,所述batch normalization归一化层的归一化处理,如下式所示:
[0032][0033][0034][0035][0036]
式中,xi为输入batch normalization的特征图,yi为输出batch normalization后的特征图,m为当前训练批次中输入该层的特征图数量,γ和β为随网络梯度更新而变动的变量;
[0037]
搭建ir7-ec特征提取层时,利用下式对各层中通过relu6激活函数的数据进行非线性处理:
[0038]
f(xi)=min(max(xi,0),6)
[0039]
式中,xi为输入relu6激活函数前的特征图,f(xi)为输出relu6激活函数的特征图;
[0040]
搭建ir7-ec特征提取层时,利用下式各层中通过hardswish激活函数的数据进行非线性处理:
[0041][0042]
式中,x为输入hardswish激活函数前的特征图,f(x)为输出hardswish激活函数的特征图;
[0043]
搭建ir7-ec特征提取层时,利用下式各层中通过eca注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
[0044][0045]es
(f)=σ(f
k*k
[avgpool(f)])
[0046]
式中,|t|
odd
表示最近的奇数t;c代表输入eca注意力机制的数据的通道数量,γ与b为两个超参数;es(f)为eca注意力机制,σ为sigmoid操作,f
k*k
[
·
]表示进行k*k的卷积操作,f为输入的特征图,avgpool()为平均池化;
[0047]
搭建ir7-ec特征提取层时,利用下式平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
[0048]
mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
[0049]
式中,mc表示通道注意力,mlp()由全连接层1+relu6激活函数+全连接层2组成,σ为sigmoid操作,f为输入的特征图,avgpool()为平均池化,maxpool()为最大池化,ms表示
空间注意力机制,σ为sigmoid操作;
[0050]
搭建ir7-ec特征提取层时,利用下式采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
[0051]ms
(f)=σ(f
7*7
[avgpool(f),maxpool(f)])
[0052]
式中,ms表示空间注意力机制,σ为sigmoid操作,f
7*7
[
·
]表示进行7*7的卷积操作,f为输入的特征图,avgpool()为平均池化,maxpool()为最大池化。
[0053]
优选地,所述rpn包括anchor generator和rpnhead。
[0054]
优选地,还包括:
[0055]
通过所述anchor generator生成锚框,包括以下步骤:
[0056]
基于ir7-ec特征提取层输出的42
×
42分辨率的特征图,通过anchor generator生成1764组不同比例的锚框,将特征图上的每一个像素点投影到输入网络前的原始裂缝图像上,在原始图像上的1764个特征图投影位置都会分配一组anchor generator生成的锚框;
[0057]
基于anchor generator生成的锚框划分裂缝图像正负样本的规则如下,其中,裂缝为positive,无裂缝为背景negative:
[0058]
在一张裂缝图像中包括一系列真实值边界框gt box和锚框anchor;其中,锚框被判定为positive规则为:与gt box的iou≥0.7的锚框;当所有与gt box相交锚框的iou都小于0.7时,与gt box最大iou的锚框被直接判定为positive;
[0059]
negative判别规则为:与gt box的iou<0.3的锚框;
[0060]
随机挑选256个正负样本作为标签真实值,用于计算rpnhead中目标损失,其中iou计算公式如下:
[0061][0062]
其中,area(a)为anchor即锚框的面积,area(g)为gt box框的面积。
[0063]
优选地,所述rpnhead包括3
×
3的卷积层、两个并联的1
×
1卷积层和relu激活函数;
[0064]
所述rpnhead的训练步骤包括:
[0065]
将ir7-ec输出的42
×
42分辨率的特征图通过一个3
×
3的卷积层,再分别通过两个并联的1
×
1卷积层和relu激活函数,输出特征图所有像素点对应所有锚框的目标分数和边界框回归参数如下:
[0066]
cls=[裂缝概率]
[0067]
ti=[t
x
,ty,tw,th]
[0068]
其中,cls为rpnhead预测的裂缝概率,ti表示rpnhead预测的第i个锚框的边界框回归参数;
[0069]
通过边界框回归参数对锚框进行调整,得到候选框proposals,公式如下;
[0070]
x=wat
x
+xa[0071]
y=haty+ya[0072]
w=waexp(tw)
[0073]
h=haexp(th)
[0074]
其中,x,y,w,h为proposals的中心坐标(x,y)以及边界框宽度高度,xa,ya,wa,ha为锚框的中心坐标以及宽高,t
x
,ty,tw,th为rpnhead预测的边界框回归参数;
[0075]
对proposals进行筛选:
[0076]
根据裂缝图像中每个proposals目标分数,筛选出裂缝概率最大的前2000个proposals,删除不满足条件者,然后删除面积较小的proposals;
[0077]
找到所有proposals中坐标最大的数值所对应的proposal,将其他proposals与之做交并比计算,利用非极大值抑制算法对所有proposals进行筛选,最后将proposals投影到ir7-ec输出的特征图上获得相应的特征矩阵;
[0078]
所述rpnhead损失计算方法如下:
[0079][0080][0081][0082][0083][0084][0085][0086]
t
x
=(x-xa)/wa,ty=(y-ya)/ha[0087]
tw=ln(w/wa),th=ln(h/ha)
[0088]
其中,loss({pi},{ti})为rpn的损失,包括分类损失和边界框回归损失,pi表示第i个anchor预测为目标的概率,当anchor为正样本时为1,负样本时为0,ti表示预测的第i个anchor的边界框回归参数,表示第i个anchor对应的gt box的边界框回归参数,n
cls
表示一个mini-batch中所有样本数量,n
reg
表示样本位置个数,ti表示rpnhead预测的第i个锚框的边界框回归参数,x
*
,y
*
,w
*
,h
*
为gt box的中心坐标(x,y)以及边界框宽度高度,λ用于平衡分类损失与边界框回归损失。
[0089]
优选地,还包括:
[0090]
通过roi pooling将所有proposals通过池化操作特征提取,所有proposals尺寸均转化为7
×
7大小特征图;
[0091]
所述roi head的全连接层结构为两个串联的全连接层(fc1,fc2),将特征图展平后通过两个全连接层后传入两个并行的全连接层(fc3,fc4),用于预测每一个proposal的裂缝类别分数和边界框回归参数,利用fc4输出的边界框回归参数调整proposals,通过与rpn相似的步骤计算全连接层损失如下:
[0092]
loss(p,u,tu,v)=l
cls
(p,u)+λ[u≥1]l
loc
(tu,v)
[0093]
l
cls
(p,u)=-log pu[0094][0095]
其中,loss(p,u,tu,v)为roi head的损失函数,包括分类损失和边界框回归损失,p是分类器预测的softmax概率分布p=(po,......pk),k为裂缝类别数量加1,u对应目标真实类别标签,tu对应边界框回归器fc4预测的对应类别u的边界框回归参数,v对应真实目标gt box边界框回归参数v
x
,vy,vw,vh;
[0096]
通过所述postprocess detections对网络的预测数据进行后处理,包括:
[0097]
根据proposals以及fc4预测的回归参数计算出最终边界框bbox坐标;
[0098]
对预测类别结果进行softmax处理得到裂缝概率;
[0099]
移除所有背景信息;
[0100]
移除低概率目标与小尺寸目标;
[0101]
通过hms方法对roi head中预测结果进行筛选;
[0102]
最终bbox坐标计算公式如下:
[0103][0104][0105][0106][0107]
其中,x,y,w,h为rpn输出的proposals的中心坐标(x,y)以及边界框宽度高度,为全连接层fc4预测的边界框回归参数,x
p
,y
p
,w
p
,h
p
为roi head预测的裂缝位置框中心坐标以及宽高;
[0108]
优选地,所述更新网络参数,如下式所示:
[0109]
f(θ)=loss
[0110][0111]mt
=β1·mt-1
+(1-β1)
·gt
[0112][0113][0114][0115][0116]
其中,loss是网络rpn或roi head的损失函数,θ是模型中待更新的参数,g
t
是损失函数f(θ)对θ求导所得的梯度,β1是一阶矩衰减系数,β2是二阶矩衰减系数,m
t
是梯度g
t
的期
望,v
t
是的期望,是m
t
的偏置校正,是v
t
的偏置矫正,θ
t-1
是网络更新前的参数,θ
t
是网络更新后的参数,α是学习率。
[0117]
本发明提出一种基于faster-rir7-ec的混凝土裂缝快速识别方法,包括以下有益效果:
[0118]
本发明提出的一种基于faster-rir7-ec的混凝土裂缝快速识别方法,与目前基于faster-rcnn的计算机视觉目标识别网络相比,faster-rir7-ec网络模型参数量更小,训练时间更短,同时维持了较高的混凝土裂缝识别准确率。
附图说明
[0119]
图1为本发明实施例利用faster-rir7-ec网络辨识混凝土裂缝的流程图;
[0120]
图2为本发明实施例的七种混凝土裂缝图像以及拼接后图像的示意图;
[0121]
图3为本发明实施例的faster-rir7-ec结构图;
[0122]
图4为本发明实施例的faster-rir7-ec中的特征提取层ir7-ec结构图;
[0123]
图5为本发明实施例利用faster-rir7-ec网络识别裂缝结果图。
具体实施方式
[0124]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0125]
实施例1
[0126]
本发明的一种基于faster-rir7-ec的混凝土裂缝快速识别方法,如图1-5所示,表1为本专利实现的计算机平台及环境配置。
[0127]
表1计算机平台及环境配置
[0128][0129][0130]
参阅图1,本发明提供了一种基于faster-rir7-ec的混凝土裂缝快速识别方法,具体包括以下步骤:
[0131]
步骤1,采集裂缝图像,建立裂缝类型识别图像数据集,其中裂缝图像数据集包括裂缝识别图像训练集和验证集。
[0132]
步骤2,对数据集进行预处理。
[0133]
步骤3,将预处理后的裂缝图像数据输入ir7-ec特征提取层提取特征。
[0134]
步骤4,将ir7-ec输出的特征图输入rpn(region proposal network)中生成候选
框并确定候选框包含内容(裂缝,背景),将rpn生成的候选框投影到ir7-ec输出的特征图上获得相应的特征矩阵(训练阶段计算rpn损失)。
[0135]
步骤5,将每个特征矩阵通过roi head(包括roi pooling、全连接层和postprocess detections)输出混凝土裂缝在特征图中的位置和类型(训练阶段计算roi head损失)。
[0136]
步骤6,通过后处理将混凝土裂缝在特征图中的位置和类型投影回实际裂缝图像获得实际混凝土裂缝位置和类型。
[0137]
步骤7,训练阶段将损失带入优化函数,更新网络参数,直至网络收敛。
[0138]
步骤8,将待检测的混凝土裂缝图像输入训练好的faster-rir7-ec网络得到混凝土裂缝图像中裂缝位置和类型。
[0139]
具体的,步骤1中采集裂缝图像后,将混凝土裂缝图像训练集与验证集进行手动标注,包括:横横向裂缝(transversecrack)、纵向裂缝(verticalcrack)、倾斜裂缝(obliquecrack)、网状裂缝(meshcrack)、不规则裂缝(irregularcrack)、孔洞(hole)和背景(background)图像,训练集和验证集包含了上述七种类型图像与图像类型对应的模式标签,将上述7类图像随机拼接成九宫形式,如图2所示,共674张图像,图像分辨率681
×
681,训练集500张图像,验证集174张图像。
[0140]
具体的,步骤2中的预处理操作包括图像归一化处理:遍历所有裂缝图像,找到高度与宽度最大的图像,以最大宽高为模板,其他所有图像左上角与模板对齐,右侧与下侧大小不足的位置补0直至与模板等大,实现输入图像分辨率统一与模板一致。
[0141]
具体的,步骤3中搭建的ir7-ec特征提取层步骤包括:
[0142]
建立依次连接的10层网络框架,具体参数见表2,示意图见图4;
[0143]
第1层包括卷积核3
×
3大小的卷积层、batch normalization归一化层和hardswish激活函数,步长2,输入通道3,输出通道数16;
[0144]
第2层——第8层为inverted residual-eca结构,该结构具体包括三部分,第一部分包括卷积核1
×
1大小的卷积层、batch normalization归一化层和relu6激活函数,第二部分包括卷积核3
×
3大小的卷积层、batchnormalization归一化层和relu6激活函数,第三部分为eca注意力机制,结构包括平均池化层、卷积核1
×
1大小卷积层和sigmoid函数,第四部分结构包括卷积核1
×
1大小的卷积层、batch normalization归一化层和线性激活函数;
[0145]
第9层包括卷积核3
×
3大小的卷积层、batch normalization归一化层和hardswish激活函数,步长1,输入通道96,输出通道数96;
[0146]
第10层为cbam注意力机制,分为两部分,第一部分为通道注意力机制,包括平均池化层、最大池化层、全连接层1、relu6激活函数、全连接层2和sigmoid函数,第二部分为空间注意力机制,包括平均池化层、最大池化层、卷积核7
×
7大小的卷积层和sigmoid函数。
[0147]
表2 ir7-ec特征提取层结构及内部具体参数
[0148][0149][0150]
具体的,所述将图像样本数据输入ir7-ec特征提取层进行训练的步骤包括:
[0151]
将前处理后的图像样本数据输入第1层,先后通过卷积层、batch normalization归一化层和hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
[0152]
将通过第1层初步提取的特征输入到第2层——第8层,依次通过7个inverted residual-eca结构,输入数据通过inverted residual-eca结构中第一部分处理后使得输入数据通道维数扩增,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过eca注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,按照相似的操作依次将数据通过所有inverted residual-eca结构;
[0153]
将通过第第2层——第8层的后所得到的数据输入第9层进行特征提取;
[0154]
将通过第9层特征提取后的数据输入第10层cbam注意力机制,对数据进行通道和空间层面的进行更进一步的特征提取,得到蕴含裂缝信息更多的特征图。
[0155]
具体的,搭建ir7-ec特征提取层时为了防止网络梯度消失,利用下式对各层中通过batch normalization归一化层的数据进行归一化处理:
[0156]
[0157][0158][0159][0160]
式中,xi为输入batch normalization的特征图,yi为输出batch normalization后的特征图,m为当前训练批次中输入该层的特征图数量,γ和β为随网络梯度更新而变动的变量。
[0161]
具体的,搭建ir7-ec特征提取层时,利用下式对各层中通过relu6激活函数的数据进行非线性处理:
[0162]
f(xi)=min(max(xi,0),6)
[0163]
式中,xi为输入relu6激活函数前的特征图,f(xi)为输出relu6激活函数的特征图。
[0164]
具体的,搭建ir7-ec特征提取层时,利用下式各层中通过hardswish激活函数的数据进行非线性处理:
[0165][0166]
式中,x为输入hardswish激活函数前的特征图,f(x)为输出hardswish激活函数的特征图。
[0167]
具体的,搭建ir7-ec特征提取层时,利用下式各层中通过eca注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
[0168][0169]es
(f)=σ(f
k*k
[avgpool(f)])
[0170]
式中,|t|
odd
表示最近的奇数t。c代表输入eca注意力机制的数据的通道数量,γ与b为两个超参数,本专利中将γ设置为2,b设置为1,es(f)为eca注意力机制,σ为sigmoid操作,f
k*k
[
·
]表示进行k*k的卷积操作,f为输入的特征图,avgpool()为平均池化。
[0171]
具体的,搭建ir7-ec特征提取层时,利用下式平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
[0172]
mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
[0173]
式中,mc表示通道注意力,mlp()由全连接层1+relu6激活函数+全连接层2组成,σ为sigmoid操作,f为输入的特征图,avgpool()为平均池化,maxpool()为最大池化,ms表示空间注意力机制,σ为sigmoid操作。
[0174]
具体的,搭建ir7-ec特征提取层时,利用下式采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
[0175]ms
(f)=σ(f
7*7
[avgpool(f),maxpool(f)])
[0176]
式中,ms表示空间注意力机制,σ为sigmoid操作,f
7*7
[
·
]表示进行7*7的卷积操作,f为输入的特征图,avgpool()为平均池化,maxpool()为最大池化。
[0177]
具体的,步骤4中所述rpn(region proposal network)结构包括anchor generator和rpnhead。
[0178]
具体的,基于ir7-ec输出的42
×
42分辨率的特征图,通过anchor generator生成1764(42
×
42)组不同比例的锚框,将特征图上的每一个像素点(每一个通道都有1764个)投影到输入网络前的原始裂缝图像上,在原始图像上的1764个特征图投影位置都会分配一组anchor generator生成的锚框(anchor)。
[0179]
具体的,基于anchor generator生成的锚框划分裂缝图像正负样本(裂缝为positive,无裂缝为背景negative)规则如下:
[0180]
在一张裂缝图像中包括一系列真实值边界框(groundtruth box,gt box)和锚框,其中锚框被判定为positive规则为:

与gt box的iou≥0.7的锚框,

当所有与gt box相交锚框的iou都小于0.7时,与gt box最大iou的锚框被直接判定为positive;
[0181]
negative判别规则:与gt box的iou<0.3的锚框;
[0182]
随机挑选256个正负样本作为标签真实值,用于计算rpnhead中目标损失,其中iou计算公式如下:
[0183][0184]
其中area(a)为anchor即锚框的面积,area(g)为gt box框的面积。
[0185]
具体的,其特征在于rpnhead结构包括一个3
×
3的卷积层和两个并联的1
×
1卷积层和relu激活函数。
[0186]
具体的,其特征在于,rpnhead结构训练步骤包括:将ir7-ec输出的42
×
42分辨率的特征图通过一个3
×
3的卷积层,再分别通过两个并联的1
×
1卷积层和relu激活函数,输出特征图所有像素点对应所有锚框的目标分数和边界框回归参数如下:
[0187]
cls=[裂缝概率]
[0188]
ti==[t
x
,ty,tw,th]
[0189]
其中,cls为rpnhead预测的裂缝概率,ti表示rpnhead预测的第i个锚框的边界框回归参数。
[0190]
具体的,其特征在于,通过边界框回归参数对得到的锚框进行调整,得到候选框(proposals),公式如下;
[0191]
x=wat
x
+xa[0192]
y=haty+ya[0193]
w=waexp(tw)
[0194]
h=haexp(th)
[0195]
其中,x,y,w,h为proposals的中心坐标(x,y)以及边界框宽度高度,xa,ya,wa,ha为锚框的中心坐标以及宽高,t
x
,ty,tw,th为rpnhead预测的边界框回归参数。
[0196]
具体的,对proposals进行筛选,首先根据裂缝图像中每个proposals目标分数,筛
选出裂缝概率最大的前2000个proposals,删除不满足条件者,然后删除面积较小的proposals,最后找到所有proposals中坐标最大的数值所对应的proposal,将其他proposals与之做交并比计算(iou),利用非极大值抑制算法(nms)对所有proposals进行筛选,最后将proposals投影到ir7-ec输出的特征图上获得相应的特征矩阵。
[0197]
具体的,rpnhead结构损失计算方法如下:
[0198][0199][0200][0201][0202][0203][0204][0205]
t
x
=(x-xa)/wa,ty=(y-ya)/ha[0206]
tw=ln(w/wa),th=ln(h/ha)
[0207]
其中,loss({pi},{ti})为rpn的损失,包括分类损失和边界框回归损失,pi表示第i个anchor预测为目标的概率,当anchor为正样本时为1,负样本时为0,ti表示预测的第i个anchor的边界框回归参数,表示第i个anchor对应的gt box的边界框回归参数,n
cls
表示一个mini-batch中所有样本数量,本专利中取96,n
reg
表示样本位置个数,ti表示rpnhead预测的第i个锚框的边界框回归参数,x
*y*
,w
*
,h
*
为gt box的中心坐标(x,y)以及边界框宽度高度,λ用于平衡分类损失与边界框回归损失,本专利中取10。
[0208]
具体的,步骤5中roi pooling将得到的所有proposals通过池化操作特征提取,所有proposals尺寸均转化为7
×
7大小特征图。
[0209]
具体的,步骤5中全连接层结构为两个串联的全连接层(fc1,fc2),将特征图展平后通过两个全连接层后传入两个并行的全连接层(fc3,fc4),用于预测每一个proposal的裂缝类别分数和边界框回归参数,利用fc4输出的边界框回归参数调整proposals,通过与rpn相似的步骤计算全连接层损失如下:
[0210]
loss(p,u,tu,v)=l
cls
(p,u)+λ[u≥1]l
loc
(tu,v)
[0211]
l
cls
(p,u)=-log pu[0212][0213]
其中,loss(p,u,tu,v)为roi head的损失函数,包括分类损失和边界框回归损失,
p是分类器预测的softmax概率分布p=(po,......pk),k为裂缝类别数量加1,u对应目标真实类别标签,tu对应边界框回归器(fc4)预测的对应类别u的边界框回归参数,v对应真实目标gt box边界框回归参数v
x
,vy,vw,vh,计算方法参考rpn损失计算。
[0214]
具体的,通过步骤5中postprocess detections对网络的预测数据进行后处理,包括(1)根据proposals以及fc4预测的回归参数计算出最终边界框(bbox)坐标,(2)对预测类别结果进行softmax处理得到裂缝概率,(3)移除所有背景信息,(4)移除低概率目标与小尺寸目标,(5)参照rpnhead中的nms方法对roi head中预测结果进行筛选。
[0215]
具体的,最终bbox坐标计算公式如下:
[0216][0217][0218][0219][0220]
其中,x,y,w,h为rpn输出的proposals的中心坐标(x,y)以及边界框宽度高度,为全连接层fc4预测的边界框回归参数,x
p
,y
p
,w
p
,h
p
为roihead预测的裂缝位置框中心坐标以及宽高。
[0221]
具体的,步骤7中利用下式adam算法对网络内部参数进行优化:
[0222]
f(θ)=loss
[0223][0224]mt
=β1·mt-1
+(1-β1)
·gt
[0225][0226][0227][0228][0229]
其中,loss是网络rpn或roi head的损失函数,θ是模型中待更新的参数,g
t
是损失函数f(θ)对θ求导所得的梯度,β1是一阶矩衰减系数,β2是二阶矩衰减系数,m
t
是梯度g
t
的期望,v
t
是的期望,是m
t
的偏置校正,是v
t
的偏置矫正,θ
t-1
是网络更新前的参数,θ
t
是网络更新后的参数,α是学习率。
[0230]
将实拍混凝土图像作为测试集输入训练好的faster-rir-7ec混凝土裂缝识别算法中,算法结构见图3,最后输出混凝土裂缝图像识别结果,如图5为利用faster-rir-7ec混凝土裂缝识别算法得到的裂缝识别结果图。
[0231]
参照图1,在本实施例中,分别对本专利中提出的faster-rir-7ec算法和目前通用神经网络作为faster-rcnn特征提取层,包括vgg16、resnet34和同样包含大量倒残差结构的mobilenet_v3_large进行训练,并在训练20个周期结束后通过上述网络对混凝土裂缝图
像测试集进行裂缝识别,各模型的模型大小、训练时长、map(mean average precision)、mar(mean average recall)和fps(每秒钟处理图像数量)见表3。
[0232]
表3各模型的模型大小、训练时长、map、mar和fps
[0233][0234]
其中查准率(precision)为预测所有正样本中判断正确的比例,precision越高,表示网络误报的可能性越低。map为所有类别的样本的precision的平均值。precision计算公式如下:
[0235][0236]
查全率(recall,true positive rate)为预测正确的所有正样本占实际所有正样本的比例,recall越高,意味着网络漏报的可能性越低。mar为所有类别样本的recall的平均值。recall计算公式如下:
[0237][0238]
其中,tp、fp和fn解释如下:tp:iou》0.5的检测框数量;fp:iou≤0.5的检测框数量;fn:没有检测到gt(ground truth)的数量。
[0239]
由表3可知,提出的faster-rir7-ec混凝土裂缝识别算法与通用网络vgg16_bn、resnet34和mobilenet_large作为faster-rcnn特征提取层相比,拥有更小的模型大小,更短的模型训练时间,更高的fps。与此同时,在预测边界框与gtbox交并比大于0.5(iou=0.5)、0.75(iou=0.75)的条件下依然拥有不逊色于占用内存高,训练耗时长的通用网络map与mar。为了更进一步证明模型的普适性,在交并比大于0.5,0.55,0.6,0.65,0.7,0.75,0.8,0.85,0.9,0.95的条件下分别求出相应的map,再求平均,得到iou=0.50:0.05:0.95条件下的map为65.8%,仅次于mobilenet_large模型下的66%,高于其他通用网络,但提出的faster-rir7-ec在训练时间上是vgg_bn的1/9,是mobilenet_large的1/3,fps同样远远超过表3中的所有通用网络,证明了所提出的faster-rir7-ec在混凝土裂缝识别问题上的快速与精准。
[0240]
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1