本发明属于印章识别;尤其涉及一种基于yolov5的轻量化印章目标检测方法。
背景技术:
1、印章识别服务于两大类应用:一是电子印章的加盖、查找和票据上印章去除等业务流程管理,二是印章印文的司法鉴定。在实际应用中需要提取电子文件中某时间段内加盖印有某特定印章的电子文件,但在存储过程中并没有对印章进行管理,文件间名称关联性不强时,查找则消耗大量时间。
2、投标文件中的印章,来源于标书制作软件的电子签章系统和扫描附件图片中的印章,印章的加盖效果受到印章材质,印章印面老化、磨损,纸张粗糙度,盖印压力,文件下衬垫物,印面附着物,印泥或印油等综合因素影响。采用传统人工印章识别方法,需要人工肉眼识别,速度慢,准确率低。当招标数量大,投标人多,且投标文件页数在几百页甚至上千页时,对投标文件中印章进行识别时,工作量巨大,且容易漏查。通过对cnas和iaf印章的识别,可以快速定位至电子投标文件的资质认证页面。
技术实现思路
1、本发明要解决的技术问题是:提供一种基于yolov5的轻量化印章目标检测方法,以解决投标文件中的印章的加盖效果受到印章材质,印章印面老化、磨损,纸张粗糙度,盖印压力,文件下衬垫物,印面附着物,印泥或印油等综合因素影响导致识别速度慢,准确率低等技术问题。
2、本发明的技术方案是:
3、一种基于yolov5的轻量化印章目标检测方法,所述方法包括:
4、步骤1、获取电子投标文件,进行文件分页预处理,建立电子投标文件的印章图像数据集;
5、步骤2、利用labelimg软件标注八种形状的印章图片样本,并对印章图片样本进行数据增强及聚类预处理;
6、步骤3、将数据增强后的印章图像数据集按8:2比例,划分为训练集与验证集;
7、步骤4、对基于yolov5印章识别模型进行改进;包括将yolov5的neck网络中的conv替换为gsconv;将neck网络中的c3替换为vovgscsp、将上采样替换为carafe算子、增加cbam注意力机制及将ciou损失函数替换为eiou损失函数;
8、步骤5、使用标注好的印章图像数据集对改进后的yolov5印章识别模型进行调试和优化,得出最优检测模型。
9、使用k-means++算法对印章数据集进行聚类预处理,计算得到符合pdf文档图片的各类印章目标实际尺寸的锚点框,设置为网络先验框,提高预测框匹配的准确性。
10、利用labelimg软件对印章图像数据集进行标注,将圆形印章标注为sealcircle、椭圆形印章标注为sealellipse、正方形印章标注为sealsquare、长方形印章标注为sealrectangle、菱形印章标注为sealdiamond、三角形印章标注为sealtriangle、cnas印章标注为sealcnas及iaf印章标注为sealiaf。
11、数据增强方法为:通过翻转、缩放及色域变化组合进行数据增强以丰富印章图像数据集,在图像增强时,采用mosaic随机选取4张图片进行翻转、缩放及色域变化操作丰富八种印章形状的检测背景。
12、neck网络中将conv替换为gsconv,将c3替换为vovgscsp模块,在降低计算量的同时,保持了特征增强的能力。
13、将上采样替换为carafe算子方法包括:在上采样核预测部分中,首先将输入的h×w×c特征图的通道数压缩到cm,上采样倍率为σ,上采样尺寸为kup×kup,通过卷积操作将通道数从cm变为σ2kup2以实现内容编码,然后将通道在空间维度上展开,而后对得到的上采样核进行softmax归一化,使卷积核的权重和为1;在特征重组部分,将输出特征图中的每个位置映射回输入特征图中,取出以该特征点为中心的kup×kup的大小区域为输入特征图,用上采样核预测模块预测得出该点的上采样核进行点积运算得出上采样特征,最终得到σh×σw×c的新特征图。
14、cbam注意力机制包含通道注意力模块和空间注意力模块,通道注意力模块中,通过重新分配特征图之间的权重,加大对印章关键特征图的关注,弱化冗余特征图对识别结果的影响;空间注意力模块,将输入特征图进行最大池化和平均池化,得到两个特征图,再将这两个特征图基于通道进行拼接处理,最后经过sigmoid激活函数生成空间特征图。
15、eiou函数计算式如下表示:
16、leiou=1-iou+ldis+lasp
17、
18、其中,ldis表示距离损失,lasp表示高宽损失,c表示能包裹真实框和预测框的最小矩形对角线,cw和ch分别表示该最小矩形的宽度和高度,ρ(w,wgt)表示真实框和预测框宽的差值,ρ(h,hgt)表示预测框和预测框高的差值。
19、本发明有益效果是:
20、本发明通过基于yolov5的轻量化印章目标检测方法及装置,carafe上采样,引入cbam注意力机制,eiou损失函数,其中椭圆形,cnas和iaf印章的map@0.5%得到提高,参数量和计算量减小,权重文件大小减小,便于在配置不高的设备中实现印章的快速检测。
21、解决了投标文件中的印章的加盖效果受到印章材质,印章印面老化、磨损,纸张粗糙度,盖印压力,文件下衬垫物,印面附着物,印泥或印油等综合因素影响导致识别速度慢,准确率低等技术问题。
1.一种基于yolov5的轻量化印章目标检测方法,其特征在于:所述方法包括:
2.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:使用k-means++算法对印章数据集进行聚类预处理,计算得到符合pdf文档图片的各类印章目标实际尺寸的锚点框,设置为网络先验框,以提高预测框匹配的准确性。
3.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:利用labelimg软件对印章图像数据集进行标注,将圆形印章标注为sealcircle、椭圆形印章标注为sealellipse、正方形印章标注为sealsquare、长方形印章标注为sealrectangle、菱形印章标注为sealdiamond、三角形印章标注为sealtriangle、cnas印章标注为sealcnas及iaf印章标注为sealiaf。
4.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:数据增强方法为:通过翻转、缩放及色域变化组合进行数据增强以丰富印章图像数据集,在图像增强时,采用mosaic随机选取4张图片进行翻转、缩放及色域变化操作丰富八种印章形状的检测背景。
5.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:将上采样替换为carafe算子方法包括:在上采样核预测部分中,首先将输入的h×w×c特征图的通道数压缩到cm,上采样倍率为σ,上采样尺寸为kup×kup,通过卷积操作将通道数从cm变为σ2kup2以实现内容编码,然后将通道在空间维度上展开,而后对得到的上采样核进行softmax归一化,使卷积核的权重和为1;在特征重组部分,将输出特征图中的每个位置映射回输入特征图中,取出以该特征点为中心的kup×kup的大小区域为输入特征图,用上采样核预测模块预测得出该点的上采样核进行点积运算得出上采样特征,最终得到σh×σw×c的新特征图。
6.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:cbam注意力机制包含通道注意力模块和空间注意力模块,通道注意力模块中,通过重新分配特征图之间的权重,加大对印章关键特征图的关注,弱化冗余特征图对识别结果的影响;空间注意力模块,将输入特征图进行最大池化和平均池化,得到两个特征图,再将这两个特征图基于通道进行拼接处理,最后经过sigmoid激活函数生成空间特征图。
7.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:eiou函数计算式如下表示:
8.根据权利要求1所述的一种基于yolov5的轻量化印章目标检测方法,其特征在于:得出最优检测模型的方法包括:将训练集用于对改进后的yolov5印章识别模型进行训练,通过验证集对训练后的印章识别模型进行验证,选择识别正方形和长方形准确率最优的权重参数对应的模型作为最优改进yolov5模型。