本技术涉及身份证区域定位领域,更具体地,涉及一种基于方向注意力机制的yoloe身份证区域检测方法及系统。
背景技术:
1、随着互联网科技、移动互联科技的发展和云端计算服务、移动智能设备的普及(性能提升),智能ocr识别技术在云端、服务器端及移动端的应用也得到了长足的发展。身份证信息的自动化ocr识别是运营商实名认证的一项重要技术。为了方便身份证信息的结构化提取,身份证的区域定位及其方向纠正是其中的关键。
2、身份证的区域定位能排除图片上非身份证区域中的文字干扰,从而有利于后续的身份证信息的结构化提取;而方向识别能纠正身份证的方向,从而方便后续的文字检测以及文字识别任务。因此,身份证的区域定位及方向纠正对于整个身份证信息自动化识别技术至关重要。
3、随着深度学习的普及,基于深度学习的身份证区域自动化定位受到了越来越多研究者的关注,然而目前一般的技术都集中于身份证区域自动化检测功能的实现。例如,专利cn201910214059.3中描述了一种身份证区域定位方法、装置、计算机设备及存储介质,其仅仅关注身份证区域自动化的检测功能,而并不考虑模型识别性能以及识别效率。
4、如众所周知的,身份证的实名认证过程涉及多个流程(诸如但不限于,图片质量检测、区域定位及方向纠正、文本检测、文字识别、信息结构提取等),推理效率或者识别性能低下的模型必然会影响用户实名认证体验。因此,如何提高身份证区域检测模型的识别性能与推理效率是其中的一个重要问题。
5、现有的身份证区域定位方法主要有两种,一种是基于传统的图像处理方法。例如,专利cn201810739364.x中揭示了一种证件图像的裁切方法、装置、系统及存储介质。其技术方案使用边缘检测法对图像进行检测,该方法执行效率较高但鲁棒性比较差,对于证件边界模糊等情形轮廓检测不准确。
6、另外一种是基于深度学习的目标检测算法。例如,在上述专利cn201910214059.3中,直接使用已有的目标检测算法进行身份证区域检测,并没有针对业务场景数据或者任务合理设计模型,因此模型的性能有待提高。
7、再例如,专利cn202011540515.2中揭示了一种身份证图像拍摄质量评价方法、装置、计算机设备和介质。其技术方案在身份证区域定位实施中采用了无锚点的轻量级神经网络,其模型的推理效率有了一定的进步。
8、通过大量的实名认证业务数据分析,我们发现身份证是大目标且尺寸也相仿,这是专利cn202011540515.2使用mobilenetv3作为backbone能够奏效的关键。
9、然而mobilenetv3也有着不同的尺度,随着网络的深度与宽度的收缩,更轻量化的模型对于目标定位以及方向识别的性能下降。现有的研究,如coordattention(参见,hou,qibin,daquan zhou,and jiashi feng."coordinate attention for efficient mobilenetwork design."proceedings of the ieee/cvf conference on computer vision andpattern recognition.2021)从目标检测的定位任务出发,是一种为提高轻量化模型对于位置的检测能力而设计的注意力机制。该注意力模块使得模型对于物体的位置感知能力更强。然而,尽管coordattention对位置感知能力更强,但是对方向感知能力却不足。因此,对于例如身份证区域定位及方向纠正的领域而言,显然不能满足相应的要求。
10、因此,本领域急需一种能解决上述诸多问题中的一者或多者的解决方案。该解决方案不但能够降低模型推理延时,同时能够提高模型对于身份证位置定位及方向识别的准确率,方便后续的信息结构化提取等任务,从而极大地提高了用户的实名认证体验。
技术实现思路
1、以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。
2、为了解决现有技术中的诸多问题,本技术提出了一种基于方向注意力机制的yoloe身份证区域检测方法及系统。该方法和系统能有效提高模型对于目标定位以及方向的感知能力,从而提高模型对于目标定位以及方向识别的准确率。
3、而本技术的技术方案中,模型的任务包括定位任务以及方向识别任务,根据这个特点,本技术设计了一种新的方向注意力机制以改进yoloe模型。
4、根据本技术的第一方面,描述了一种基于方向注意力机制改进的yoloe身份证区域检测方法,该方法包括以下步骤:s1:获取身份证图片数据;s2:对该图片数据进行标注框标注并为标注框打类别标签以获得经标注数据集;s3:将经标注数据集按比例划分为训练集、测试集和验证集;s4:基于yoloe模型来构建检测网络;s5:利用训练集训练检测网络、使用验证集来验证每次训练后的模型、记录迭代次数以及模型在验证集上的map、以及保存模型;s6:确定当前迭代次数是否大于预设阈值或map是否满足早停条件:如果大于预设阈值或满足早停条件,则停止训练模型;否则,返回训练步骤继续训练;s7:利用测试集测试所保存的模型以获得map最高的模型;s8:基于map最高的模型来进行身份证区域检测,其中yoloe模型中的backbone为mobilenetv3,并且yoloe模型中的spp模块的池化核为矩形。
5、根据本技术的优选实施例,基于map最高的模型来进行身份证区域检测进一步包括:s9:使用map最高的模型对上传图片进行检测以获取结果;s10:若结果为空则返回s9重新获取图片,否则:s11:获取身份证区域坐标box1及其对应类型标签;s12:根据标签获得第一方向;s13:对图片进行反向旋转以得到经旋转图片;s14:对box1进行反向旋转以得到box2;s15:从经旋转图片中截取box2以获得身份证区域。
6、根据本技术的优选实施例,类别标签包括上、下、左、右。
7、根据本技术的优选实施例,mobilenetv3中的注意力模块从水平和垂直两个方向构建注意力。
8、根据本技术的优选实施例,矩形池化核包括:1×3、1×5、3×1、5×1。
9、根据本技术的优选实施例,将经标注数据集按比例划分为训练集、测试集和验证集包括将经标注数据集按8:1:1划分为训练集、测试集和验证集。
10、根据本技术的优选实施例,在步骤s3中,若数据集中的数据不足,则进行数据增强,其中数据增强不包括旋转增强。
11、根据本技术的优选实施例,在mobilenetv3中的任一层上启用注意力模块。
12、根据本技术的优选实施例,早停条件为最近n次迭代map的变化不超过阈值p,其中n为3,p为0.01。
13、根据本技术的第二方面,描述了一种基于方向注意力机制改进的yoloe身份证区域检测系统,该系统用于实现上述方法。
14、为能达成前述及相关目的,这一个或多个方面包括在下文中充分描述并在所附权利要求中特别指出的特征。以下描述和附图详细阐述了这一个或多个方面的某些解说性特征。但是,这些特征仅仅是指示了可采用各种方面的原理的各种方式中的若干种,并且本描述旨在涵盖所有此类方面及其等效方案。