本发明涉及一种基于yolo模型的证件识别文字区域二次定位方法,属于自助终端技术领域。
背景技术:
证件识别是发展比较早的一项技术,随着自助设备的增多,该技术又有了新的发展空间,例如身份证、护照、驾驶证等证件的终端识别设备已经在金融、海关、交通等行业普遍应用。证件识别主要分为图像处理、文字区域定位提取、文字识别等步骤,原先的证件识别一般采用基础图像处理技术、特征提取、特征匹配等技术。随着机器学习、深度学习等技术的发展,越来越多的证件识别采用深度学习的方式,利用深度学习训练模型对文字区域进行定位和文字识别,其中,文字区域定位常采用yolo模型,但利用yolo进行文字区域定位后可能存在以下问题:1.不能准确定位到水平方向的左右边界;yolo模型进行文字区域整行定位时,由于拍摄环境以及证件背景的问题,定位的文字区域水平方向的左右边界可能不准确;2.不能准确定位到垂直方向的上下边界,yolo模型进行文字区域整行定位时,由于拍摄环境以及证件背景的问题,定位的文字区域垂直方向的上下边界可能不准确;3.针对不同的证件类型模型训练参数调整比较麻烦,yolo模型进行文字区域定位训练时,需要根据每一种证件的版面进行参数调整、样本标注等,不同版本的同一种证件之间可能存在背景的差别,这样可能需要对模型训练中的参数进行调整,重新训练,时间成本大。
技术实现要素:
针对上述存在的技术问题,本发明的目的是:提出了一种基于yolo模型的证件识别文字区域二次定位方法,可准确提取到完整区域,有效提高证件识别的正确率。
本发明的技术解决方案是这样实现的:一种基于yolo模型的证件识别文字区域二次定位方法,包括如下步骤,步骤1、训练模型,采集待识别证件的照片,并进行样本标注,进行训练得到文字区域检测模型;步骤2、yolo模型定位文字区域,对待识别证件进行证件区域提取、正向校正处理,利用训练得到的yolo模型进行文字区域定位,得到每一行的文字区域;步骤3、文字区域水平方向重定位,在步骤2的基础上,利用yolo模型检测得到文字区域,将原始证件照片进行去噪、二值化处理,以每行的区域的左右边界为起点,分别向前、向后,且不超出图像边界,进行文字区域左右边缘查找,以连续两列区域没有字符为阈值,得到每一行新的左右文字区域临界位置,对每一行文字区域的左右边界进行重新定位;步骤4、文字区域垂直方向重定位,在步骤3文字区域左右边界重新定位后得到的每行文字新的区域的基础上,进行每行文字区域的上下边界重新定位;在水平方向重新定位边界后,在原始证件图像上得到每一行的文字区域,然后以每一行新区域的上下边界为起点,分别向上、向下,且不超过相邻上下两行的区域边界,进行文字区域上下边缘查找,以连续两行区域没有字符为阈值,得到每一行新的上下文字区域临界位置。如果仅有两行文字,且两行文字的字体相同,可在中间位置进行分割得到两行文字区域。
优选的,在步骤三中,所述阈值可根据具体的证件进行调整。
优选的,在步骤四中,所述阈值可根据具体的证件进行调整。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明的一种基于yolo模型的证件识别文字区域二次定位方法,检测得到每一行文字区域的基础上进行每一行文字区域的左右和上下边界进行重新定位的方式,利用二值化后的证件图像,连接多行没有文字像素为阈值确定文字区域边界的方式,本方法在训练样本多样性不足,训练得到的模型不能准确定位时,起到很好的补充作用,可以利用其他模型或模型优化方法对文本区域检测模型进行训练、优化,得到检测效果更好的模型,可准确提取到完整区域,这样可以有效提高证件识别的正确率。
具体实施方式
下面来说明本发明。
本发明所述的一种基于yolo模型的证件识别文字区域二次定位方法,包括如下步骤,步骤1、训练模型,采集待识别证件的照片,并进行样本标注,进行训练得到文字区域检测模型;步骤2、yolo模型定位文字区域,对待识别证件进行证件区域提取、正向校正处理,利用训练得到的yolo模型进行文字区域定位,得到每一行的文字区域;步骤3、文字区域水平方向重定位,在步骤2的基础上,利用yolo模型检测得到文字区域,将原始证件照片进行去噪、二值化处理,以每行的区域的左右边界为起点,分别向前、向后,且不超出图像边界,进行文字区域左右边缘查找,以连续两列区域没有字符为阈值(阈值可根据具体的证件进行调整),得到每一行新的左右文字区域临界位置,对每一行文字区域的左右边界进行重新定位;步骤4、文字区域垂直方向重定位,在步骤3文字区域左右边界重新定位后得到的每行文字新的区域的基础上,进行每行文字区域的上下边界重新定位;在水平方向重新定位边界后,在原始证件图像上得到每一行的文字区域,然后以每一行新区域的上下边界为起点,分别向上、向下,且不超过相邻上下两行的区域边界,进行文字区域上下边缘查找,以连续两行区域没有字符为阈值(阈值可根据具体的证件进行调整),得到每一行新的上下文字区域临界位置。如果仅有两行文字,且两行文字的字体相同,可在中间位置进行分割得到两行文字区域。
本发明的一种基于yolo模型的证件识别文字区域二次定位方法,检测得到每一行文字区域的基础上进行每一行文字区域的左右和上下边界进行重新定位的方式,利用二值化后的证件图像,连接多行没有文字像素为阈值确定文字区域边界的方式,本方法在训练样本多样性不足,训练得到的模型不能准确定位时,起到很好的补充作用,可以利用其他模型或模型优化方法对文本区域检测模型进行训练、优化,得到检测效果更好的模型,可准确提取到完整区域,这样可以有效提高证件识别的正确率。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。
1.一种基于yolo模型的证件识别文字区域二次定位方法,其特征在于:包括如下步骤,步骤1、训练模型,采集待识别证件的照片,并进行样本标注,进行训练得到文字区域检测模型;步骤2、yolo模型定位文字区域,对待识别证件进行证件区域提取、正向校正处理,利用训练得到的yolo模型进行文字区域定位,得到每一行的文字区域;步骤3、文字区域水平方向重定位,在步骤2的基础上,利用yolo模型检测得到文字区域,将原始证件照片进行去噪、二值化处理,以每行的区域的左右边界为起点,分别向前、向后,且不超出图像边界,进行文字区域左右边缘查找,以连续两列区域没有字符为阈值,得到每一行新的左右文字区域临界位置,对每一行文字区域的左右边界进行重新定位;步骤4、文字区域垂直方向重定位,在步骤3文字区域左右边界重新定位后得到的每行文字新的区域的基础上,进行每行文字区域的上下边界重新定位;在水平方向重新定位边界后,在原始证件图像上得到每一行的文字区域,然后以每一行新区域的上下边界为起点,分别向上、向下,且不超过相邻上下两行的区域边界,进行文字区域上下边缘查找,以连续两行区域没有字符为阈值,得到每一行新的上下文字区域临界位置。如果仅有两行文字,且两行文字的字体相同,可在中间位置进行分割得到两行文字区域。
2.如权利要求1所述的一种基于yolo模型的证件识别文字区域二次定位方法,其特征在于:在步骤三中,所述阈值可根据具体的证件进行调整。
3.如权利要求1所述的一种基于yolo模型的证件识别文字区域二次定位方法,其特征在于:在步骤四中,所述阈值可根据具体的证件进行调整。