基于OCR的证件识别方法、装置、终端和存储介质与流程

文档序号:22797590发布日期:2020-11-04 03:52阅读:148来源:国知局
基于OCR的证件识别方法、装置、终端和存储介质与流程

本申请涉及证件识别技术领域,尤其涉及一种基于ocr的证件识别方法、装置、终端和存储介质。



背景技术:

随着移动互联网的普及,港澳地区居民来往内地通行证与台湾地区居民来往内地通行证的证件信息录入场景越来越多。目前识别设备无法同时识别新版和旧版的证件,并且只能识别证件的正面内容,如遇到回乡证更新换代,当下的光学字符识别ocr服务(opticalcharacterrecognition,光学字符识别)需收集大量的新版数据集重新训练,不能快速支持。由此可见,目前基于ocr的证件识别效率低。



技术实现要素:

本申请的主要目的在于提供一种基于ocr的证件识别方法、装置、终端及计算机存储介质,旨在解决现有技术中基于ocr的证件识别效率低的技术问题。

为实现上述目的,本申请实施例提供一种基于ocr的证件识别方法,所述基于ocr的证件识别方法的步骤包括:

获取待识别证件的图片,通过ocr对所述图片进行识别,将识别得到的字符存储至预设字符数组;

基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;

基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;

基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。

可选地,所述按识别的先后顺序,将得到的所述预设字符数组逐个存储以生成存储信息;所述基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息的步骤包括:

依次检测所述预设字符数组的存储信息中最后三行每行的非汉字字符个数;

若所述每行的非汉字字符个数符合第一预设范围,且所述最后三行任一行包括第一预设字符,则判定所述待识别证件的正反面信息为反面证件;

若所述每行的非汉字字符个数不符合第一预设范围,则判定所述待识别证件的正反面信息为正面证件。

可选地,所述基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息的步骤包括:

当所述待识别证件的正反面信息为反面证件时,若所述预设字符数组的存储信息符合行数小于10并且大于5,且不存在预设文字,则判定所述待识别证件的版本信息为新版证件;

若所述预设字符数组的存储信息符合行数小于6并且存在所述预设文字,则判定所述待识别证件的版本信息为旧版证件;

当所述待识别证件的正反面信息为正面证件时,若所述预设字符数组的存储信息符合第一预设版本区分规则,则判定所述待识别证件的版本信息为新版证件;

若所述预设字符数组的存储信息符合第二预设版本区分规则,则判定所述待识别证件的版本信息为旧版证件。

可选地,所述基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容的步骤包括:

检测所述预设字符数组中第二行或第三行是否存在数量小于第一预设值的目标汉字,若存在,则所述目标汉字为中文姓名;

检测所述中文姓名后两行的预设字符数组,若所述中文姓名后两行的预设字符数组存在数量大于第二预设值的目标大写字母,若存在,则所述目标大写字母为所述中文姓名的英文姓名,其中,所述第二预设值大于所述第一预设值。

可选地,所述基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容的步骤还包括:

当版本信息为新版证件时,检测所述预设字符数组中第九行至第十三行是否存在数量大于所述第一预设值的汉字,并且所述汉字存在第二预设字符,若存在,则所述第二预设字符为签发机关;

检测所述预设字符数组中第五行至第八行是否存在字符长度小于第三预设值的第三预设字符或第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息;

检测所述预设字符数组中最后两行是否存在字符个数小于第四预设值的目标数字,若存在,则所述目标数字的最后两位数字为签发次数,若不存在,且所述最后两行中只存在任一目标行的字符个数大于第五预设值,则所述目标行的最后两位数字为签发次数;

当版本信息为旧版证件时,检测所述预设字符数组中第四行至第六行是否存在字符长度小于所述第三预设值的所述第三预设字符或所述第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息。

可选地,所述基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容的步骤还包括:

当版本信息为新版证件时,提取所述预设字符数组中第六行至第八行中任一行的第一数字,判断所述第一数字中是否存在字符长度为第六预设值的第一目标数字,且所述第一目标数字的大小符合第二预设范围,若存在,则所述第一目标数字为出生日期;

提取所述预设字符数组中第七行至第九行中任一行的第二数字,判断所述第二数字中是否存在字符长度为第七预设值的第二目标数字,若存在,则所述第二目标数字为有效日期;

当版本信息为旧版证件时,提取所述预设字符数组中第五行至第七行中任一行的第三数字,判断所述第三数字中是否存在字符长度为所述第六预设值的第三目标数字,且所述第三目标数字的大小符合第二预设范围,若存在,则所述第三目标数字为出生日期;

提取所述预设字符数组中行数大于第八行中任两行的数字,判断所述数字中是否存在字符长度都为所述第六预设值、大小符合所述第三预设范围、并且的第四目标数字和第五目标数字,若存在,则所述第四目标数字为截止有效期,所述第五目标数字为签发期,其中,所述第四目标数字大于所述第五目标数字。

可选地,所述基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容的步骤还包括:

当版本信息为新版证件时,检测所述预设字符数组中最后两行任一行是否存在非汉字字符总数符合第四预设范围的第一目标编号,若存在,则所述第一目标编号的前八位为台湾地区证件号码,所述第一目标编号的前九位为港澳地区证件号码;

检测所述预设字符数组中是否存在非汉字字符总数符合第五预设范围的第二目标编号,若存在,则所述第二目标编号的前十位为身份证号码;

当版本信息为旧版证件时,检测所述预设字符数组中前三行任一行是否存在非汉字字符总数符合所述第四预设范围的第三目标编号,若存在,则所述第三目标编号的前十一位为台湾地区证件号码或港澳地区证件号码;

检测所述预设字符数组中第七行至第十行任一行是否存在非汉字字符总数符合所述第五预设范围的第四目标编号,且所述第四目标编号不属于时间格式,若存在,则所述第四目标编号的前十位为港澳地区身份证号码。

本申请还提供一种基于ocr的证件识别装置,所述基于ocr的证件识别装置包括:

存储模块,用于获取待识别证件的图片,通过ocr对所述图片进行识别,将识别得到的字符存储至预设字符数组;

第一判定模块,用于基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;

第二判定模块,用于基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;

识别模块,用于基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。

可选地,所述第一判定模块包括:

第一检测单元,用于依次检测所述预设字符数组的存储信息中最后三行每行的非汉字字符个数;

第一判定单元,用于若所述每行的非汉字字符个数符合第一预设范围,且所述最后三行任一行包括第一预设字符,则判定所述待识别证件的正反面信息为反面证件;

第二判定单元,用于若所述每行的非汉字字符个数不符合第一预设范围,则判定所述待识别证件的正反面信息为正面证件。

可选地,所述第二判定模块包括:

第三判定单元,用于当所述待识别证件的正反面信息为反面证件时,若所述预设字符数组的存储信息符合行数小于10并且大于5,且不存在预设文字,则判定所述待识别证件的版本信息为新版证件;

第四判定单元,用于若所述预设字符数组的存储信息符合行数小于6并且存在所述预设文字,则判定所述待识别证件的版本信息为旧版证件;

第五判定单元,用于当所述待识别证件的正反面信息为正面证件时,若所述预设字符数组的存储信息符合第一预设版本区分规则,则判定所述待识别证件的版本信息为新版证件;

第六判定单元,用于若所述预设字符数组的存储信息符合第二预设版本区分规则,则判定所述待识别证件的版本信息为旧版证件。

可选地,所述识别模块包括:

第一识别单元,用于检测所述预设字符数组中第二行或第三行是否存在数量小于第一预设值的目标汉字,若存在,则所述目标汉字为中文姓名;

第二识别单元,用于检测所述中文姓名后两行的预设字符数组,若所述中文姓名后两行的预设字符数组存在数量大于第二预设值的目标大写字母,若存在,则所述目标大写字母为所述中文姓名的英文姓名,其中,所述第二预设值大于所述第一预设值。

可选地,所述识别模块还包括:

第三识别单元,用于当版本信息为新版证件时,检测所述预设字符数组中第九行至第十三行是否存在数量大于所述第一预设值的汉字,并且所述汉字存在第二预设字符,若存在,则所述第二预设字符为签发机关;

第四识别单元,用于检测所述预设字符数组中第五行至第八行是否存在字符长度小于第三预设值的第三预设字符或第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息;

第五识别单元,用于检测所述预设字符数组中最后两行是否存在字符个数小于第四预设值的目标数字,若存在,则所述目标数字的最后两位数字为签发次数,若不存在,且所述最后两行中只存在任一目标行的字符个数大于第五预设值,则所述目标行的最后两位数字为签发次数;

第六识别单元,用于当版本信息为旧版证件时,检测所述预设字符数组中第四行至第六行是否存在字符长度小于所述第三预设值的所述第三预设字符或所述第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息。

可选地,所述识别模块还包括:

第七识别单元,用于当版本信息为新版证件时,提取所述预设字符数组中第六行至第八行中任一行的第一数字,判断所述第一数字中是否存在字符长度为第六预设值的第一目标数字,且所述第一目标数字的大小符合第二预设范围,若存在,则所述第一目标数字为出生日期;

第八识别单元,用于提取所述预设字符数组中第七行至第九行中任一行的第二数字,判断所述第二数字中是否存在字符长度为第七预设值的第二目标数字,若存在,则所述第二目标数字为有效日期;

第九识别单元,用于当版本信息为旧版证件时,提取所述预设字符数组中第五行至第七行中任一行的第三数字,判断所述第三数字中是否存在字符长度为所述第六预设值的第三目标数字,且所述第三目标数字的大小符合第二预设范围,若存在,则所述第三目标数字为出生日期;

第十识别单元,用于提取所述预设字符数组中行数大于第八行中任两行的数字,判断所述数字中是否存在字符长度都为所述第六预设值、大小符合所述第三预设范围的第四目标数字和第五目标数字,若存在,则所述第四目标数字为截止有效期,所述第五目标数字为签发期,其中,所述第四目标数字大于所述第五目标数字。

可选地,所述识别模块还包括:

第十一识别单元,用于当版本信息为新版证件时,检测所述预设字符数组中最后两行任一行是否存在非汉字字符总数符合第四预设范围的第一目标编号,若存在,则所述第一目标编号的前八位为台湾地区证件号码,所述第一目标编号的前九位为港澳地区证件号码;

第十二识别单元,用于检测所述预设字符数组中是否存在非汉字字符总数符合第五预设范围的第二目标编号,若存在,则所述第二目标编号的前十位为身份证号码;

第十三识别单元,用于当版本信息为旧版证件时,检测所述预设字符数组中前三行任一行是否存在非汉字字符总数符合所述第四预设范围的第三目标编号,若存在,则所述第三目标编号的前十一位为台湾地区证件号码或港澳地区证件号码;

第十四识别单元,用于检测所述预设字符数组中第七行至第十行任一行是否存在非汉字字符总数符合所述第五预设范围的第四目标编号,且所述第四目标编号不属于时间格式,若存在,则所述第四目标编号的前十位为港澳地区身份证号码。

本申请还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于ocr的证件识别程序,所述基于ocr的证件识别程序被所述处理器执行时实现如上所述的基于ocr的证件识别方法的步骤。

本申请还提供一种计算机存储介质,所述计算机存储介质上存储有基于ocr的证件识别程序,所述基于ocr的证件识别程序被处理器执行时实现如上所述的基于ocr的证件识别方法的步骤。

本申请公开了一种基于ocr的证件识别方法、装置、终端和计算机可读存储介质,基于ocr的证件识别方法获取待识别证件的图片,通过ocr对所述图片进行识别,将识别得到的字符存储至预设字符数组;基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。本申请能够识别新版证件的正反面信息和旧版证件正反面信息,从而提高了对待识别证件的识别效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例一个可选的终端的硬件结构示意图;

图2为本申请基于ocr的证件识别方法第一实施例的流程示意图;

图3为本申请基于ocr的证件识别装置的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

如图1所示,图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请实施例终端可以是固定终端,包括证件识别机等,也可以是移动终端,包括手持证件识别仪器等联网设备。

如图1所示,该基于ocr的证件识别终端的架构设计包括节点和服务器,其设备结构可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,该基于ocr的证件识别终端还可以包括用户接口、网络接口、摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。用户接口可以包括显示屏(display)、触摸屏、摄像头(包括ar/vr设备)等,可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口、蓝牙接口、探针接口、3g/4g/5g联网通信接口等)。

本领域技术人员可以理解,图1中示出的基于ocr的证件识别终端结构并不构成对基于ocr的证件识别终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于ocr的证件识别程序。操作系统是管理和控制基于ocr的证件识别终端硬件和软件资源的程序,支持基于ocr的证件识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于ocr的证件识别终端中其它硬件和软件之间通信。

在图1所示的基于ocr的证件识别终端中,处理器1001用于执行存储器1005中存储的基于ocr的证件识别程序,执行以下操作:

获取待识别证件的图片,通过ocr对所述图片进行识别,将识别得到的字符存储至预设字符数组;

基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;

基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;

基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。

进一步地,处理器1001可以调用存储器1005中存储的基于ocr的证件识别程序,还执行以下操作:

依次检测所述预设字符数组的存储信息中最后三行每行的非汉字字符个数;

若所述每行的非汉字字符个数符合第一预设范围,且所述最后三行任一行包括第一预设字符,则判定所述待识别证件的正反面信息为反面证件;

若所述每行的非汉字字符个数不符合第一预设范围,则判定所述待识别证件的正反面信息为正面证件。

进一步地,处理器1001可以调用存储器1005中存储的基于ocr的证件识别程序,还执行以下操作:

当所述待识别证件的正反面信息为反面证件时,若所述预设字符数组的存储信息符合行数小于10并且大于5,且不存在预设文字,则判定所述待识别证件的版本信息为新版证件;

若所述预设字符数组的存储信息符合行数小于6并且存在所述预设文字,则判定所述待识别证件的版本信息为旧版证件;

当所述待识别证件的正反面信息为正面证件时,若所述预设字符数组的存储信息符合第一预设版本区分规则,则判定所述待识别证件的版本信息为新版证件;

若所述预设字符数组的存储信息符合第二预设版本区分规则,则判定所述待识别证件的版本信息为旧版证件。

进一步地,处理器1001可以调用存储器1005中存储的基于ocr的证件识别程序,还执行以下操作:

检测所述预设字符数组中第二行或第三行是否存在数量小于第一预设值的目标汉字,若存在,则所述目标汉字为中文姓名;

检测所述中文姓名后两行的预设字符数组,若所述中文姓名后两行的预设字符数组存在数量大于第二预设值的目标大写字母,若存在,则所述目标大写字母为所述中文姓名的英文姓名,其中,所述第二预设值大于所述第一预设值。

进一步地,处理器1001可以调用存储器1005中存储的基于ocr的证件识别程序,还执行以下操作:

当版本信息为新版证件时,检测所述预设字符数组中第九行至第十三行是否存在数量大于所述第一预设值的汉字,并且所述汉字存在第二预设字符,若存在,则所述第二预设字符为签发机关;

检测所述预设字符数组中第五行至第八行是否存在字符长度小于第三预设值的第三预设字符或第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息;

检测所述预设字符数组中最后两行是否存在字符个数小于第四预设值的目标数字,若存在,则所述目标数字的最后两位数字为签发次数,若不存在,且所述最后两行中只存在任一目标行的字符个数大于第五预设值,则所述目标行的最后两位数字为签发次数;

当版本信息为旧版证件时,检测所述预设字符数组中第四行至第六行是否存在字符长度小于所述第三预设值的所述第三预设字符或所述第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息。

进一步地,处理器1001可以调用存储器1005中存储的基于ocr的证件识别程序,还执行以下操作:

当版本信息为新版证件时,提取所述预设字符数组中第六行至第八行中任一行的第一数字,判断所述第一数字中是否存在字符长度为第六预设值的第一目标数字,且所述第一目标数字的大小符合第二预设范围,若存在,则所述第一目标数字为出生日期;

提取所述预设字符数组中第七行至第九行中任一行的第二数字,判断所述第二数字中是否存在字符长度为第七预设值的第二目标数字,若存在,则所述第二目标数字为有效日期;

当版本信息为旧版证件时,提取所述预设字符数组中第五行至第七行中任一行的第三数字,判断所述第三数字中是否存在字符长度为所述第六预设值的第三目标数字,且所述第三目标数字的大小符合第三预设范围,若存在,则所述第三目标数字为出生日期;

提取所述预设字符数组中行数大于第八行中任两行的数字,判断所述数字中是否存在字符长度都为所述第六预设值、大小符合所述第二预设范围的第四目标数字和第五目标数字,若存在,则所述第四目标数字为截止有效期,所述第五目标数字为签发期,其中,所述第四目标数字大于所述第五目标数字。

进一步地,处理器1001可以调用存储器1005中存储的基于ocr的证件识别程序,还执行以下操作:

当版本信息为新版证件时,检测所述预设字符数组中最后两行任一行是否存在非汉字字符总数符合第四预设范围的第一目标编号,若存在,则所述第一目标编号的前八位为台湾地区证件号码,所述第一目标编号的前九位为港澳地区证件号码;检测所述预设字符数组中是否存在非汉字字符总数符合第五预设范围的第二目标编号,若存在,则所述第二目标编号的前十位为身份证号码;

当版本信息为旧版证件时,检测所述预设字符数组中前三行任一行是否存在非汉字字符总数符合所述第四预设范围的第三目标编号,若存在,则所述第三目标编号的前十一位为台湾地区证件号码或港澳地区证件号码;检测所述预设字符数组中第七行至第十行任一行是否存在非汉字字符总数符合所述第五预设范围的第四目标编号,且所述第四目标编号不属于时间格式,若存在,则所述第四目标编号的前十位为港澳地区身份证号码。

基于上述硬件结构,提出本申请基于ocr的证件识别方法的各个实施例。

参照图2,本申请基于ocr的证件识别方法第一实施例提供一种基于ocr的证件识别方法,所述基于ocr的证件识别方法包括:

步骤s10,获取待识别证件的图片,通过ocr对所述图片进行识别,将识别得到的字符存储至预设字符数组;

在本申请公开的技术方案中,待识别证件包括港澳地区居民来往内地通行证,以及台湾地区居民来往内地通行证;文字包括汉字、数字、标点符号等;在检测到待识别证件时,首先获取待识别证件的图片,然后扫描图片的每一行从而对获取的图片进行识别,从而可以识别得到一系列信息,然后再将识别得到的字符按照与图片上信息对应的行的形式存储至预设字符数组,例如,当识别到图片上第一行是“王小明”,则将“王小明”存储至第一行的预设字符数组;当识别到图片上第四行是“男”,则将“男”存储至第四行的预设字符数组。

具体地,本申请采用目标检测技术库yolov3与包含长短期记忆模型神经网络lstm的卷积循环神经网络crnn构建文字检测和文字识别服务,对等待识别证件的图片进行端到端不定长文字检测与ocr识别。

步骤s20,基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;

在本申请公开的技术方案中,预设正反面区分规则指的是预先设定的用于区分待识别证件属于正面还是属于反面的相关规则;预设字符数组的存储信息指的是通过ocr识别获得的存储在预设字符数组的信息。

步骤s30,基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;

在本申请公开的技术方案中,预设版本区分规则指的是预先设定的用于区分待识别证件属于新版证件还是属于旧版证件的相关规则。

步骤s40,基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。

在本申请公开的技术方案中,预设属性确认规则指的是预先设定的用于区分待识别证件的信息所归属的类型的相关规则,例如,“王小明”的属性是中文姓名,“男”的属性是性别。

在本实施例中,采用目标检测技术库yolov3与包含长短期记忆模型神经网络lstm的卷积循环神经网络crnn构建文字检测和文字识别服务,对等待识别证件的图片进行端到端不定长文字检测与ocr识别,将识别得到的字符存储至预设字符数组;基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。本申请能够识别新版证件的正反面信息和旧版证件正反面信息,并且在出现证件更新换代的情况下,无需收集大量的新版数据集重新训练ocr识别服务,便可以快速支持对待识别证件的识别,从而提高了证件识别效率。

进一步地,在本申请基于ocr的证件识别方法第二实施例中,步骤s20包括:

步骤s21,依次检测所述预设字符数组的存储信息中最后三行每行的非汉字字符个数;

在本申请公开的技术方案中,非汉字字符个数指的是不属于汉字的其它类型的字符,如“<”符号、数字等即属于非汉字字符。

步骤s22,若所述每行的非汉字字符个数符合第一预设范围,且所述最后三行任一行包括第一预设字符,则判定所述待识别证件的正反面信息为反面证件;

在本申请公开的技术方案中,第一预设范围指的是28至32,第一预设字符指的是“<”符号。当检测得到每行的非汉字字符个数在28至32个之间,且最后三行任一行包括“<”符号,则判定待识别证件的正反面信息为反面证件。

步骤s23,若所述每行的非汉字字符个数不符合第一预设范围,则判定所述待识别证件的正反面信息为正面证件。

在本申请公开的技术方案中,当检测得到每行的非汉字字符个数不在28至32个之间,则判定待识别证件的正反面信息为正面证件。

在本实施例中,基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息,从而后续能够基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息,从而实现了识别新版证件的正反面信息和旧版证件正反面信息,提高了证件识别效率。

进一步地,在本申请基于ocr的证件识别方法第三实施例中,步骤s30包括:

步骤s31,当所述待识别证件的正反面信息为反面证件时,若所述预设字符数组的存储信息符合行数小于10并且大于5,且不存在预设文字,则判定所述待识别证件的版本信息为新版证件;

在本申请公开的技术方案中,识别预设字符数组得到行数小于10并且大于5,并且不存在“港澳地区居民来往内地”、“台湾地区居民来往内地”等预设文字,则证件属于新版证件。

步骤s32,若所述预设字符数组的存储信息符合行数小于6并且存在所述预设文字,则判定所述待识别证件的版本信息为旧版证件;

在本申请公开的技术方案中,识别预设字符数组得到行数小于6,并且存在“港澳地区居民来往内地”、“台湾地区居民来往内地”等预设文字,则证件属于旧版证件。

步骤s33,当所述待识别证件的正反面信息为正面证件时,若所述预设字符数组的存储信息符合第一预设版本区分规则,则判定所述待识别证件的版本信息为新版证件;

在本申请公开的技术方案中,第一预设版本区分规则指的是:满足以下任意两个或者两个以上条件:

条件一:识别到预设字符数组前三行存在“港澳地区居民来往内地”、“台湾地区居民来往内地”、“通行证”等文字;

条件二:识别到预设字符数组前三行任一行存在9至12个字符;

条件三:识别到预设字符数组任一行存在格式为yyyy.mm.dd-yyyy.mm.dd格式(例如:2017.06.30-2022.06.30)的日期范围,或者第七行至第九行中任一行字符个数为16;

条件四:识别到预设字符数组存在“签发次数”等文字;

条件五:识别到预设字符数组最后三行任一行存在9至12个数字。

步骤s34,若所述预设字符数组的存储信息符合第二预设版本区分规则,则判定所述待识别证件的版本信息为旧版证件。

在本申请公开的技术方案中,第二预设版本区分规则指的是,满足:预设字符数组存在两行日期范围,且格式为yyyy-mm-dd格式(例如:2022-06-30),并且不满足以下任一条件:

条件一:识别到预设字符数组前三行存在“港澳地区居民来往内地”、“台湾地区居民来往内地”、“通行证”等文字;

条件二:识别到预设字符数组前三行任一行存在9至12个字符;

条件三:识别到预设字符数组第七行至第九行任一行存在格式为yyyy.mm.dd-yyyy.mm.dd格式(例如:2017.06.30-2022.06.30)的日期范围,或者第七行至第九行中任一行字符个数为16,并且16位字符中前8位数字和后8位数字都可以格式化为yyyy.mm.dd时间格式,且转化之后的时间都相距识别日期10年内;

条件四:识别到预设字符数组存在“签发次数”等文字;

条件五:识别到预设字符数组最后三行任一行存在9至12个数字。

在本实施例中,基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息,从而后续能够基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。

进一步地,在本申请基于ocr的证件识别方法第四实施例中,步骤s40包括:

步骤s41,检测所述预设字符数组中第二行或第三行是否存在数量小于第一预设值的目标汉字,若存在,则所述目标汉字为中文姓名;

在本申请公开的技术方案中,第一预设值指的是5,例如,当检测到预设字符数组中第二行或第三行是否存在数量小于5的目标汉字“欧阳小红”,则“欧阳小红”为中文姓名。

步骤s42,检测所述中文姓名后两行的预设字符数组,若所述中文姓名后两行的预设字符数组存在数量大于第二预设值的目标大写字母,若存在,则所述目标大写字母为所述中文姓名的英文姓名,其中,所述第二预设值大于所述第一预设值。

在本申请公开的技术方案中,第二预设值指的是6,例如,检测中文姓名后“欧阳小红”两行的预设字符数组,存在数量大于6的目标大写字母“ouyang.xiaohong”,若存在,则为“ouyang.xiaohong”中文姓名“欧阳小红”的英文姓名。

在本实施例中,可以基于预设字符数组的存储信息和预设属性确认规则,检测得到待识别证件上的中文姓名和英文姓名。

进一步地,在本申请基于ocr的证件识别方法第五实施例中,步骤s40还包括:

步骤s43,当版本信息为新版证件时,检测所述预设字符数组中第九行至第十三行是否存在数量大于所述第一预设值的汉字,并且所述汉字存在第二预设字符,若存在,则所述第二预设字符为签发机关;

在本申请公开的技术方案中,第一预设值指的是5,第二预设字符指的是“管理局”、“入境”等字符,例如,当检测预设字符数组中第九行至第十三行存在数量小于5的字符“管理局”,则“管理局”为签发机关。

步骤s44,检测所述预设字符数组中第五行至第八行是否存在字符长度小于第三预设值的第三预设字符或第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息;

在本申请公开的技术方案中,针对的是当版本信息为新版证件时;第三预设值指的是2,第三预设字符指的是“男”、第四预设字符指的是“女”,例如,检测预设字符数组中第五行至第八行存在字符长度小于2的字符“女”,则“女”为性别信息。

步骤s45,检测所述预设字符数组中最后两行是否存在字符个数小于第四预设值的目标数字,若存在,则所述目标数字的最后两位数字为签发次数,若不存在,且所述最后两行中只存在任一目标行的字符个数大于第五预设值,则所述目标行的最后两位数字为签发次数;

在本申请公开的技术方案中,针对的是当版本信息为新版证件时;第四预设值指的是4,第五预设值指的是9,例如,检测预设字符数组中最后两行存在字符个数小于4的目标数字“103”,则“103”的最后两位数字为签发次数3次。

步骤s46,当版本信息为旧版证件时,检测所述预设字符数组中第四行至第六行是否存在字符长度小于所述第三预设值的所述第三预设字符或所述第四预设字符,若存在,则所述第三预设字符或所述第四预设字符为性别信息。

在本申请公开的技术方案中,例如,当版本信息为旧版证件时,检测预设字符数组中第四行至第六行存在字符长度小于2的字符“男”或字符“女”,则字符“男”或字符“女”为性别信息。

在本实施例中,可以基于版本信息、预设字符数组的存储信息和预设属性确认规则,检测得到待识别证件上的签发机关、签发次数和性别信息。

进一步地,在本申请基于ocr的证件识别方法第六实施例中,步骤s40还包括:

步骤s47,当版本信息为新版证件时,提取所述预设字符数组中第六行至第八行中任一行的第一数字,判断所述第一数字中是否存在字符长度为第六预设值的第一目标数字,且所述第一目标数字的大小符合第二预设范围,若存在,则所述第一目标数字为出生日期;

在本申请公开的技术方案中,第六预设值指的是8,第二预设范围指的是日期介于19200808至当前数字提取日期之间。例如,当版本信息为新版证件时,预设字符数组中第六行至第八行中其中一行"2020-01-01”,提取数字后存在长度为8的目标数字“20200101”,且20200101大小介于19200808至数字提取日期之间,则"2020-01-01"为出生日期。

步骤s48,提取所述预设字符数组中第七行至第九行中任一行的第二数字,判断所述第二数字中是否存在字符长度为第七预设值的第二目标数字,若存在,则所述第二目标数字为有效日期;

在本申请公开的技术方案中,针对的是当版本信息为新版证件时;第七预设值指的是16;例如,预设字符数组中第七行至第九行中其中一行"2011.01.01-2020.01.01”,提取数字后存在长度为16的目标数字“2010010120200101,则"2011.01.01-2020.01.01为有效日期。

步骤s49,当版本信息为旧版证件时,提取所述预设字符数组中第五行至第七行中任一行的第三数字,判断所述第三数字中是否存在字符长度为所述第六预设值的第三目标数字,且所述第三目标数字的大小符合第二预设范围,若存在,则所述第三目标数字为出生日期;

在本申请公开的技术方案中,例如,当版本信息为旧版证件时,预设字符数组中第五行至第七行中其中一行"2020-01-01”,提取数字后存在长度为8的目标数字“20200101”,且20200101大小介于19200808至数字提取日期之间,则"2020-01-01"为出生日期。

步骤s410,提取所述预设字符数组中行数大于第八行中每行的数字,判断所述数字中是否存在两行字符长度都为所述第六预设值、大小符合所述第三预设范围的第四目标数字和第五目标数字,若存在,则所述第四目标数字为截止有效期,所述第五目标数字为签发期,其中,所述第四目标数字大于所述第五目标数字。

在本申请公开的技术方案中,针对的是当版本信息为旧版证件时,第三预设范围指的是日期介于当前数字提取日期前后10年内;例如当前日期为20200615,检测预设字符数组中行数大于第八行中数字,其中两行存在字符长度8、且日期介于20100615至20300615之间的数字“20150303”、“20250303”,则“20250303”为截止有效期,“20150303”为签发期。

在本实施例中,可以基于版本信息、预设字符数组的存储信息和预设属性确认规则,检测得到待识别证件上的出生日期、有效期和签发期。

进一步地,在本申请基于ocr的证件识别方法第七实施例中,步骤s40还包括:

步骤s411,当版本信息为新版证件时,检测所述预设字符数组中最后两行任一行是否存在非汉字字符总数符合第四预设范围的第一目标编号,若存在,则所述第一目标编号的前八位为台湾地区证件号码,所述第一目标编号的前九位为港澳地区证件号码;

在本申请公开的技术方案中,第四预设范围指的是8至13。

步骤s412,检测所述预设字符数组中是否存在非汉字字符总数符合第五预设范围的第二目标编号,若存在,则所述第二目标编号的前十位为身份证号码;

在本申请公开的技术方案中,针对的是当版本信息为新版证件时;第五预设范围指的是10至12。

步骤s413,当版本信息为旧版证件时,检测所述预设字符数组中前三行任一行是否存在非汉字字符总数符合所述第四预设范围的第三目标编号,若存在,则所述第三目标编号的前十一位为台湾地区证件号码或港澳地区证件号码;

步骤s414,检测所述预设字符数组中第七行至第十行任一行是否存在非汉字字符总数符合所述第五预设范围的第四目标编号,且所述第四目标编号不属于时间格式,若存在,则所述第四目标编号的前十位为港澳地区身份证号码。

在本实施例中,可以基于版本信息、预设字符数组的存储信息和预设属性确认规则,检测得到待识别证件上的台湾地区证件号码、港澳地区证件号码和身份证号码。

此外,参照图3,本发明实施例还提出一种基于ocr的证件识别装置,基于ocr的证件识别装置包括:

存储模块,用于获取待识别证件的图片,通过ocr对所述图片进行识别,将识别得到的字符存储至预设字符数组;

第一判定模块,用于基于预设正反面区分规则和所述预设字符数组的存储信息,判定所述预设待识别证件的正反面信息;

第二判定模块,用于基于所述正反面信息、所述预设字符数组的存储信息和预设版本区分规则,判定所述待识别证件的版本信息;

识别模块,用于基于所述版本信息、所述预设字符数组的存储信息和预设属性确认规则,获得所述待识别证件的证件内容。

本申请还提供一种终端,所述终端包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于ocr的证件识别程序,所述基于ocr的证件识别程序被所述处理器执行时实现上述基于ocr的证件识别方法的步骤。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于ocr的证件识别程序,所述基于ocr的证件识别程序被处理器执行时实现上述的基于ocr的证件识别方法的步骤。

在本申请基于ocr的证件识别方法、装置、终端及可读存储介质的实施例中,包含了上述基于ocr的证件识别方法各实施例的全部技术特征,说明书拓展和解释内容与上述基于ocr的证件识别方法各实施例基本相同,在此不做赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1