一种多票据的识别方法及装置与流程

文档序号：21366431发布日期：2020-07-04 04:41阅读：691来源：国知局

本申请涉及人工智能领域，具体涉及一种多票据的识别方法，同时涉及一种多票据的识别装置。

背景技术：

现有的票据识别技术，包括普通的ocr光学字符定位、还有一部分使用主流的深度学习技术。但都是只能识别单张票据信息，无法应对普通的多张票据报销场景，还是不能从根本上解决票据识别的问题。此外基于光学字符的识别系统，识别率相对较低，后期维护成本较高，无法满足现有的报销市场。

技术实现要素：

本申请提供一种多票据的识别方法及装置，解决现有技术基于光学字符的识别系统，识别率相对较低，后期维护成本较高，且一次只能识别单张票据的问题。

本申请提供一种多票据的识别方法，包括：

对包含多张待识别的票据图像进行预处理；

将预处理后的所述票据图像，使用yolov3模型同时区分包含多张待识别票据图像中的每张票据，以及定位每张票据图像中的文字；

将定位的每张票据图像中的文字使用crnn+ctc模型进行识别，获取多张待识别的票据信息。

优选的，对包含多张待识别的票据图像进行预处理，包括：

对包含多张待识别的票据图像进行归一化处理；

获得标准化的票据图像。

优选的，所述标准化的票据图像，包括：

大小相等且灰度相同的票据图像。

优选的，使用yolov3模型同时区分包含多张待识别票据图像中的每张票据，包括：

使用yolov3模型区分所述包含多张待识别的票据图像中，每张票据的轮廓，进而获取每张票据的图像；以及

获取包含的待识别票据的数量。

优选的，在定位每张票据图像中的文字的步骤之后，还包括：

对每张票据图像中的文字部分进行切割，获取每张票据图像中包含文字部分的图像；

将所述包含文字部分的图像传入crnn+ctc模型。

优选的，将定位的每张票据图像中的文字使用crnn+ctc模型进行识别，获取多张待识别的票据信息，包括：

crnn+ctc模型接收yolov3模型发送的所述包含文字部分的图像；

crnn+ctc模型通过识别所述包含文字部分的图像，获取包含多张待识别的票据图像中每张发票的信息。

优选的，所述发票的信息，包括：

发票的类型、发票代码、发票号码、开票日期、购买方和销售方信息、开票金额，以及发票明细。

本申请同时提供一种多票据的识别装置，包括：

预处理单元，用于对包含多张待识别的票据图像进行预处理；

票据区分与定位单元，用于将预处理后的所述票据图像，使用yolov3模型同时区分包含多张待识别票据图像中的每张票据，以及定位每张票据图像中的文字；

票据识别单元，用于将定位的每张票据图像中的文字使用crnn+ctc模型进行识别，获取多张待识别的票据信息。

优选的，所述票据区分与定位单元，包括：

单张票据图像获取子单元，用于使用yolov3模型区分所述包含多张待识别的票据图像中，每张票据的轮廓，进而获取每张票据的图像；以及

票据数量获取子单元，用于获取包含的待识别票据的数量。

优选的，票据识别单元，包括：

图像接收子单元，用于通过crnn+ctc模型接收yolov3模型发送的所述包含文字部分的图像；

票据信息识别子单元，用于通过crnn+ctc模型通过识别所述包含文字部分的图像，获取包含多张待识别的票据图像中每张发票的信息。

本申请提供一种多票据的识别方法及装置，通过yolov3模型同时对多张票据进行单张区分和文字定位，然后再通过crnn+ctc模型对多张材质的信息进行识别，同时获取多张票据的信息，解决现有技术基于光学字符的识别系统，识别率相对较低，后期维护成本较高，且一次只能识别单张票据的问题。

附图说明

图1是本申请提供的一种多票据的识别方法的流程示意图；

图2是本申请提供的一种多票据的识别装置示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

图1是本申请提供的一种多票据的识别方法的流程示意图，下面结合图1对本申请提供的方法进行详细说明。

步骤s101，对包含多张待识别的票据图像进行预处理。

现有技术对发票票据的识别，主要是通过ocr技术对票据进行扫描识别，且一次只能识别一张，所以效率相对较低，本申请提供的方法，可以同时识别多张票据，首先，将多张票据平铺，通过图像获取设备如摄像机拍摄多张票据的图像，拍摄的每张图像上包括多张待识别的票据，而且多张票据可以包含各种类型的票据，如普通发票、增值税专用发票、专票等。

在拍摄票据的图像时，由于角度、爆光等原因，导致每张图像在识别时会对所使用的识别模型造成干扰，影响执行的效率，所以，在票据识别之前，需对票据图像进行预处理，预处理的方法是对包含多张待识别的票据图像进行归一化处理，获得标准化的票据图像。标准化的票据图像，可以为大小相等且灰度相同的票据图像，其中灰度值的优选值为0～1之间。标准化的票据图像，可以减少在识别过程中处理原图的大量计算，使对应的识别模型的执行效率更高。

步骤s102，将预处理后的所述票据图像，使用yolov3模型同时区分包含多张待识别票据图像中的每张票据，以及定位每张票据图像中的文字。

yolov3模型的原理，是采用3个不同尺度的特征图对目标图像进行检测，获得对应的尺寸的特征图像。在本申请中，待识别的票据图像中包含多张待识别的票据信息，yolov3模型可以根据预先设定的各种票据的特征图，区分包含多张待识别票据图像中的每张票据的轮廓，进而获取每张票据的图像，赐教也获取了包含的待识别票据的数量。

然后，定位每张票据图像中的文字，对每张票据图像中的文字部分进行切割，获取每张票据图像中包含文字部分的图像，例如，对票据类型的文字部分进行切割，可以获得包含“某市增值税普通发票”或“某市增值税专用发票”等包含票据类型的文字部分的图像。然后将包含文字部分的图像传入crnn+ctc模型。

步骤s103，将定位的每张票据图像中的文字使用crnn+ctc模型进行识别，获取多张待识别的票据信息。

crnn+ctc模型用来对图像中的文字进行识别，通常包括：文字检测和文字识别两个步骤。

crnn+ctc模型接收yolov3模型发送的所述包含文字部分的图像，crnn+ctc模型通过识别所述包含文字部分的图像，获取包含多张待识别的票据图像中每张发票的信息。具体的，crnn+ctc模型对图像进行进一步检测，然后对文字的范围进行定位。例如，对票据代码进行定位，获取票据代码的位数，然后对定位好的文字区域进行识别，将文字区域转借为字符信息，从而获得包含多张待识别的票据图像中每张发票的信息。发票的信息，包括：发票的类型、发票代码、发票号码、开票日期、购买方和销售方信息、开票金额，以及发票明细等。

基于同一发明构思，本申请同时提供一种票据的识别装置200，如图2所示，包括：

预处理单元210，用于对包含多张待识别的票据图像进行预处理；

票据区分与定位单元220，用于将预处理后的所述票据图像，使用yolov3模型同时区分包含多张待识别票据图像中的每张票据，以及定位每张票据图像中的文字；

票据识别单元230，用于将定位的每张票据图像中的文字使用crnn+ctc模型进行识别，获取多张待识别的票据信息。

优选的，所述票据区分与定位单元，包括：

单张票据图像获取子单元，用于使用yolov3模型区分所述包含多张待识别的票据图像中，每张票据的轮廓，进而获取每张票据的图像；以及

票据数量获取子单元，用于获取包含的待识别票据的数量。

优选的，票据识别单元，包括：

图像接收子单元，用于通过crnn+ctc模型接收yolov3模型发送的所述包含文字部分的图像；

票据信息识别子单元，用于通过crnn+ctc模型通过识别所述包含文字部分的图像，获取包含多张待识别的票据图像中每张发票的信息。

综上，本申请提供一种多票据的识别方法及装置，通过yolov3模型同时对多张票据进行单张区分和文字定位，然后再通过crnn+ctc模型对多张材质的信息进行识别，同时获取多张票据的信息，解决现有技术基于光学字符的识别系统，识别率相对较低，后期维护成本较高，且一次只能识别单张票据的问题。

最后应该说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李兴蒙;刘平君;张玲;陈道龙;叶京翔;李晏光;乔川
技术所有人：大象慧云信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。