基于OCR技术的票据识别及结构恢复方法

文档序号:37363368发布日期:2024-03-22 10:16阅读:34来源:国知局
本发明结合深度学习与计算机视觉算法,具体公开了一种基于ocr技术的票据识别及结构恢复方法。
背景技术
::1、在生活各场景的实际交易过程中通常会产生大量如收据、发票和费用清单等票据,如何将纸质和电子票据转换成数据库可存储的数据格式进行存储以保证财务安全,成为关键问题。但由于票据大小、种类与样式的复杂多样,导致票据识别一直是表格识别领域的研究难点。2、传统的表格识别技术中最经典的就是基于启发式规则的表格识别,其中基于启发式规则的基本思路是利用表格的边框或者分割区域(如无边框表格的空白区域)基于启发式的规则来实现表格识别。基于启发式规则的表格识别算法设计思路简单,但算法的性能严重受限于不同规则制定者的经历,导致规则的指定过程非常复杂且缺乏自动识别、提取表格特征的能力。随着深度学习的发展,有不少学者将不同的深度表格检测算法和深度表格结构识别算法组合成深度表格识别算法或系统。deepdesrt使用fasterrcnn和fcn2s分别完成表格检测和表格结构识别,将表格识别的两个子任务串联到了一起,然而表格识别的两个子任务之间缺乏交流,未能实现两者的有机融合。tablenet基于图像分割和自编码器实现表格识别的一次性端到端推理,网络组装的灵活性较强,但对与无边框单元格的识别能力较差。cascadetabnet模型先根据图像分割结果预测表格是有边框还是无边框,对有边tabnet框表格使用启发式规则进行结构识别,对无边框表格则是用端到端的单元格实例分割,兼顾了有边框和无边框表格的识别性能,但其基本原理是实例分割,对复杂结构表格的识别能力较差。3、目前现有的技术在票据识别方面的实时性和准确性之间往往难以取得平衡。因此,针对中文票据的高效准确识别技术仍是一个急需解决的问题。技术实现思路1、本发明的目的在于提出一种基于ocr技术的票据识别及结构恢复方法,其采用如下方案:2、一种基于ocr技术的票据识别及结构恢复方法,包括如下步骤:3、结合图1所示,一种基于ocr技术的票据识别及结构恢复方法,包括如下步骤:4、s1、将图片输入到文本检测模型识别出文本所在的框和文本框的坐标值5、s2、将识别出的文本框结合坐标值从原图中将文本区域裁剪出来,并将其输入到文本识别模型中以识别出图像中的文本内容6、s3、表格结构识别,识别出单元格线及其框的坐标值7、s4、将s2中得到的文本内容及其文本区域坐标值与s3中的单元格坐标进行聚合8、s5、将结果存储为excel表格形式,同时提供导出为csv文件或直接集成到数据库的选项。9、进一步,上述步骤s1中,需要将预处理后的图像输入到dbnet网络模型中,得到文本检测框。10、进一步,上述步骤s2中,将裁剪后的文本区域输入svtr网络,经过多次处理以及特征的局部与全局融合之后,通过预测头来获取识别结果。11、进一步,上述步骤s3中,考虑到表格结构提取的效率问题,本方法使用图形学的技术来提取表格结构,12、进一步,提取表格结构的具体步骤为:13、s31、通过对表格图片灰化二值化处理操作,完成对于图片的预处理工作;14、s32、通过利用opencv形态学方法,在步骤s31的基础上,初步检测出图像中的行列线;15、s33、结合霍夫变换和基于深度学习的线条检测方法,在步骤s32的基础上,进一步提取表格线条;16、s34、在步骤s33的基础上,计算行线和列线的交点坐标,并根据交点坐标对表格区域进行提取17、进一步,上述步骤s4中,对s2中得到的文本框依照从上到下,从左到右顺序进行排序,然后根据文本坐标位置信息找到文字所在的单元格,通过精确计算iou并考虑文本的形状和大小因素来决定是否要进行聚合,然后对单元格内的文字进行拼接,得到单元格内的文字信息。18、进一步,上述步骤s5中,将结果存储为常用存储形式,以供用户使用。19、通过这些步骤,本发明提供了一种高效且可扩展的ocr票据识别及结构恢复方法,能够适应多种类型的票据和多样的应用场景。通过利用表格识别技术可将原始票据的单元格信息进行识别和结构化处理,最终归类并存储到数据库中以备后续的财务核对和统计等,可以有效提高财务的安全性,提高财务等人员的核对和统计效率。技术特征:1.一种基于ocr技术的表单识别及结构恢复方法,其特征在于,包括如下步骤:2.根据权利要求1所述的一种基于ocr技术的表单识别及结构恢复方法,其特征在于,所述步骤s1中,将图片输入到文本检测模型识别出文本所在的框和文本框的坐标值。3.根据权利要求1所述的一种基于ocr技术的表单识别及结构恢复方法,其特征在于,所述步骤s2中,完成将s1中识别出的文本框结合坐标值从原图中将文本区域裁剪出来,并将其输入到文本识别模型中以识别出图像中的文本内容。4.根据权利要求1所述的一种基于ocr技术的表单识别及结构恢复方法,其特征在于,所述步骤s3中,完成表格结构识别,识别出单元格线及其框的坐标值,其具体的处理过程如下。5.根据权利要求1所述的一种基于ocr技术的表单识别及结构恢复方法,其特征在于,所述步骤s4中,将s2中得到的文本内容及其文本区域坐标值与s3中的单元格坐标进行聚合。6.根据权利要求1所述的一种基于ocr技术的表单识别及结构恢复方法,其特征在于,所述步骤s5中,根据s4聚合得到的单元格cell结果存储为excel形式,或根据用户需求转换为其它存储形式。技术总结本发明结合深度学习与计算机视觉算法,具体公开了一种基于OCR技术的票据识别及结构恢复方法,所述方法包括:s1、通过OCR技术对图片内容进行范围检测并识别文字内容;s2、对表格图片进行灰度化及二值化处理;s3、利用OpenCV中的形态学函数对二值化后的图片进行膨胀和腐蚀操作,初步得到表格的行线和列线;s4、利用霍夫变换分别检测图像中的行线和列线,同时过滤掉噪声线条;s5、计算行线和列线的交点坐标,并根据交点坐标对表格区域进行提取;s6、与s1中OCR检测与识别结果进行合并;s7、根据合并后的内容生成excel表格或其它常用存储形式。本发明利用OpenCV库中的图像处理函数,结合深度学习OCR识别技术,对表单表格进行识别和处理,进一步提高了表格OCR识别的准确率及效率。技术研发人员:李宗民,王立,白云,戎光彩,徐畅,张明珠受保护的技术使用者:中国石油大学(华东)技术研发日:技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1