1.本公开涉及计算机技术领域,具体涉及图像识别、深度学习等技术领域,尤其涉及一种文档图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
背景技术:2.日常办公场景中,需要经常处理带有表格的文本文档;如金融行业中提取用户申请资质时各类文件信息;工业界对于实体制造情况的持续跟踪,以及对于发票、各类表单的电子化存储需求等。
3.在文档分析领域中,研究人员提出了不同的版面分析算法、表格识别算法,但它们只能解决某方面单个子任务,无法统一对该文本文档进行处理。
技术实现要素:4.提供了一种文档图像识别方法和装置、电子设备、计算机可读介质以及计算机程序产品。
5.根据第一方面,提供了一种文档图像识别方法,该方法包括:获取待识别文档图像;检测待识别文档图像是否具有至少一个识别要素;响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域;针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
6.根据第二方面,又提供了一种文档图像识别方法,该方法包括:获取待识别文档图像;将待识别文档图像输入预先训练完成的版面识别模型,以使版面识别模型检测待识别文档图像是否具有至少一个识别要素;响应于待识别文档图像具有至少一个识别要素,得到版面识别模型输出的至少一个版面区域;获取与各个识别要素对应的、预先训练完成的识别要素模型,每个识别要素模型用于识别一种识别要素;针对各个识别要素,采用获取的识别要素模型,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
7.根据第三方面,又提供了一种文档图像识别装置,该装置包括:获取单元,被配置成获取待识别文档图像;检测单元,被配置成检测待识别文档图像是否具有至少一个识别要素;划分单元,被配置成响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域;识别单元,被配置成针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
8.根据第四方面,提供了一种文档图像识别装置,该装置包括:图像获取单元,被配置成获取待识别文档图像;输入单元,被配置成将待识别文档图像输入预先训练完成的版面识别模型,以使版面识别模型检测待识别文档图像是否具有至少一个识别要素;得到单元,被配置成响应于待识别文档图像具有至少一个识别要素,得到版面识别模型输出的至少一个版面区域;模型获取单元,被配置成获取与各个识别要素对应的、预先训练完成的识别要素模型,每个识别要素模型用于识别一种识别要素;识别单元,被配置成针对各个识别
要素,采用获取的识别要素模型,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
9.根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
10.根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
11.根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
12.本公开的实施例提供的文档图像识别方法和装置,首先,获取待识别文档图像;其次,检测待识别文档图像是否具有至少一个识别要素;再次,响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域;最后,针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。由此,在确定待识别文档图像中具有识别要素时,按照识别要素对待识别文档图像进行版面区域划分,分别对各个版面区域进行识别,得到各个版面区域的识别结果,实现了对待识别文档的一体化识别,提高了不同场景下的文档图片识别的效率,提高了文档结构分析在产业中的应用效果。
13.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案,不构成对本公开的限定。其中:
15.图1是根据本公开文档图像识别方法的一个实施例的流程图;
16.图2是根据本公开对表格对应的版面区域识别,得到可编辑表格的过程示意图;
17.图3是根据本公开文档图像识别方法的另一个实施例的流程图;
18.图4是根据本公开文档图像识别装置的一个实施例的结构示意图;
19.图5是根据本公开文档图像识别装置的另一个实施例的结构示意图;
20.图6是用来实现本公开实施例的文档图像识别方法的电子设备的框图。
具体实施方式
21.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
22.图1示出了根据本公开文档图像识别方法的一个实施例的流程100,上述文档图像识别方法包括以下步骤:
23.步骤101,获取待识别文档图像。
24.本实施例中,待识别文档图像是一种具有文档信息(如文本、表格等)的图像,通过
识别待识别文档图像可以得到待识别文档图像中可编辑形式的电子文档,进一步地,还可以对该可编辑形式的电子文档(包括电子表格、文本的文档)进行编辑(例如,增加文本、修改表格等)。
25.文档图像识别方法运行于其上的执行主体可以通过多种途径获取待识别文档图像,例如,从终端中实时获取待识别图像,或者从数据库直接得到预存于其中的待识别文档图像。
26.步骤102,检测待识别文档图像是否具有至少一个识别要素。
27.本实施例中,识别要素是文档图像中的主要文档因素,该识别要素可以是文本、表格、图片、标题等中的至少一项,该识别要素也是对应有检测方法或者识别要素模型的要素,通过不同检测方法或者识别要素模型可以检测版面区域中的识别要素;待识别文档图像是一种包含文档信息的图像,本实施例中的文档信息是一种可以通过计算机进行文本输入或者线条绘制的信息。
28.本实施例中,可以通过多种方式检测待识别图像中是否具有识别要素,其中,由于识别要素在待识别图像中是以图像形式体现,可以通过图像识别技术识别待识别图像中的识别要素。
29.可选地,还可以通过模型对待识别图像中的识别要素进行识别,例如,获取识别要素特征,将待识别图像输入预先训练的版面识别模型,通过版面识别模型对待识别图像特征进行检测,响应于版面识别模型输出的待识别图像某区域的特征与识别要素特征的相似度大于相似度阈值,确定待识别图像具有该识别要素。
30.可选地,在检测到待识别文档图像不具有任何一个识别要素时,则不对待识别文档图像进行处理。
31.可选地,本实施例文档图像识别方法运行于其上的执行主体还可以检测非识别要素并为非识别要素划分版面区域,非识别要素是没有相应的检测方法,且与文档无关的要素,例如,待识别图像中的图片,该图片不需要独立设置检测方法,执行主体在检测到图片之后,直接输出图片。
32.步骤103,响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域。
33.本实施例中,将待识别文档图像划分为至少一个版面区域是指对待识别文档图像的不同区域进行检测和分类,确定待识别文档图像中不同的、与识别要素对应的区域,例如,将待识别文档图像中的文本图像部分分割为文本对应的版面区域,该文本对应的版面区域可以是一个文本段落,或者一个文字行。
34.可选地,版面区域划分还可以根据需求而确定,例如对文档图片中的文本、表格、图片、标题和表格等区域进行检测和分类。具体的类别可以根据实际需求而定义,例如,检测标题、图片、文本、表格四类,或者只检测表格这一类。
35.针对不同的识别要素对应的版面区域,还可以采用不同的版面区域划分方法。例如,对于文本可以采用版面算法自上而下依次将待识别图像中的黑白联通域划分为文字、文本行与文本块等,从而得到文本的版面区域。
36.可选地,划分域文本对应为版面区域还包括:检测待识别文档图像的识别要素是否包括表格,响应于待识别文档图像识别要素包括表格,检测从待识别文档图像中获取的
当前文本是否为表格中的文本(例如当前文本与表格的距离在预设的距离范围之内),在当前文本为表格中文本时,将当前文本所在区域划分为与表格相对应的版面区域;在当前文本不是表格中文本时,将当前文本所在区域划分为与文本相对应的版面区域。
37.对于表格这一识别要素,可以通过图像识别中的腐蚀、膨胀等操作获得表格线、划分行列区域,得到空表,当表格中具有文本时,可以将空表的单元格与文本内容相结合重构为表格对象。
38.可选地,当识别要素为表格,划分与表格对应的版面区域包括:确定表格的面积,基于表格位置,获取该表格面积在待识别文档图像中占据的最大区域,将该最大区域作为表格对应的版面区域。
39.步骤104,针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
40.本实施例中,在确定识别要素和识别要素对应的版面区域之后,可以获取各个识别要素对应的识别算法或模型对各个识别要素对应的版面区域进行识别,得到各个版面区域的识别结果。例如,文本的识别算法包括:docstrum(文档谱)、voronoi图算法等。
41.本实施例中,识别要素不同,对应的识别结果不同。例如,当识别要素为文本时,则识别结果为文本中的文字和/或符号以及文字和/或符号在版面区域中的位置信息。当识别要素为表格时,则识别结果为可编辑表格,可编辑表格可以为电子表格,通过对可编辑表格进行一些表格删格、增格等操作,可以得到新的电子表格。
42.在本实施例的一些可选实现方式中,识别要素包括:文本;针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果,包括:对文本对应的版面区域进行文本识别,得到文字以及文字在待识别文档图像的位置信息。
43.本可选实现方式中,在识别要素为文本时,对文本对应的版面区域进行表格识别,得到文字以及文字在待识别文档图像的位置信息,从而为待识别文档图像中文本转换为电子文本提供了可靠的条件。
44.在本实施例的一些可选实现方式中,识别要素包括:表格;对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果,包括:对表格对应的版面区域进行表格识别,得到可编辑表格,其中,可编辑表格可以是excel表,或者word表格。
45.本可选实现方式中,在识别要素为表格时,对表格对应的版面区域进行表格识别,得到可编辑表格,从而为待识别文档图像中表格转换为电子表格提供了可靠的条件。
46.当确定识别要素为表格之后,可以检测表格是否为空表或者具有文本内容的表格。上述对表格对应的版面区域进行表格识别,得到可编辑表格,包括:检索表格对应的版面区域是否有文本,确定表格为空表;识别表格对应的版面区域中的表格结构,表格结构包括:表格中单元格、各个单元格的位置;基于表格结构,得到可编辑的表格。
47.在本实施例的一些可选实现方式中,上述对表格对应的版面区域进行表格识别,得到可编辑表格,包括:对表格对应的版面区域进行单行文本检测,得到表格对应的版面区域上单文本行的位置信息;对单文本行进行文本识别,得到表格对应的版面区域上文字和文字的位置;识别表格对应的版面区域中的表格结构,表格结构包括:表格中单元格、各个单元格的位置;基于各个单元格的位置以及单文本行的位置信息,聚合单文本行,得到单文
本行与各个单元格的位置对应关系;基于单文本行对应的单元格的位置、文字和文字的位置,对同一单元格的文本进行拼接,得到每个单元格内的文本内容;将表格结构和各单元格内的文本内容结合,得到可编辑的表格。
48.本可选实现方式中,可以通过多个检测算法实现对文本和表结构检测,得到可编辑表格。可选地,还可以通过多个模型实现对文本和表结构检测,得到可编辑表格。
49.下面结合图2介绍本可选实施例:如图2所示,通过单行文本检测(1)在表格对应的版面区域进行单行文字检测,获得单文本行在该版面区域的四点坐标,然后通过文本识别(2)对单文本行的在该版面区域的位置进行文字识别,得到文字结果。表格对应的版面区域经过表格结构识别(3),获得表格每个单元格的四点坐标与表格结构信息。表格结构识别(3)的结果结合单行文本检测(1)获得的单行文本行在版面区域的四点坐标,共同进入单元格坐标聚合(4),再经过单元格文本聚合(5),将属于同一单元格的文本拼接在一起。最后结合表格结构信息,通过可编辑表格导出(6)获得可编辑的表格。
50.本可选实现方式中,在识别要素为表格且表格中具有文本时,表格识别是基于版面分析出的表格区域,识别出完整的表格结构信息,及每个单元格内的文字内容,从而使得表格图片变为可编辑的表格,有效保证了表格图像的有效转换。
51.本可选实现方式中,在识别要素为文本时,对文本对应的版面区域进行文本识别,得到文本中文字以及文字在待识别文档图像的位置信息,从而为待识别文档图像中文本转换为电子文本提供了可靠的条件。
52.本公开的实施例提供的文档图像识别方法,首先,获取待识别文档图像;其次,检测待识别文档图像是否具有至少一个识别要素;再次,响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域;最后,针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。由此,在确定待识别文档图像中具有识别要素时,按照识别要素对待识别文档图像进行版面区域划分,分别对各个版面区域进行识别,得到各个版面区域的识别结果,实现了对待识别文档的一体化识别,提高了不同场景下的文档图片识别的效率。
53.图3示出了根据本公开文档图像识别方法的另一个实施例的流程300,上述文档图像识别方法包括以下步骤:
54.步骤301,获取待识别文档图像。
55.本实施例中,文档图像识别方法运行于其上的执行主体可以通过多种途径获取待识别文档图像,例如,从终端中实时获取待识别图像,或者从数据库直接得到预存于其中的待识别文档图像。
56.步骤302,将待识别文档图像输入预先训练完成的版面识别模型,以使版面识别模型检测待识别文档图像是否具有至少一个识别要素。
57.本实施例中,版面识别模型可以对待识别文档图像中的文本、表格、图片、标题和表格等区域进行检测和分类。具体检测或识别的类别可以根据实际需求而定义,例如,检测标题、图片、文本、表格四类,或者只检测表格这一类。版面识别模型可以基于预先构建的神经网络模型训练得到。在训练版面识别模型时,通过采集不同版面类型的样本,得到版面识别模型的识别结果。
58.本实施例中,识别要素是文档图像中的主要文档因素,该识别要素可以是文本、表
格、图片、标题等中的至少一项,该识别要素也是对应有检测方法或者识别要素模型的要素,通过不同检测方法或者识别要素模型可以检测版面区域中的识别要素;待识别文档图像是一种包含文档信息的图像,本实施例中的文档信息是一种可以通过计算机进行文本输入或者线条绘制的信息。
59.步骤303,响应于待识别文档图像具有至少一个识别要素,得到版面识别模型输出的至少一个版面区域。
60.本实施例中,至少一个版面区域可以是与待识别文档图像中不同的、与识别要素对应的区域,例如,将待识别文档图像中的文本图像部分分割为文本对应的版面区域,该文本对应的版面区域可以是一个文本段落,或者一个文字行。
61.可选地,版面区域划分还可以根据需求而确定,例如对文档图片中的文本、表格、图片、标题和表格等区域进行检测和分类。具体的类别可以根据实际需求而定义,例如,检测标题、图片、文本、表格四类,或者只检测表格这一类。
62.本实施例中,通过版面识别模型识别得到的版面区域可以包括识别要素对应的版面区域,也可以不包括识别要素对应的版面区域。版面识别模型不仅可以输出版面区域,还可以输出识别出的识别要素的类型和信息。
63.步骤304,获取与各个识别要素对应的、预先训练完成的识别要素模型。
64.本实施例中,每个识别要素模型用于识别一种识别要素。
65.本实施例中,当版面识别模型识别到识别要素之后,获取识别到的识别要素对应的识别要素模型。进一步地,识别要素模型是与版面识别模型相区别的模型,识别要素模型用于接收版面信息,并在版面信息中确定与识别要素相关的信息,其中,识别要素相关的信息可以包括:识别要素的内容、类型、位置等。
66.本实施例中,先通过版面识别模型确定是否存在识别要素,根据版面识别模型的结果再决定是否获取识别要素模型,如果版面识别模型未检测到任何识别因素,则不会获取识别因素模型。
67.步骤305,针对各个识别要素,采用获取的识别要素模型,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
68.本实施例中,识别要素模型是针对各个识别要素而预先构建和训练完成的模型,例如,针对文字预先构建和训练完成的文字识别模型,针对表格预先构建和训练完成的表格识别模型。针对标题预先构建和训练完成的文字识别模型。
69.本实施例的一些可选实现方式中,识别要素包括:文本,识别要素模型包括:文本识别模型,针对各个识别要素,采用获取的识别要素模型,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果,包括:将文本对应的版面区域输出给文本识别模型,得到文本识别模型输出的文字以及文字在获取的文档图像中的位置信息。
70.本实施例中,文本识别模型可以采用ocr(optical character recognition,光学字符识别)识别模块,使用ocr识别模块对版面识别模型检测出的标题、文本等文字区域进行文本检测与识别,得到文本行的坐标与文字内容。该ocr识别模块可与表格识别模块(当表格中具有文本内容时需要采用文本识别模型进行识别)中的ocr引擎共用同一套ocr引擎,也可以各自使用不同的ocr引擎,如使用不同训练数据训练得到的模型、不同的ocr算法训练的文本识别模型等。
71.本可选实现方式中,在识别要素包括文本时,使识别要素模型包括文本识别模型,将文本对应的版面区域输入文本识别模型,得到文本对应的文字、文字的位置信息,提高了文字识别的可靠性。
72.在本实施例的一些可选实现方式中,识别要素包括:表格,识别要素模型包括:表格识别模型,针对各个识别要素,采用获取的识别要素模型,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果,包括:将表格对应的版面区域输出给表格识别模型,得到表格识别模块输出的可编辑表格。
73.本可选实现方式中,在识别要素包括表格时,使识别要素模型包括表格识别模型,将表格对应的版面区域输入表格识别模型,得到表格对应的可编辑表格,提高了表格识别的可靠性。
74.在本实施例的一些可选实现方式中,表格识别模型包括:训练完成的文本检测子模型、文字识别子模型、表格结构识别子模型;文本检测子模型用于对表格对应的版面区域进行单行文本检测,得到表格对应的版面区域上单文本行的位置信息;文字识别子模型用于对单文本行进行文本识别,得到表格对应的版面区域上文字和文字的位置;表格结构识别子模型用于识别表格对应的版面区域中的表格结构,表格结构包括:表格中单元格、各个单元格的位置;基于各个单元格的位置以及单文本行的位置信息,聚合单文本行,得到单文本行与各个单元格的位置对应关系;基于单文本行对应的单元格的位置、文字和文字的位置,对同一单元格的文本进行拼接,得到每个单元格内的文本内容;将表格结构和各单元格内的文本内容结合,得到可编辑的表格。
75.本可选实现方式中,文本检测子模型可以采用ocr检测模型,使用ocr检测模型对表格进行单行文本检测,得到表格区域上所有文本行的坐标。ocr检测模型可以采用east、db等检测算法进行训练,这里不进行限制。
76.文字识别子模型可以采用ocr识别模块:针对文本检测子模型检测到的文本行,使用ocr识别模型进行文本识别,得到表格区域上所有文本行的坐标和文字内容。ocr识别模型可以用crnn等文本识别算法进行训练,这里不进行限制。
77.本实施例中,表格结构识别子模型可以包括:表格结构识别模块、单元格坐标聚合模块、电子表格导出模块。
78.其中,表格结构识别模块:使用基于注意力机制的表格结构识别模型识别表格的结构信息,包括表格中单元格之间的组成关系(一般表示为html字符串),以及每个单元格的位置坐标。
79.单元格坐标聚合模块:主要用来解决如何将跨行单元格的文本重新拼接在一个单元格内的问题。它通过计算由ocr引擎获得的文本框坐标与表格结构识别模块得到的单元格坐标之间的交并比(iou)和顶点距离来进行单行到多行的聚合。使用iou判断哪些文本行同属于一个单元格,使用顶点距离和iou判断文本行的排列顺序。
80.单元格文本聚合模块:每一个单元格内,根据上一步聚合得到的文本行列表和顺序,按照从上到下从左到右顺序将ocr引擎识别出的文本内容进行拼接,这样对于多行文本的单元格内容即可拼接成一个完整的字符串。
81.电子表格导出模块:将表格结构识别模块得到的表格结构识别结果的html(hypertext markup language,超文本标记语言)结果与单元格文本聚合模块得到的每个
单元格内的文字内容结合,即可恢复成电子表格的输出。
82.本可选实现方式中,在识别要素为表格且表格中具有文本时,采用表格结构识别子模型识别出完整的表格结构信息,采用文本检测子模型和文字识别子模型识别表格的每个单元格内的文字内容,从而使得表格图片变为可编辑的表格,有效保证了表格图像的有效转换。
83.本实施例提供的文档图像识别方法对应的装置,可以同时完成文档的版面分析、ocr识别、表格识别,基于各模块的识别结果可以很方便地完成文档图像中的文档复原,极大提高了文档结构分析在产业中的易用性。
84.本实施例提供的文档图像识别方法,通过版面识别模型确定待识别文档图像中具有识别要素之后,按照识别要素对待识别文档图像进行版面区域划分,通过不同识别要素模型分别对各个版面区域进行识别,得到各个版面区域的识别结果,实现了对待识别文档的一体化识别,提高了不同场景下的文档图片识别的效率。
85.在本公开的一个示例中,向版面识别模型输入一张文档图像,版面识别模型检测出文档图像中的文本、表格、标题、图像的区域;标题和文本区域进入文本识别模型进行文本检测识别,得到文字坐标和内容;表格区域进入表格识别模型,在表格识别模型中完整的提取表格结构信息,使得表格图片变为可编辑的表格文件。
86.进一步参考图4,作为对上述各图所示方法的实现,本公开提供了文档图像识别装置的一个实施例,该装置实施例与图1所示的方法实施例相对应。
87.如图4所示,本实施例提供的文档图像识别装置400包括:获取单元401,检测单元402,划分单元403,识别单元404。其中,上述获取单元401,可以被配置成获取待识别文档图像。上述检测单元402,可以被配置成检测待识别文档图像是否具有至少一个识别要素。上述划分单元403,可以被配置成响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域。上述识别单元404,可以被配置成针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
88.在本实施例中,文档图像识别装置400中:获取单元401,检测单元402,划分单元403,识别单元404的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明,在此不再赘述。
89.在本实施例的一些可选的实现方式中,上述识别要素包括:文本;上述识别单元404包括:文本识别模块(图中未示出);其中,文本识别模块,可以被配置成对文本对应的版面区域进行文本识别,得到文字以及文字在待识别文档图像的位置信息。
90.在本实施例的一些可选的实现方式中,上述识别要素包括:表格;上述识别单元404包括:表格识别模块(图中未示出)。其中,上述表格识别模块,可以被配置成对表格对应的版面区域进行表格识别,得到可编辑表格。
91.在本实施例的一些可选的实现方式中,上述表格识别模块包括:检测子模块(图中未示出),识别子模块(图中未示出),结构子模块(图中未示出),聚合子模块(图中未示出),得到子模块(图中未示出),结合子模块(图中未示出)。其中,上述检测子模块,可以被配置成对表格对应的版面区域进行单行文本检测,得到表格对应的版面区域上单文本行的位置信息。上述识别子模块,可以被配置成对单文本行进行文本识别,得到表格对应的版面区域上文字和文字的位置。上述结构子模块,可以被配置成识别表格对应的版面区域中的表格
结构,表格结构包括:表格中单元格、各个单元格的位置。上述聚合子模块,可以被配置成基于各个单元格的位置以及单文本行的位置信息,聚合单文本行,得到单文本行与各个单元格的位置对应关系。上述得到子模块,可以被配置成基于单文本行对应的单元格的位置、文字和文字的位置,对同一单元格的文本进行拼接,得到每个单元格内的文本内容。上述结合子模块,可以被配置成将表格结构和各单元格内的文本内容结合,得到可编辑的表格。
92.本公开的实施例提供的文档图像识别装置,首先,获取单元401获取待识别文档图像;其次,检测单元402检测待识别文档图像是否具有至少一个识别要素;再次,划分单元403响应于待识别文档图像中具有至少一个识别要素,将待识别文档图像划分为至少一个版面区域;最后,识别单元404针对各个识别要素,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。由此,在确定待识别文档图像中具有识别要素时,按照识别要素对待识别文档图像进行版面区域划分,分别对各个版面区域进行识别,得到各个版面区域的识别结果,实现了对待识别文档的一体化识别,提高了不同场景下的文档图片识别的效率。
93.进一步参考图5,作为对上述各图所示方法的实现,本公开提供了文档图像识别装置另一个实施例,该装置实施例与图3所示的方法实施例相对应。
94.如图5所示,本实施例提供的文档图像识别装置500包括:图像获取单元501,输入单元502,得到单元503,模型获取单元504,识别单元505。其中,上述图像获取单元501,可以被配置成获取待识别文档图像。上述输入单元502,可以被配置成将待识别文档图像输入预先训练完成的版面识别模型,以使版面识别模型检测待识别文档图像是否具有至少一个识别要素。上述得到单元503,可以被配置成响应于待识别文档图像具有至少一个识别要素,得到版面识别模型输出的至少一个版面区域。上述模型获取单元504,可以被配置成获取与各个识别要素对应的、预先训练完成的识别要素模型,每个识别要素模型用于识别一种识别要素。上述识别单元505,可以被配置成针对各个识别要素,采用获取的识别要素模型,对该识别要素对应的版面区域进行识别,得到该识别要素对应的版面区域的识别结果。
95.在本实施例中,文档图像识别装置500中:图像获取单元501,输入单元502,得到单元503,模型获取单元504,识别单元505的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105的相关说明,在此不再赘述。
96.在本实施例的一些可选的实现方式中,上述识别要素包括:文本;上述识别要素模型包括:文本识别模型,识别单元505包括:文本识别模块(图中未示出);其中,文本识别模块,可以被配置成将文本对应的版面区域输出给文本识别模型,得到文本识别模型输出的文字以及文字在获取的文档图像中的位置信息。
97.在本实施例的一些可选的实现方式中,上述识别要素包括:表格;识别要素模型包括:表格识别模型,上述识别单元505包括:表格识别模块(图中未示出)。其中,上述表格识别模块,可以被配置成将表格对应的版面区域输出给表格识别模型,得到表格识别模块输出的可编辑表格。
98.在本实施例的一些可选的实现方式中,上述表格识别模型包括:训练完成的文本检测子模型(图中未示出),文字识别子模型(图中未示出),表格结构识别子模型(图中未示出);其中,文本检测子模型用于对表格对应的版面区域进行单行文本检测,得到表格对应的版面区域上单文本行的位置信息。文字识别子模型用于对单文本行进行文本识别,得到
表格对应的版面区域上文字和文字的位置。表格结构识别子模型用于识别表格对应的版面区域中的表格结构,表格结构包括:表格中单元格、各个单元格的位置;基于各个单元格的位置以及单文本行的位置信息,聚合单文本行,得到单文本行与各个单元格的位置对应关系;基于单文本行对应的单元格的位置、文字和文字的位置,对同一单元格的文本进行拼接,得到每个单元格内的文本内容;将表格结构和各单元格内的文本内容结合,得到可编辑的表格。
99.本实施例提供的文档图像识别装置,通过版面识别模型确定待识别文档图像中具有识别要素之后,按照识别要素对待识别文档图像进行版面区域划分,通过不同识别要素模型分别对各个版面区域进行识别,得到各个版面区域的识别结果,实现了对待识别文档的一体化识别,提高了不同场景下的文档图片识别的效率。
100.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
101.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
102.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
103.如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
104.设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
105.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文档图像识别方法。例如,在一些实施例中,文档图像识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的文档图像识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档图像识别方法。
106.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
107.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程文档图像识别装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
108.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
109.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
110.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
111.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
112.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
113.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。