1.本发明涉及计算机软件技术领域,特别涉及一种无线表格识别方法、装置、计算机设备及存储介质。
背景技术:2.现有ocr技术对于结构化表格数据的识别仍然存在一定缺陷,尽管从理论上来说,有线表格可以利用表格线对表格结构信息做出准确识别,但无线表格因表格线信息缺失,想要识别出表格中单元格信息较为困难。因此,如何准确识别并提取无线表格是本领域技术人员需要解决的问题。
技术实现要素:3.本发明实施例提供了一种无线表格识别方法、装置、计算机设备及存储介质,旨在提高对于无线表格的识别精度。
4.第一方面,本发明实施例提供了一种无线表格识别方法,包括:
5.获取包含无线表格的输入文本图像;
6.利用深度残差卷积神经网络对所述输入文本图像提取不同的文本区域的二值分割图像;
7.提取所述二值分割图像的边缘信息,以得到不同的文本区域在所述输入文本图像中的绝对位置坐标信息;
8.利用所述卷积循环神经网络对每一所述文本区域进行文本识别,得到对应的文本信息;
9.根据所述绝对位置坐标信息判断是否对不同的文本区域进行合并,得到对应的单元格信息;
10.基于所述绝对位置坐标信息获取相邻单元格之间的相对位置坐标信息,并根据所述相对位置坐标信息对每一单元格进行排列,然后将排列结果作为无线表格。
11.第二方面,本发明实施例提供了一种无线表格识别装置,包括:
12.图像获取单元,用于获取包含无线表格的输入文本图像;
13.图像提取单元,用于利用深度残差卷积神经网络对所述输入文本图像提取不同的文本区域的二值分割图像;
14.边缘信息提取单元,用于提取所述二值分割图像的边缘信息,以得到不同的文本区域在所述输入文本图像中的绝对位置坐标信息;
15.文本识别单元,用于利用所述卷积循环神经网络对每一所述文本区域进行文本识别,得到对应的文本信息;
16.区域合并单元,用于根据所述绝对位置坐标信息判断是否对不同的文本区域进行合并,得到对应的单元格信息;
17.第一单元格排列单元,用于基于所述绝对位置坐标信息获取相邻单元格之间的相
对位置坐标信息,并根据所述相对位置坐标信息对每一单元格进行排列,然后将排列结果作为无线表格。
18.第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的无线表格识别方法。
19.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的无线表格识别方法。
20.本发明实施例提供了一种无线表格识别方法、装置、计算机设备及存储介质,该方法包括:获取包含无线表格的输入文本图像;利用深度残差卷积神经网络对所述输入文本图像提取不同的文本区域的二值分割图像;提取所述二值分割图像的边缘信息,以得到不同的文本区域在所述输入文本图像中的绝对位置坐标信息;利用所述卷积循环神经网络对每一所述文本区域进行文本识别,得到对应的文本信息;根据所述绝对位置坐标信息判断是否对不同的文本区域进行合并,得到对应的单元格信息;基于所述绝对位置坐标信息获取相邻单元格之间的相对位置坐标信息,并根据所述相对位置坐标信息对每一单元格进行排列,然后将排列结果作为无线表格。本发明实施例通过在结构化无线表格数据的文本位置信息预测出表格内单元格与单元格之间的相对位置关系,并进一步重建出完整的表格信息,从而可以提高对于无线表格的识别精度。
附图说明
21.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本发明实施例提供的一种无线表格识别方法的流程示意图;
23.图2为本发明实施例提供的一种无线表格识别方法的子流程示意图;
24.图3为本发明实施例提供的一种无线表格识别装置的示意性框图;
25.图4为本发明实施例提供的一种无线表格识别装置的子示意性框图;
26.图5为本发明实施例提供的一种无线表格识别方法中相对位置预测网络结构示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目
的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
30.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
31.下面请参见图1,图1为本发明实施例提供的一种无线表格识别方法流程示意图,具体包括:步骤s101~s106。
32.s101、获取包含无线表格的输入文本图像;
33.s102、利用深度残差卷积神经网络对所述输入文本图像提取不同的文本区域的二值分割图像;
34.s103、提取所述二值分割图像的边缘信息,以得到不同的文本区域在所述输入文本图像中的绝对位置坐标信息;
35.s104、利用所述卷积循环神经网络对每一所述文本区域进行文本识别,得到对应的文本信息;
36.s105、根据所述绝对位置坐标信息判断是否对不同的文本区域进行合并,得到对应的单元格信息;
37.s106、基于所述绝对位置坐标信息获取相邻单元格之间的相对位置坐标信息,并根据所述相对位置坐标信息对每一单元格进行排列,然后将排列结果作为无线表格。
38.本实施例中,对于需要识别无线表格的输入文本图像,首先通过深度残差卷积神经网络提取其中的各个文本区域对应的二值分割图像,然后针对每一二值分割图像,对其提取边缘信息,以得到各文本区域在所述输入文本图像中的绝对位置坐标信息。同时,利用卷积循环神经网络对各文本区域分别进行文本识别,得到各文本区域对应的文本信息。然后,根据所述绝对位置坐标信息判断是否将各文本区域合并为同一单元格,即将文本区域中的文本信息合并在同一单元格中。例如根据绝对位置坐标信息,如果相邻的两个文本区域距离小于预设距离阈值,则将这两个文本区域合并为同一个单元格。进一步的,获取各单元格之间的相对位置坐标信息,然后根据所述相对位置坐标信息对各单元格进行排列,从而可以得到最终的无线表格。
39.本实施例通过在结构化无线表格数据的文本位置信息预测出表格内单元格与单元格之间的相对位置关系,并进一步重建出完整的表格信息,从而可以提高对于无线表格的识别精度。
40.在一实施例中,所述步骤s102包括:
41.将所述输入文本图像输入至resnet50深度残差卷积神经网络中,通过所述resnet50深度残差卷积神经网络对所述输入文本图像依次进行降采样和扩充通道处理后,得到所述输入文本图像对应的不同特征图;
42.通过卷积操作对每一特征图压缩通道,以及对每一特征图进行上采样处理,得到与所述输入文本图像大小一致的单通道图像,并将所述单通道图像作为所述二值分割图像输出。
43.本实施例中,使用端到端训练的深度残差卷积神经网络替代传统手工提取特征的方法,从而提升文本检测性能,在实际应用中深层网络可以提取到更丰富的图像特征信息,因此,本实施例采用深度残差卷积神经网络resnet50作为backbone(骨干网络)提取图像特
征,其中resnet50由一系列包含卷积、非线性变换及残差连接等操作的残差单元组成,输入文本图像经resnet50网络降采样、扩充通道后可以得到不同的特征图(feature map),为后续更准确预测二值分割图像提供丰富的特征信息。当resnet50深度残差卷积神经网络提取输入文本图像特征得到特征图后,再经过卷积操作压缩图像通道并上采样得到与输入文本图像大小一致的单通道图像。另外,在模型训练阶段,以正常无线表格图像作为模型输入,以二值图像作为模型的标签,通过分割思想指导模型训练,当模型拟合后,即可在推理阶段实现输入无线表格图像,预测得到二值分割图像。
44.在一实施例中,如图2所示,所述步骤s103包括:步骤s201~s204。
45.s201、采用双阈值法对所述二值分割图像进行边缘提取,得到高阈值图像;
46.s202、将所述高阈值图像中的边缘连接为轮廓,并在到达轮廓端点时,基于8邻域点方法获取满足低阈值的目标点;
47.s203、根据所述目标点收集其余边缘,直至所述二值分割图像的边缘闭合,以此得到所述二值分割图像的边缘信息;
48.s204、在所述边缘信息中获取不同的文本区域各自对应的绝对位置坐标信息。
49.本实施例中,在对二值分割图像提取边缘信息,以得到所述绝对位置坐标信息时,首先采用双阈值法进行边缘提取,然后将提取的边缘连接为轮廓,并根据8邻域点方法在轮廓中查找获取可以满足低阈值的目标点。基于获取的目标点,可以继续收集所述二值分割图像剩下的边缘,从而得到完整的边缘信息。进一步的,根据得到的完整的边缘信息,便可以对应提取到较为准确的绝对位置坐标信息。
50.在一实施例中,所述步骤s104包括:
51.针对任一所述文本区域,利用所述卷积循环神经网络中的卷积层对所述文本区域提取宽度为单个像素的特征序列;
52.利用所述卷积循环神经网络中的循环层对所述特征序列预测字符,并将预测结果作为所述文本信息。
53.本实施例中,使用卷积循环神经网络(convolutional recurrent neural network,crnn),可以实现行文本的识别。crnn模型主要由卷积层(cnn)和循环层(rnn)组成,其中卷积层负责从输入的行文本图像中提取得到宽度为单个像素的特征序列,而循环层以卷积层输出的特征序列作为输入,输出预测的字符。在训练阶段,卷积循环神经网络以行文本图像作为输入,以图像的文本内容作为标签,在训练一定阶段收敛后,即可在推理阶段实现对行文本的识别。
54.在一实施例中,所述步骤s105包括:
55.根据所述绝对位置坐标信息,计算各文本区域之间的距离;
56.当相邻的两个文本区域之间的距离未超过预设距离阈值时,将所述两个文本区域合并为一个单元格;
57.当相邻的两个文本区域之间的距离超过预设距离阈值时,将所述两个文本区域分别作为一个单元格。
58.本实施例中,通过文本检测与识别模型可以得到无线表格内的行文本区域绝对坐标位置信息及其文本内容,但每个文本区域并非一定就是一个单元格,可能某一个单元格内检测出多个行文本区域,此时需要对行文本区域进行融合得到单元格。通常情况下,同属
于一个单元格的文本区域彼此相邻,且相距较近,因此通过计算每个文本区域之间的距离来判断是否需要进行融合,即可得到每个单元格的信息。
59.在一实施例中,所述步骤s106包括:
60.基于seq2seq网络结构,对所述绝对位置坐标信息进行编码处理,并将编码结果作为目标特征信息;
61.利用解码器对所述目标特征信息进行解码处理,并将解码结果作为所述相对位置坐标信息。
62.本实施例中,当获取到单元格信息后,还需要得到单元格与单元格之间的行列关系才能得到完整的表格结构,相对位置预测网络则通过单元格的绝对位置信息(输入),来预测单元格与单元格之间的相对位置关系信息(输出)。其中单元格与单元格的相对位置关系包括是否属于同一行以及是否属于同一列,相对位置预测模型是一种基于seq2seq的网络结构,如图5所示,由编码器和解码器两部分组成,其中编码器提取输入单元格绝对位置坐标的特征信息,而解码器将编码器提取到的特征信息加以利用,并预测出单元格与单元格之间的相对位置信息。
63.在一实施例中,所述步骤s106还包括:
64.根据所述绝对位置坐标信息对每一文本区域按照从左至右、从上至下的顺序进行排列;
65.根据所述相对位置坐标信息对每一单元格按照从左至右、从上至下的顺序进行排列。
66.本实施例中,在对单元格进行排序以得到最终的无线表格时,首先对各文本区域进行排列,使单元格(包含一个以上文本区域)内的文本区域能够有序分布,然后再根据相对位置坐标信息对各单元格进行排列。
67.图3为本发明实施例提供的一种无线表格识别装置300的示意性框图,该装置300包括:
68.图像获取单元301,用于获取包含无线表格的输入文本图像;
69.图像提取单元302,用于利用深度残差卷积神经网络对所述输入文本图像提取不同的文本区域的二值分割图像;
70.边缘信息提取单元303,用于提取所述二值分割图像的边缘信息,以得到不同的文本区域在所述输入文本图像中的绝对位置坐标信息;
71.文本识别单元304,用于利用所述卷积循环神经网络对每一所述文本区域进行文本识别,得到对应的文本信息;
72.区域合并单元305,用于根据所述绝对位置坐标信息判断是否对不同的文本区域进行合并,得到对应的单元格信息;
73.第一单元格排列单元306,用于基于所述绝对位置坐标信息获取相邻单元格之间的相对位置坐标信息,并根据所述相对位置坐标信息对每一单元格进行排列,然后将排列结果作为无线表格。
74.在一实施例中,所述图像提取单元302包括:
75.特征图获取单元,用于将所述输入文本图像输入至resnet50深度残差卷积神经网络中,通过所述resnet50深度残差卷积神经网络对所述输入文本图像依次进行降采样和扩
充通道处理后,得到所述输入文本图像对应的不同特征图;
76.二值分割图像输出单元,用于通过卷积操作对每一特征图压缩通道,以及对每一特征图进行上采样处理,得到与所述输入文本图像大小一致的单通道图像,并将所述单通道图像作为所述二值分割图像输出。
77.在一实施例中,如图4所示,所述边缘信息提取单元303包括:
78.边缘提取单元401,用于采用双阈值法对所述二值分割图像进行边缘提取,得到高阈值图像;
79.目标点获取单元402,用于将所述高阈值图像中的边缘连接为轮廓,并在到达轮廓端点时,基于8邻域点方法获取满足低阈值的目标点;
80.边缘信息获取单元403,用于根据所述目标点收集其余边缘,直至所述二值分割图像的边缘闭合,以此得到所述二值分割图像的边缘信息;
81.坐标信息获取单元404,用于在所述边缘信息中获取不同的文本区域各自对应的绝对位置坐标信息。
82.在一实施例中,所述文本识别单元304包括:
83.特征序列提取单元,用于针对任一所述文本区域,利用所述卷积循环神经网络中的卷积层对所述文本区域提取宽度为单个像素的特征序列;
84.字符预测单元,用于利用所述卷积循环神经网络中的循环层对所述特征序列预测字符,并将预测结果作为所述文本信息。
85.在一实施例中,所述区域合并单元305包括:
86.距离计算单元,用于根据所述绝对位置坐标信息,计算各文本区域之间的距离;
87.第一判定单元,用于当相邻的两个文本区域之间的距离未超过预设距离阈值时,将所述两个文本区域合并为一个单元格;
88.第二判定单元,用于当相邻的两个文本区域之间的距离超过预设距离阈值时,将所述两个文本区域分别作为一个单元格。
89.在一实施例中,所述第一单元格排列单元306包括:
90.编码单元,用于基于seq2seq网络结构,对所述绝对位置坐标信息进行编码处理,并将编码结果作为目标特征信息;
91.解码单元,用于利用解码器对所述目标特征信息进行解码处理,并将解码结果作为所述相对位置坐标信息。
92.在一实施例中,所述第一单元格排列单元306还包括:
93.区域排列单元,用于根据所述绝对位置坐标信息对每一文本区域按照从左至右、从上至下的顺序进行排列;
94.第二单元格排列单元,用于根据所述相对位置坐标信息对每一单元格按照从左至右、从上至下的顺序进行排列。
95.由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
96.本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁
碟或者光盘等各种可以存储程序代码的介质。
97.本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
98.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
99.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。