一种文本表格结构还原方法、装置、电子设备及存储介质与流程

文档序号:37519572发布日期:2024-04-01 14:34阅读:20来源:国知局
一种文本表格结构还原方法、装置、电子设备及存储介质与流程

本技术涉及深度学习,具体而言,涉及一种文本表格结构还原方法、装置、电子设备及存储介质。


背景技术:

1、表格是一种重要的组织整理数据的手段。在一些特定领域,例如金融领域,往往存在以文本形式构成的表格,这类文本表格通常不具备完整的线条信息,而是通过视觉对齐等方式来构成表格形态,如图1所示。

2、而现有的表格还原技术,往往需要利用线条信息,对表格中的文本内进行识别。因此,如果要使用现有的表格还原技术,对这类文本表格进行还原,由于该表格内的文字内容并不具有相对固定的位置信息。导致还原难度的增加。目前,现有技术往往采用如下两种方式对文本表格进行识别还原:

3、1)将文本表格转换为图片或pdf格式的表格文件,利用例如光学字符识别(optical character recognition,简称:ocr)技术进行表格识别;

4、2)通过人为设置固定长度的截取规则,进而基于该规则对特定文本表格的内容进行截取,完成识别。

5、其中,对于方式1)由于其在进行识别前需要将文字信息转换为图片,从而造成处理过程的消耗资源过大,同时在转换中往往会因为信息的损耗,降低后续识别的精度。对于方式2)其需要基于对每个文本表格进行针对性的规则设置,泛化能力较差。同时,一旦表格的文字形式变更,则基于该规则进行的截取结果也会出现异常。

6、因此,如果提供一种能够高效且准确地对文本表格进行识别的方案,成为业界亟待解决地问题。


技术实现思路

1、本技术的目的在于提供一种文本表格结构还原方法、装置、电子设备及存储介质,其用于利用字符的文字位置信息对文本表格进行还原,降低资源消耗同时提高还原精度。

2、为了实现上述目的,本技术实施例采用的技术方案如下:

3、第一方面,本技术实施例提供一种文本表格结构还原方法,包括:

4、逐行提取待还原文本文件中的全部行数据;

5、将全部所述行数据输入文本表格检测模型,获得文本分类权重;所述文本分类权重包含用于指示每个所述行数据属于表格行或非表格行的信息;

6、根据全部行数据对应的文本分类权重,对全部所述行数据进行分割聚合,获得全部文本表格区域;每个所述文本表格区域包含属于所述表格行的至少一个行数据;

7、根据全部所述文本表格区域确定每个字符的文字位置信息;

8、将全部所述表格行进行分割获得至少一个文本块,并根据所述全部所述字符的文字位置信息确定对应文本块的位置信息;

9、根据每个文本块的位置信息进行竖直方向投影,获得全部竖直方向投影信息;

10、根据全部所述竖直方向投影信息与全部所述表格行,构建表格还原结果。

11、可选地,所述将全部所述行数据输入文本表格检测模型,获得文本分类权重的步骤,包括:

12、将全部所述行数据输入文本表格检测模型,分别获得每个行数据的表格行权重与非表格行权重;

13、其中,所述表格行权重表征对应行数据属于表格行的概率;所述非表格行权重表征对应行数据属于非表格行的概率。

14、可选地,所述根据全部行数据对应的文本分类权重,对全部所述行数据进行分割聚合,获得全部文本表格区域,包括:

15、获得任意相邻所述行数据的预设粒度权重,所述预设粒度权重用于表征所述文本表格区域的分割粒度;

16、根据最小割最大流算法、所述预设粒度权重以及每个所述行数据的表格行权重与非表格行权重,分别确认每个所述行数据的切割结果;

17、根据全部所述行数据的切割结果,获得全部所述全部文本表格区域。

18、可选地,所述根据全部所述文本表格区域确定每个字符的文字位置信息的步骤,包括:

19、确定全部所述文本表格区域中全部字符对应的类型信息为全角或半角;其中,当所述字符为全角字符时,所述字符对应的位置累加值为第一累加值;当所述字符为半角字符时,所述字符对应的位置累加值为第二累加值;所述第一累加值大于第二累加值;

20、根据全部所述字符对应的位置累加值,更新每个所述字符的文字位置信息。

21、可选地,所述将全部所述表格行进行分割获得至少一个文本块,并根据所述全部所述字符的文字位置信息确定对应文本块的位置信息的步骤,包括:

22、根据所述全部所述表格行中包含的空格信息,对每个所述表格行进行分割,获得多个所述文本块;

23、根据每个所述文本块中包含的字符的文字位置信息,确定对应文本块的位置信息。

24、第二方面,本技术实施例提供一种文本表格结构还原装置,包括:获取模块、处理模块、分割模块、投影模块以及还原模块;

25、所述获取模块,用于逐行提取待还原文本文件中的全部行数据;

26、所述处理模块,用于将全部所述行数据输入文本表格检测模型,获得文本分类权重;所述文本分类权重包含用于指示每个所述行数据属于表格行或非表格行的信息;根据全部行数据对应的文本分类权重,对全部所述行数据进行分割聚合,获得全部文本表格区域;每个所述文本表格区域包含属于所述表格行的至少一个行数据;根据全部所述文本表格区域确定每个字符的文字位置信息;

27、所述分割模块,用于将全部所述表格行进行分割获得至少一个文本块,并根据所述全部所述字符的文字位置信息确定对应文本块的位置信息;

28、所述投影模块,用于根据每个文本块的位置信息进行竖直方向投影,获得全部竖直方向投影信息;

29、所述还原模块,用于根据全部所述竖直方向投影信息与全部所述表格行,构建表格还原结果。

30、可选地,所述处理模块,具体用于将全部所述行数据输入文本表格检测模型,分别获得每个行数据的表格行权重与非表格行权重;其中,所述表格行权重表征对应行数据属于表格行的概率;所述非表格行权重表征对应行数据属于非表格行的概率。

31、可选地,所述处理模块,具体用于获得任意相邻所述行数据的预设粒度权重,所述预设粒度权重用于表征所述文本表格区域的分割粒度;根据最小割最大流算法、所述预设粒度权重以及每个所述行数据的表格行权重与非表格行权重,分别确认每个所述行数据的切割结果;根据全部所述行数据的切割结果,获得全部所述全部文本表格区域。

32、可选地,所述处理模块,具体用于确定全部所述文本表格区域中全部字符对应的类型信息为全角或半角;其中,当所述字符为全角字符时,所述字符对应的位置累加值为第一累加值;当所述字符为半角字符时,所述字符对应的位置累加值为第二累加值;所述第一累加值大于第二累加值;根据全部所述字符对应的位置累加值,更新每个所述字符的文字位置信息。

33、可选地,所述分割模块,具体用于根据所述全部所述表格行中包含的空格信息,对每个所述表格行进行分割,获得多个所述文本块;根据每个所述文本块中包含的字符的文字位置信息,确定对应文本块的位置信息。

34、第三方面,本技术实施例提供一种电子设备,包括:

35、存储器,用于存储一个或多个程序;

36、处理器;

37、当所述一个或多个程序被所述处理器执行时,实现如上述第一个方面中任一项所述的方法。

38、第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一个方面中任一项所述的方法。

39、相对于现有技术,本技术实施例所提供的一种文本表格结构还原方法、装置、电子设备及存储介质,将全部行数据输入文本表格检测模型,获得文本分类权重;继而根据文本分类权重,对全部行数据进行分割聚合,获得全部文本表格区域;根据全部文本表格区域确定每个字符的文字位置信息;将全部表格行进行分割获得至少一个文本块,并根据全部字符的文字位置信息确定对应文本块的位置信息;通过文本块的竖直方向投影信息与全部表格行,构建表格还原结果。由于在避免进行图片、pdf等格式转换的前提下,利用字符的文字位置信息对文本进行定位,从而能够准确地对待还原文件中文本表格的部分进行识别与还原,提高了识别精准度。

40、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1