文字属性识别方法、装置及存储介质与流程

文档序号:37218094发布日期:2024-03-05 15:10阅读:17来源:国知局
文字属性识别方法、装置及存储介质与流程

本发明实施例涉及计算机领域,尤其涉及一种文字属性识别方法、装置及存储介质。


背景技术:

1、目前,对文本文档进行文字属性识别一般是基于单个字符进行的,即,针对文本文档中的每个字符,获取包含该字符的字符图像,并对字符图像进行识别得到该字符的属性(如字体),从而完成对整个文本文档的文字属性识别。

2、然而,对于背景比较复杂的文本文档(如拍照件文档),由于某些字符所在区域可能存在干扰图案(如水印),导致基于单个字符进行字体识别的准确率比较低。


技术实现思路

1、鉴于此,为提高文字属性识别效率,本发明实施例提供一种文字属性识别方法、装置及存储介质。

2、第一方面,本发明实施例提供一种文字属性识别方法,包括:

3、从目标文档中提取出多个文本条图片,其中,每个所述文本条图片包含所述目标文档中的至少一个文本条,所述文本条为行文本,或,列文本;

4、对多个所述文本条图片进行分类,得到至少一个图片类别,其中,同一所述图片类别中的文本条图片所包含文字的属性相同;

5、针对每个所述图片类别,基于所述图片类别中至少一个所述文本条图片确定所述图片类别中所有文本条图片所包含文字的属性。

6、在一可能的实施方式中,所述对多个所述文本条图片进行分类,得到至少一个图片类别,包括:

7、在多个所述文本条图片中,将任意两个所述文本条图片进行组合,得到至少一个图片组合;

8、针对每个所述图片组合,执行以下处理:

9、提取所述图片组合中第一文本条图片的第一特征向量,以及第二文本条图片的第二特征向量;

10、确定所述第一特征向量和所述第二特征向量之间的距离;

11、在确定所述距离不小于预设距离阈值的情况下,将所述第一文本条图片和所述第二文本条图片归入同一个图片类别;

12、在确定所述距离小于所述预设距离阈值的情况下,将所述第一文本条图片和所述第二文本条图片归入不同的图片类别。

13、在一可能的实施方式中,所述提取所述图片组合中第一文本条图片的第一特征向量,以及第二文本条图片的第二特征向量,包括:

14、利用第一分支网络处理所述第一文本条图片得到所述第一特征向量,并利用第二分支网络处理所述第二文本条图片得到所述第二特征向量,其中,所述第一分支网络和所述第二分支网络共享同一组网络参数。

15、在一可能的实施方式中,在所述利用第一分支网络处理所述第一文本条图片得到所述第一特征向量,并利用第二分支网络处理所述第二文本条图片得到所述第二特征向量之前,还包括:

16、针对所述第一文本条图片和所述第二文本条图片中的任一文本条图片,在保持所述文本条图片第一方向上的长度和第二方向上的长度的比例不变的情况下,将所述文本条图片第一方向上的长度缩放至第一预设长度,以及,将缩放后的所述文本条图片第二方向上的长度与第二预设长度进行比较;

17、在所述第二方向上的长度大于所述第二预设长度的情况下,对所述文本条图片进行截断处理,得到目标尺寸的文本条图片;

18、在所述第二方向上的长度小于所述第二预设长度的情况下,对所述文本条图片进行拼接处理,得到所述目标尺寸的文本条图片。

19、在一可能的实施方式中,所述对多个所述文本条图片进行分类,得到至少一个图片类别,包括:

20、针对每个所述文本条图片,提取所述文本条图片的特征向量;

21、基于所述特征向量对多个所述文本条图片进行聚类,得到至少一个所述图片类别。

22、在一可能的实施方式中,所述基于所述图片类别中至少一个所述文本条图片确定所述图片类别中所有文本条图片所包含文字的属性,包括:

23、从至少一个所述文本条图片中提取目标数量的单字图片,其中,每个所述单字图片中包含一个文字;

24、识别每个所述单字图片包含文字的属性,得到至少一种属性及每种所述属性对应的所述单字图片的图片数量;

25、将对应的所述图片数量最多的所述属性,确定为所述图片类别中所有文本条图片所包含文字的属性。

26、在一可能的实施方式中,所述从目标文档中提取出多个文本条图片,包括:

27、识别所述目标文档中每个所述文本条在所述目标文档中的位置;

28、按照每个所述文本条对应的所述位置在所述目标文档中截取所述文本条图片。

29、在一可能的实施方式中,在所述从目标文档中提取出多个文本条图片之前,所述方法还包括:

30、获取待识别文档及所述待识别文档对应的文本条数量;

31、在确定所述文本条数量不大于预设数量阈值的情况下,将所述待识别文档确定为所述目标文档;

32、在确定所述文本条数量大于所述预设数量阈值的情况下,对所述待识别文档进行划分,得到至少两个划分文档;将每个所述划分文档分别作为所述目标文档,其中,每个所述划分文档中的文本条数量不大于所述预设数量阈值。

33、第二方面,本发明实施例提供一种文字属性识别装置,包括:

34、图片提取模块,用于从目标文档中提取出多个文本条图片,其中,每个所述文本条图片包含所述目标文档中的至少一个文本条,所述文本条为行文本,或,列文本;

35、图片分类模块,用于对多个所述文本条图片进行分类,得到至少一个图片类别,其中,同一所述图片类别中的文本条图片所包含文字的属性相同;

36、属性确定模块,用于针对每个所述图片类别,基于所述图片类别中至少一个所述文本条图片确定所述图片类别中所有文本条图片所包含文字的属性。

37、在一可能的实施方式中,所述图片分类模块,具体用于:

38、在多个所述文本条图片中,将任意两个所述文本条图片进行组合,得到至少一个图片组合;

39、针对每个所述图片组合,执行以下处理:

40、提取所述图片组合中第一文本条图片的第一特征向量,以及第二文本条图片的第二特征向量;

41、确定所述第一特征向量和所述第二特征向量之间的距离;

42、在确定所述距离不小于预设距离阈值的情况下,将所述第一文本条图片和所述第二文本条图片归入同一个图片类别;

43、在确定所述距离小于所述预设距离阈值的情况下,将所述第一文本条图片和所述第二文本条图片归入不同的图片类别。

44、在一可能的实施方式中,所述图片分类模块,还用于:

45、利用第一分支网络处理所述第一文本条图片得到所述第一特征向量,并利用第二分支网络处理所述第二文本条图片得到所述第二特征向量,其中,所述第一分支网络和所述第二分支网络共享同一组网络参数。

46、在一可能的实施方式中,所述装置还包括:

47、缩放模块,用于针对所述第一文本条图片和所述第二文本条图片中的任一文本条图片,在保持所述文本条图片第一方向上的长度和第二方向上的长度的比例不变的情况下,将所述文本条图片第一方向上的长度缩放至第一预设长度,以及,将缩放后的所述文本条图片第二方向上的长度与第二预设长度进行比较;

48、截断处理模块,用于在所述第二方向上的长度大于所述第二预设长度的情况下,对所述文本条图片进行截断处理,得到目标尺寸的文本条图片;

49、拼接处理模块,用于在所述第二方向上的长度小于所述第二预设长度的情况下,对所述文本条图片进行拼接处理,得到所述目标尺寸的文本条图片。

50、在一可能的实施方式中,所述图片分类模块,还用于:

51、针对每个所述文本条图片,提取所述文本条图片的特征向量;

52、基于所述特征向量对多个所述文本条图片进行聚类,得到至少一个所述图片类别。

53、在一可能的实施方式中,所述属性确定模块,具体用于:

54、从至少一个所述文本条图片中提取目标数量的单字图片,其中,每个所述单字图片中包含一个文字;

55、识别每个所述单字图片包含文字的属性,得到至少一种属性及每种所述属性对应的所述单字图片的图片数量;

56、将对应的所述图片数量最多的所述属性,确定为所述图片类别中所有文本条图片所包含文字的属性。

57、在一可能的实施方式中,所述图片提取模块,具体用于:

58、识别所述目标文档中每个所述文本条在所述目标文档中的位置;

59、按照每个所述文本条对应的所述位置在所述目标文档中截取所述文本条图片。

60、在一可能的实施方式中,所述装置还包括:

61、数量获取模块,用于获取待识别文档及所述待识别文档对应的文本条数量;

62、文档确定模块,用于在确定所述文本条数量不大于预设数量阈值的情况下,将所述待识别文档确定为所述目标文档;

63、文档划分模块,用于在确定所述文本条数量大于所述预设数量阈值的情况下,对所述待识别文档进行划分,得到至少两个划分文档;将每个所述划分文档分别作为所述目标文档,其中,每个所述划分文档中的文本条数量不大于所述预设数量阈值。

64、第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的文字属性识别程序,以实现第一方面中任一项所述的文字属性识别方法。

65、第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的文字属性识别方法。

66、本发明实施例提供的技术方案,通过从目标文档中提取出多个文本条图片,其中,每个文本条图片包含目标文档中的至少一个文本条,文本条为行文本,或,列文本;并对多个文本条图片进行分类,得到至少一个图片类别,其中,同一图片类别中的文本条图片所包含文字的属性相同。然后,针对每个图片类别,基于图片类别中至少一个文本条图片确定图片类别中所有文本条图片所包含文字的属性。如此,可以实现从文本条的层面先对文字属性进行分类,再针对每一类文字属性进行识别,相较于以单个字符为粒度进行识别,针对一类文字属性进行识别的识别基数更大,从而可以减少复杂背景对于识别的影响,提高识别的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1