文字识别模型的无监督训练方法及相关设备与流程

文档序号：33810302发布日期：2023-04-19 13:31阅读：58来源：国知局

本发明涉及信息识别，尤其涉及一种文字识别模型的无监督训练方法及相关设备。

背景技术：

1、近年来，深度学习已被广泛应用于图像分类、目标检测和分割等领域，随之也带来了数据标注成本高、耗费时间长等问题，如何利用好大量无标注数据进行自监督学习成了当前的研究热点。自监督学习能够从大规模的无标注数据集中挖掘自身的监督信息，并通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征信息。在计算机视觉应用领域，如图像分类、目标检测和分割等利用自监督对比学习表征信息的技术取得了显著成果。然而，由于文本序列的特殊性，自监督学习未能较好的应用在文本识别领域中。

2、目前大多数文本识别算法仍然依赖于全监督学习，需要大量带标签的数据进行建模。因此，在没有人工监督的条件下如何高效地学习基于序列性的文本信息表征是一个长期存在的问题，解决该问题可以发挥大规模无标注数据集的实际应用价值，基于此，现有的技术提出了一种基于对比学习的无监督文本识别方法，通过学习基于序列性的文本信息表征发挥大规模无标注数据集的实际应用价值。无监督文字识别目前采用的技术策略基本上是基于对比学习的方法，但在目前的技术框架下，无监督文字识别有待解决的问题如下：

3、基于对比学习的无监督文本识别方法通过对文字图像进行扩增来构建正负样本，然后通过拉近正样本特征距离，拉远负样本特征距离的方式学习到文本信息表征，但是该方式只对文本相似程度进行了建模，无法精细地学习单个文字的结构信息，如偏旁、部首等细节上的结构信息，同时忽略了整个文本串的上下文语义信息，无法高效地学习基于序列性的文本信息表征。

4、针对上述的问题，尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种文字识别模型的无监督训练方法及相关设备，以至少解决现有的无监督文字识别无法精细地学习单个文字的结构信息的技术问题。

2、根据本发明实施例的一个方面，提供了一种文字识别模型的无监督训练方法，包括：

3、获取原始图像，所述原始图像为包含文字的图像；

4、对所述原始图像的部分像素进行掩码处理获得掩码图像，所述掩码图像包含像素被掩区域和像素未掩区域；

5、将所述掩码图像输入神经网络模型，利用所述神经网络模型基于所述像素未掩区域具有的文字信息，预测所述像素被掩区域的文字信息，并获得预测结果，其中，所述文字信息为具有单个文字的部分结构的信息和/或若干完整文字的信息，或没有文字的信息；

6、基于所述预测结果和所述原始图像，更新所述神经网络模型的参数。

7、在其中的一些实施例中，所述神经网络模型包括特征聚合模块和像素预测模块，其中，将所述掩码图像输入神经网络模型之前，所述方法还包括：

8、将所述掩码图像切割成多个第一条状图像后，将多个所述第一条状图像输入所述神经网络模型，所述第一条状图像包括属于所述像素被掩区域的被掩条状图像和属于所述像素未掩区域的未掩条状图像；

9、则，利用所述神经网络模型基于所述像素未掩区域具有的文字信息，预测所述像素被掩区域的文字信息，并获得预测结果的步骤包括：

10、通过所述特征聚合模块确定所述未掩条状图像的图像全局特征，并将所述图像全局特征输入所述像素预测模块，所述图像全局特征包含上下文语义特征，所述上下文语义特征用于表述所述未掩条状图像具有的所述文字信息的上下文语义信息；

11、通过所述像素预测模块根据所述图像全局特征，预测所述被掩条状图像的像素预测值，以基于所述像素预测值和所述原始图像，更新所述神经网络模型的参数。

12、在其中的一些实施例中，基于所述像素预测值和所述原始图像，更新所述神经网络模型的参数的步骤包括：

13、根据所述像素预测值，对所述掩码图像中所述像素被掩区域的像素进行重建处理，获得重建图像；

14、确定所述原始图像和所述重建图像之间的像素相似程度；

15、根据所述像素相似程度，更新所述神经网络模型的参数。

16、在其中的一些实施例中，所述神经网络模型还包括标签预测模块，其中，更新所述神经网络模型的参数之前，所述方法还包括：

17、将所述未掩条状图像的所述图像全局特征输入所述标签预测模块，所述图像全局特征包含所述上下文语义特征；

18、通过所述标签预测模块根据所述上下文语义特征，预测所述被掩条状图像中具有的文字信息的类别标签，以获得类别预测标签，其中，所述类别标签为对所述文字信息按预设的分类规则进行分类后确定的用于标记所述文字信息所属类别的标签；

19、基于所述掩码图像的切割位置和切割数量，将所述原始图像对应切割成多个第二条状图像，并确定每个所述第二条状图像具有的文字信息的类别真实标签，则，每个所述被掩条状图像均对应有一个所述类别真实标签，以基于每个所述被掩条状图像的所述类别预测标签和所述类别真实标签，更新所述神经网络模型的参数。

20、在其中的一些实施例中，基于每个所述被掩条状图像的所述类别预测标签和所述类别真实标签，更新所述神经网络模型的参数的步骤包括：

21、确定每个所述被掩条状图像的所述类别预测标签与所述类别真实标签之间的标签相似程度；

22、根据所述标签相似程度，更新所述神经网络模型的参数。

23、在其中的一些实施例中，所述神经网络模型还包括特征提取模块，其中，通过所述特征聚合模块确定所述未掩条状图像的图像全局特征之前，所述方法还包括：

24、通过所述特征提取模块提取每个所述第一条状图像的第一图像特征，所述第一图像特征为包含所述第一条状图像具有的所述文字信息的特征；

25、则，通过所述特征聚合模块确定所述未掩条状图像的图像全局特征的步骤包括：

26、将所述第一图像特征输入所述特征聚合模块；

27、通过所述特征聚合模块对所述文字信息进行聚合处理，确定每个所述第一条状图像具有的所述文字信息的所述上下文语义信息，以获得所述未掩条状图像的所述图像全局特征。

28、在其中的一些实施例中，所述神经网络模型还包括文本预测模块，对所述原始图像的部分像素进行掩码处理获得掩码图像时，所述方法还包括：

29、根据所述原始图像具有的文字生成原始文本，并对所述原始文本中的部分文字进行掩码处理，获得掩码文本；

30、则更新所述神经网络模型的参数之前，所述方法还包括：

31、将所述掩码文本输入所述神经网络模型，通过所述文本预测模块根据所述掩码文本中未被掩码的文字，预测所述掩码文本中被掩码的文字，并获得文字预测结果，以基于所述原始文本和所述文字预测结果，更新所述神经网络模型的参数。

32、在其中的一些实施例中，通过所述文本预测模块根据所述掩码文本中未被掩码的文字，预测所述掩码文本中被掩码的文字之前，所述方法还包括：

33、将所述原始图像切割成多个第二条状图像并输入所述神经网络模型，通过所述特征聚合模块确定所述第二条状图像的图像序列特征，所述图像序列特征包含上下文语义特征，所述上下文语义特征用于表述所述第二条状图像中文字信息的上下文语义信息；

34、利用预定的语言模型提取所述掩码文本中每个未被掩码的文字的语言序列特征，所述语言序列特征为包含每个文字的上下文语义信息的特征；

35、则，通过所述文本预测模块根据所述掩码文本中未被掩码的文字，预测所述掩码文本中被掩码的文字，并获得文字预测结果的步骤包括：

36、获取所述图像序列特征和所述语言序列特征；

37、通过所述特征聚合模块对所述图像序列特征和所述语言序列特征进行聚合处理，获得每个文字的字符全局特征；

38、根据所述字符全局特征预测所述掩码文本中被掩码的文字，获得所述文字预测结果。

39、在其中的一些实施例中，通过所述特征聚合模块确定所述第二条状图像的图像序列特征之前，所述方法还包括：

40、通过所述特征提取模块提取每个所述第二条状图像的第二图像特征，所述第二图像特征为包含所述第二条状图像具有的所述文字信息的特征；

41、则，通过所述特征聚合模块确定所述第二条状图像的图像序列特征的步骤包括：

42、将所述第二图像特征输入所述特征聚合模块；

43、通过所述特征聚合模块对每个所述第二条状图像的所述文字信息进行聚合处理，确定每个所述第二条状图像中所述文字信息的上下文语义信息，以获得所述未掩条状图像的所述图像序列特征。

44、在其中的一些实施例中，根据所述原始文本和所述文字预测结果，更新所述神经网络模型的参数的步骤包括：

45、根据所述文字预测结果，重建所述掩码文本中被掩码的文字，获得重建文本；

46、确定所述原始文本和所述重建文本之间的文本相似程度；

47、根据所述文本相似程度，更新所述神经网络模型的参数。

48、在其中的一些实施例中，所述方法还包括：

49、获取标注有标注数据的包含文字的标注图像；

50、基于所述标注图像，调整所述神经网络模型的参数。

51、根据本发明实施例的第二个方面，还提供了一种无监督文字识别方法，包括：

52、接收待识别的文字图像，采用文字识别模型识别所述文字图像中的文字，其中，所述文字识别模型为通过所述的文字识别模型的无监督训练方法训练得到。

53、根据本发明实施例的第三个方面，还提供了一种文字识别模型的无监督训练装置，所述文字识别模型的无监督训练装置用于实现所述的文字识别模型的无监督训练方法，所述装置包括：

54、获取模块，用于获取原始图像，所述原始图像为包含文字的图像；

55、掩码处理模块，用于对所述原始图像的部分像素进行掩码处理获得掩码图像，所述掩码图像包含像素被掩区域和像素未掩区域；

56、预测模块，用于将所述掩码图像输入神经网络模型，利用所述神经网络模型基于所述像素未掩区域具有的文字信息，预测所述像素被掩区域的文字信息，并获得预测结果，其中，所述文字信息为具有单个文字的部分结构和/或若干完整文字的信息；

57、参数更新模块，用于基于所述预测结果和所述原始图像，更新所述神经网络模型的参数。

58、根据本发明实施例的第四个方面，还提供了一种计算机设备，包括：

59、处理器；

60、用于存储处理器可执行指令的存储器；

61、其中，所述处理器被配置为执行所述的文字识别模型的无监督训练方法。

62、根据本发明实施例的第五个方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行所述的文字识别模型的无监督训练方法。

63、根据本发明实施例的第六个方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述的文字识别模型的无监督训练方法。

64、在本发明实施例中，将原始图像的部分像素进行掩码处理获得的掩码图像输入神经网络模型，利用所述神经网络模型基于掩码图像像素未掩区域具有的文字信息，预测像素被掩区域的文字信息，由于该预测过程需要根据单个文字的部分结构还原整个文字，可使训练得到的文字识别模型能够识别到单个文字的结构信息，如偏旁、部首等细节上的结构信息，若整个文字被掩码，则需要根据其余文字的信息来还原该文字，可使文字识别模型识别到文本上下文的语义信息，提高了文字识别模型的识别精度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈颖乔梁
技术所有人：上海高德威智能交通系统有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。