本发明涉及人工智能,尤其涉及一种证件图像的文本识别方法、装置、存储介质及电子设备。
背景技术:
1、在基于证件图像识别的身份认证领域中,通常需要通过文本识别模型来从证件图像中提取文本信息,以用于用户身份的甄别。传统的文本识别模型大多是采用有监督算法训练得到的,其训练过程需要大量有监督的训练样本。然后,大量证件图像的标注十分困难,这导致现有的文本识别模型的识别精度并不高。
技术实现思路
1、本说明书的一个或多个实施例提供了一种证件图像的文本识别方法、装置、存储介质及电子设备,能够利用无监督的证件图像样本训练文本识别模型,并能提高证件图像文本识别模型的识别精度。
2、第一方面,提供了一种证件图像文本识别模型的训练方法,该方法包括:
3、获取无监督的证件图像文字条样本;
4、利用教师分支从所述证件图像文字条样本中提取文本掩码图像和字符结构特征;
5、将所述证件图像文字条样本输入第一学生分支,得到预测文本序列特征;
6、根据所述文本掩码图像构建第一伪标签,基于所述第一伪标签和所述文本序列特征,采用对比学习的策略,确定第一损失函数;
7、将所述证件图像文字条样本输入第二学生分支,得到预测字符结构特征;
8、根据所述字符结构特征构建第二伪标签,基于所述第二伪标签和所述预测字符结构特征,采用对比学习的策略,确定第二损失函数;
9、根据所述第一损失函数和所述第二损失函数,更新所述第一学生分支和所述第二学生分支的参数。
10、作为第一方面所述方法的一种可选实施方式,将所述证件图像文字条样本输入第一学生分支,得到预测文本序列特征,具体包括:
11、将所述证件图像文字条样本进行随机增强,得到第一增强样本图像;
12、将所述第一增强样本图像输入所述第一学生分支,得到所述预测文本序列特征。
13、作为第一方面所述方法的一种可选实施方式,将所述证件图像文字条样本输入第二学生分支,得到预测字符结构特征,具体包括:
14、将所述证件图像文字条样本进行随机增强,得到第二增强样本图像;
15、将所述第二增强样本图像输入所述第二学生分支,得到所述预测字符结构特征。
16、作为第一方面所述方法的一种可选实施方式,所述教师分支包括:
17、第一文本编码器,用于从所述证件图像文字条样本中提取第一文本特征;
18、字符结构区域提取模块,用于从所述第一文本特征中分割出所述文本掩码图像,并根据所述文本掩码图像,采用隐式注意力对齐机制从所述第一文本特征中提取字符水平位置信息;
19、第一检测头,用于根据所述字符水平位置信息和所述第一文本特征,生成所述字符结构特征。
20、作为第一方面所述方法的一种可选实施方式,所述第一学生分支包括:
21、第二编码器,用于从所述证件图像文字条样本中提取顺序的第二文本特征;
22、投影头,用于将所述第二文本特征投影至统一特征空间,得到顺序文本投影帧序列;
23、实例映射模块,用于从所述顺序文本投影帧序列中选择若干投影帧来生成实例,作为所述预测文本序列特征。
24、作为第一方面所述方法的一种可选实施方式,所述第二学生分支包括:
25、第三编码器,用于从所述证件图像文字条样本中提取第三文本特征;
26、分割网络,用于从所述证件图像文字条样本中分割出前景文本图像;
27、第二检测头,用于根据所述第三文本特征和所述前景文本图像,生成所述预测字符结构特征。
28、作为第一方面所述方法的一种可选实施方式,所述方法还包括:
29、响应于用户对于所述证件图像文本识别模型输出的证件图像识别结果的修改,获取修改后的证件文本信息;
30、将所述修改后的证件文本信息作为相应证件图像的真实标签,以构建优化样本集;
31、利用所述优化样本集,对所述教师分支进行训练。
32、第二方面,提供了一种证件图像的文本识别方法,包括:
33、获取目标证件图像;
34、从所述目标证件图像中分割出文字行图像;
35、将所述目标证件图像的文字行图像输入基于上述的证件图像文本识别模型的训练方法训练得到的证件图像文本识别模型,利用所述证件图像文本识别模型的第一学生分支得到预测文本序列特征,利用所述证件图像文本识别模型的第二学生分支得到预测字符结构特征;
36、将所述预测文本序列特征和所述预测字符结构特征输入所述证件图像文本识别模型的解码器,得到所述目标证件图像的文字行图像的文本识别结果;
37、根据所述目标证件图像的所有文字行图像的文本识别结果,确定所述目标证件图像的文本识别结果。
38、第三方面,提供了一种证件图像文本识别模型的训练装置,包括:
39、第一数据获取模块,配置为获取无监督的证件图像文字条样本;
40、训练模块,配置为利用教师分支从所述证件图像文字条样本中提取文本掩码图像和字符结构特征;将所述证件图像文字条样本输入第一学生分支,得到预测文本序列特征;根据所述文本掩码图像构建第一伪标签,基于所述第一伪标签和所述文本序列特征,采用对比学习的策略,确定第一损失函数;将所述证件图像文字条样本输入第二学生分支,得到预测字符结构特征;根据所述字符结构特征构建第二伪标签,基于所述第二伪标签和所述预测字符结构特征,采用对比学习的策略,确定第二损失函数;根据所述第一损失函数和所述第二损失函数,更新所述第一学生分支和所述第二学生分支的参数。
41、作为第三方面所述装置的一种可选实施方式,所述装置还包括:
42、第二数据获取模块,配置为响应于用户对于所述证件图像文本识别模型输出的证件图像识别结果的修改,获取修改后的证件文本信息及相应的证件图像;
43、优化模块,配置为将所述修改后的证件文本信息作为相应证件图像的真实标签,以构建优化样本集,并利用所述优化样本集,对所述教师分支进行训练。
44、第四方面,提供了一种证件图像的文本识别装置,包括:
45、第三数据获取模块,配置为获取目标证件图像;
46、预处理模块,配置为从所述目标证件图像中分割出文字行图像;
47、识别模块,配置为将所述目标证件图像的文字行图像输入基于上述的证件图像文本识别模型的训练方法训练得到的证件图像文本识别模型,利用所述证件图像文本识别模型的第一学生分支得到预测文本序列特征,利用所述证件图像文本识别模型的第二学生分支得到预测字符结构特征;将所述预测文本序列特征和所述预测字符结构特征输入所述证件图像文本识别模型的解码器,得到所述目标证件图像的文字行图像的文本识别结果;
48、结果生成模块,配置为根据所述目标证件图像的所有文字行图像的文本识别结果,确定所述目标证件图像的文本识别结果。
49、第五方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行上述的证件图像文本识别模型的训练方法,或者,执行上述的证件图像的文本识别方法。
50、第六方面,提供了一种电子设备,包括:
51、至少一个存储器,用于存储程序;
52、至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行上述的证件图像文本识别模型的训练方法,或者,执行上述的证件图像的文本识别方法。
53、本说明书实施例所述的证件图像文本识别模型的训练方法的有益效果在于,该方法通过预先训练的教师分支从证件图像文字条样本中提取文本掩码图像作为第一学生分支的伪标签,提取字符结构特征作为第二学生分支的伪标签,在教师分支和第一学生分支之间,通过第一损失函数来进行文字条级别的自监督训练,在教师分支和第二学生分支之间,通过第二损失函数来进行字符级别的自监督训练,从而提高了证件图像文本识别模型的文本识别准确度。
54、本说明书实施例所述的证件图像文本识别模型的训练装置、证件图像的文本识别方法及装置同样具有上述有益效果。