一种文本检测模型的训练方法、装置、设备及介质与流程

文档序号：34307047发布日期：2023-05-31 19:19阅读：46来源：国知局

本文件属于人工智能，尤其涉及一种文本检测模型的训练方法、装置、设备及介质。

背景技术：

1、文本检测(text detection)是机器确定图像中文本位置的计算机视觉技术，常应用于由机器识别文本信息的场景。也就是说，机器识别图像中文本信息的前提是要先确定出图像中的文本位置。

2、目前提供文本检测的模型(后文统称文本检测模型)需要基于大量的已标注样本进行监督训练。而对样本进行标注的工作主要是人工完成的，模型训练过多依赖已标注样本会提高投入成本。为此，针对文本检测模型开发无需人工标注样本的自监督训练方案，是本文件所要解决的技术问题。

技术实现思路

1、本说明书实施例提供了一种文本检测模型的训练方法、装置、设备及介质，能够在不依赖人工标注样本的前提下，对文本检测模型进行自监督训练。

2、为解决上述技术问题，本说明书实施例是这样实现的：

3、第一方面，提出了一种文本检测模型的训练方法，包括：

4、将前景图像集中的前景图像映射至背景图像集中的背景图像，以得到合成图像集，并对所述合成图像集中的合成图像标注对应前景图像的映射位置，其中，所述前景图像集中的前景图像为文本图像，所述背景图像集中的背景图像为非文本图像；

5、从所述合成图像集中选取合成图像构建样本图像集，其中，所述样本图像集中样本图像对应标注的映射位置作为该样本图像的文本信息位置；

6、基于第一神经网络，按照所述样本图像集中第一样本图像的文本信息位置，对所述第一样本图像进行特征提取，得到第一特征向量，以及，基于第二神经网络，按照所述样本图像集中第二样本图像中的文本信息位置，对所述第二样本图像进行特征提取，得到第二特征向量，其中，所述第一神经网络和所述第二神经网络构成孪生网络结构，并与待训练的文本检测模型的参数耦合；

7、根据所述第一样本图像和所述第二样本图像是否属于同一样本分类，以及所述第一特征向量和所述第二特征向量之间的特征相似度，确定所述文本检测模型的训练损失；

8、基于所述训练损失，对所述文本检测模型进行参数调整。

9、第二方面，提出了一种文本检测模型的预训练装置，包括：

10、图像合成模块，将前景图像集中的前景图像映射至背景图像集中的背景图像，以得到合成图像集，并对所述合成图像集中的合成图像标注对应前景图像的映射位置，其中，所述前景图像集中的前景图像为文本图像，所述背景图像集中的背景图像为非文本图像；

11、样本采集模块，从所述合成图像集中选取合成图像构建样本图像集，其中，所述样本图像集中样本图像对应标注的映射位置作为该样本图像的文本信息位置；

12、特征提取模块，基于第一神经网络，按照所述样本图像集中第一样本图像的文本信息位置，对所述第一样本图像进行特征提取，得到第一特征向量，以及，基于第二神经网络，按照所述样本图像集中第二样本图像中的文本信息位置，对所述第二样本图像进行特征提取，得到第二特征向量，其中，所述第一神经网络和所述第二神经网络构成孪生网络结构，并与待训练的文本检测模型的参数耦合；

13、损失确定模块，根据所述第一样本图像和所述第二样本图像是否属于同一样本分类，以及所述第一特征向量和所述第二特征向量之间的特征相似度，确定所述文本检测模型的训练损失；

14、参数调整模块，基于所述训练损失，对所述文本检测模型进行参数调整。

15、第三方面，提出了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

16、将前景图像集中的前景图像映射至背景图像集中的背景图像，以得到合成图像集，并对所述合成图像集中的合成图像标注对应前景图像的映射位置，其中，所述前景图像集中的前景图像为文本图像，所述背景图像集中的背景图像为非文本图像；

17、从所述合成图像集中选取合成图像构建样本图像集，其中，所述样本图像集中样本图像对应标注的映射位置作为该样本图像的文本信息位置；

18、基于第一神经网络，按照所述样本图像集中第一样本图像的文本信息位置，对所述第一样本图像进行特征提取，得到第一特征向量，以及，基于第二神经网络，按照所述样本图像集中第二样本图像中的文本信息位置，对所述第二样本图像进行特征提取，得到第二特征向量，其中，所述第一神经网络和所述第二神经网络构成孪生网络结构，并与待训练的文本检测模型的参数耦合；

19、根据所述第一样本图像和所述第二样本图像是否属于同一样本分类，以及所述第一特征向量和所述第二特征向量之间的特征相似度，确定所述文本检测模型的训练损失；

20、基于所述训练损失，对所述文本检测模型进行参数调整。

21、第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

22、将前景图像集中的前景图像映射至背景图像集中的背景图像，以得到合成图像集，并对所述合成图像集中的合成图像标注对应前景图像的映射位置，其中，所述前景图像集中的前景图像为文本图像，所述背景图像集中的背景图像为非文本图像；

23、从所述合成图像集中选取合成图像构建样本图像集，其中，所述样本图像集中样本图像对应标注的映射位置作为该样本图像的文本信息位置；

24、基于第一神经网络，按照所述样本图像集中第一样本图像的文本信息位置，对所述第一样本图像进行特征提取，得到第一特征向量，以及，基于第二神经网络，按照所述样本图像集中第二样本图像中的文本信息位置，对所述第二样本图像进行特征提取，得到第二特征向量，其中，所述第一神经网络和所述第二神经网络构成孪生网络结构，并与待训练的文本检测模型的参数耦合；

25、根据所述第一样本图像和所述第二样本图像是否属于同一样本分类，以及所述第一特征向量和所述第二特征向量之间的特征相似度，确定所述文本检测模型的训练损失；

26、基于所述训练损失，对所述文本检测模型进行参数调整。

27、本说明书实施例的方案将文本图像作为前景图像，将非文本图像作为背景图像，采用映射的方式将前景图像映射至背景图像以得到合成图像，并顺便将映射位置作为文本信息位置的标签对合成图像进行标注，从而以机器方式完成合成图像的大批量采集和标注。在从合成图像集中选取合成图像构建样本图像集后，采用对比学习方式，构建耦合文本检测模型的参数的孪生网络结构，以基于孪生网络结构中的第一神经网络和第二神经网络构按照文本信息位置提取各自样本图像的特征向量，并根据不同样本图像是否属于同一样本分类，以及不同样本图像的特征向量之间的特征相似度确定训练损失，进而根据训练损失对文本检测模型进行参数上的优化调整。由于本明书实施例的方案不依赖于人工标注样本进行模型训练，因此可大幅降低建模所投入的成本。

技术特征：

1.一种文本检测模型的训练方法，包括：

2.根据权利要求1所述的方法，

3.根据权利要求2所述的方法，

4.根据权利要求3所述的方法，

5.根据权利要求3所述的方法，

6.根据权利要求2所述的方法，

7.根据权利要求1-6任一项所述的方法，

8.一种文本检测模型的预训练装置，包括：

9.一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

技术总结
本说明书公开了一种文本检测模型的训练方法、装置、设备及介质，包括：将前景图像映射至背景图像得到合成图像，并对合成图像标注映射位置，前景图像为文本图像，背景图像为非文本图像。选取合成图像构建样本图像集，样本图像标注的映射位置为中文本信息位置。基于第一神经网络按照标注的中文本信息位置对第一样本图像进行特征提取，得到第一特征向量，并基于第二神经网络按照标注的中文本信息位置对第二样本图像进行特征提取，得到第二特征向量，第一神经网络和第二神经网络与文本检测模型的参数耦合。根据第一样本图像和第二样本图像是否为同一样本分类，以及第一特征向量和第二特征向量间的相似度确定训练损失，以对文本检测模型进行参数调整。

技术研发人员：张悦,朱禹轲,阮宇艨,郭胜,韩冰
受保护的技术使用者：浙江网商银行股份有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张悦朱禹轲阮宇艨郭胜韩冰
技术所有人：浙江网商银行股份有限公司
我是此专利的发明人

上一篇：一种干熄焦锅炉底部烟道除灰系统的制作方法
上一篇：一种利用磷石膏与赤泥制备复合膏体材料的方法及应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。