一种文本检测模型训练方法、装置及电子设备与流程

文档序号：37372996发布日期：2024-03-22 10:25阅读：10来源：国知局

本技术涉及人工智能，特别是涉及一种文本检测模型训练方法、装置及电子设备。

背景技术：

1、文本检测模型通常用于针对图像或者视频中的文本区域进行检测。在上述检测过程中，上述文本检测模型可以识别图像或视频中包含的文本，进而，将能够包含该文本的包围框所对应的坐标位置，作为该目标图像的文本检测结果，可以将上述包围框称为文本框。

2、在对上述文本检测模型进行训练时，可以使用包含样本文本框的样本图像对初始模型进行训练，但若样本文本框与样本文本框中的文字之间的间隔较大，则样本文本框中会包含大量除文本之外的其他图像元素。则若采用此类样本文本框对初始模型进行训练，会使得训练得到的文本检测模型在对图像或视频进行文本检测时，检测得到的文本框中包含大量其他图像元素，导致训练得到的文本检测模型的检测结果不准确。

技术实现思路

1、本技术实施例的目的在于提供一种文本检测模型训练方法、装置及电子设备，以提高训练得到的文本检测模型的准确度。具体技术方案如下：

2、在本技术实施例提供的第一方面，首先，提供了一种文本检测模型训练方法，所述方法包括：

3、根据预设对应关系，确定样本图像中样本文本框的样本尺寸对应的目标收缩倍数；其中，所述预设对应关系为：预先建立的预设尺寸和收缩倍数的对应关系，按照文本框的预设尺寸所对应的收缩倍数对文本框进行收缩后，再按照统一的预设扩张倍数扩张，得到的文本框与原文本框的尺寸差位于预设范围内；所述样本文本框中包含所述样本图像内的文本；

4、基于所述目标收缩倍数，对所述样本文本框进行收缩，得到所述样本文本框的收缩文本框；

5、将所述样本图像输入至初始模型，得到所述样本图像的检测文本框；

6、利用所述检测文本框和所述收缩文本框之间的尺寸差，计算所述初始模型的模型损失；

7、利用所述模型损失对所述初始模型的模型参数的调整，进行模型训练。

8、可选的，一种具体实现方式中，所述根据预设对应关系，确定样本图像中样本文本框的样本尺寸对应的目标收缩倍数，包括：

9、在预设对应关系中，将与样本图像中样本文本框的样本尺寸最接近的预设尺寸对应的收缩倍数，作为目标收缩倍数。

10、可选的，一种具体实现方式中，针对每一预设尺寸，采用以下方式确定所述预设对应关系中该预设尺寸对应的收缩倍数：

11、分别计算各个测试收缩倍数对应的尺寸相似度；

12、将所述尺寸相似度最大的测试收缩倍数，确定为所述预设对应关系中该预设尺寸对应的收缩倍数；

13、针对每一测试收缩倍数，通过以下方式计算该测试收缩倍数对应的尺寸相似度：

14、基于该测试收缩倍数，对该预设尺寸的测试框进行收缩，得到收缩后的文本框；

15、基于所述预设扩张倍数，对所述收缩后的文本框进行扩张，得到扩张后的文本框；

16、计算原本的测试框与所述扩张后的文本框之间的尺寸相似度。

17、可选的，一种具体实现方式中，所述计算原本的测试框与所述扩张后的文本框之间的尺寸相似度，包括：

18、计算原本的测试框与所述扩张后的文本框之间的交并比值，作为原本的测试框与所述扩张后的文本框之间的尺寸相似度。

19、可选的，一种具体实现方式中，通过以下方式确定各个预设尺寸：

20、从预设边长范围内，按照第一预设间隔选择预设边长；

21、从预设宽高比范围内，按照第二预设间隔选择预设宽高比；

22、基于所选择的各个边长和宽高比，确定各个预设尺寸。

23、可选的，一种具体实现方式中，所述基于所述目标收缩倍数，对所述样本文本框进行收缩，得到所述样本文本框的收缩文本框，包括：

24、基于所述目标收缩倍数和所述样本尺寸，计算得到所述样本文本框的目标收缩偏移量；

25、基于所述目标收缩偏移量对所述样本文本框进行收缩，得到所述样本文本框的收缩文本框。

26、可选的，一种具体实现方式中，所述基于所述目标收缩倍数和所述样本尺寸，计算得到所述样本文本框的目标收缩偏移量，包括：

27、基于所述样本尺寸确定所述样本文本框的面积与周长；

28、基于所述目标收缩倍数、面积与周长，计算所述样本文本框的目标收缩偏移量。

29、可选的，一种具体实现方式中，所述样本文本框的尺寸以所述样本文本框的边长和所述样本文本框的宽高比表示。

30、在本技术实施例的第二方面，还提供了一种文本检测模型训练装置，所述装置包括：

31、目标收缩倍数确定模块，用于根据预设对应关系，确定样本图像中样本文本框的样本尺寸对应的目标收缩倍数；其中，所述预设对应关系为：预先建立的预设尺寸和收缩倍数的对应关系，按照文本框的预设尺寸所对应的收缩倍数对文本框进行收缩后，再按照统一的预设扩张倍数扩张，得到的文本框与原文本框的尺寸差位于预设范围内；所述样本文本框中包含所述样本图像内的文本；

32、收缩文本框获取模块，用于基于所述目标收缩倍数，对所述样本文本框进行收缩，得到所述样本文本框的收缩文本框；

33、检测文本框获取模块，用于将所述样本图像输入至初始模型，得到所述样本图像的检测文本框；

34、模型损失计算模块，用于利用所述检测文本框和所述收缩文本框之间的尺寸差，计算所述初始模型的模型损失；

35、模型训练模块，用于利用所述模型损失对所述初始模型的模型参数的调整，进行模型训练。

36、可选的，一种具体实现方式中，所述目标收缩倍数确定模块，具体用于：

37、在预设对应关系中，将与样本图像中样本文本框的样本尺寸最接近的预设尺寸对应的收缩倍数，作为目标收缩倍数。

38、可选的，一种具体实现方式中，针对每一预设尺寸，采用以下模块确定所述预设对应关系中该预设尺寸对应的收缩倍数：

39、尺寸相似度模块，用于分别计算各个测试收缩倍数对应的尺寸相似度；

40、收缩倍数确定模块，用于将所述尺寸相似度最大的测试收缩倍数，确定为所述预设对应关系中该预设尺寸对应的收缩倍数；

41、针对每一测试收缩倍数，通过以下子模块计算该测试收缩倍数对应的尺寸相似度：

42、收缩子模块，用于基于该测试收缩倍数，对该预设尺寸的测试框进行收缩，得到收缩后的文本框；

43、扩张子模块，用于基于所述预设扩张倍数，对所述收缩后的文本框进行扩张，得到扩张后的文本框；

44、计算子模块，用于计算原本的测试框与所述扩张后的文本框之间的尺寸相似度。

45、可选的，一种具体实现方式中，所述计算子模块，具体用于：

46、计算原本的测试框与所述扩张后的文本框之间的交并比值，作为原本的测试框与所述扩张后的文本框之间的尺寸相似度。

47、可选的，一种具体实现方式中，通过以下子模块确定各个预设尺寸：

48、边长选取子模块，用于从预设边长范围内，按照第一预设间隔选择预设边长；

49、宽高比选取子模块，用于从预设宽高比范围内，按照第二预设间隔选择预设宽高比；

50、尺寸确定子模块，用于基于所选择的各个边长和宽高比，确定各个预设尺寸。

51、可选的，一种具体实现方式中，所述收缩文本框获取模块，包括：

52、收缩偏移量确定子模块，用于基于所述目标收缩倍数和所述样本尺寸，计算得到所述样本文本框的目标收缩偏移量；

53、收缩文本框获取子模块，用于基于所述目标收缩偏移量对所述样本文本框进行收缩，得到所述样本文本框的收缩文本框。

54、可选的，一种具体实现方式中，所述收缩偏移量确定子模块，具体用于：

55、基于所述样本尺寸确定所述样本文本框的面积与周长；

56、基于所述目标收缩倍数、面积与周长，计算所述样本文本框的目标收缩偏移量。

57、可选的，一种具体实现方式中，所述样本文本框的尺寸以所述样本文本框的边长和所述样本文本框的宽高比表示。

58、在本技术实施例提供的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的任一文本检测模型训练方法。

59、在本技术实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的任一文本检测模型训练方法。

60、在本技术实施例的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的任一文本检测模型训练方法。

61、应用本技术实施例提供的方案，为了提高所训练得到的文本检测模型的准确性，在对初始模型进行训练时，可以将样本图像中的样本文本框的样本尺寸进行收缩，从而，通过降低样本文本框的样本尺寸，减少文本框中文本之外的其他图像元素，进而，使得所训练得到的上述模型对于文本框的检测准确性得到提高。然而，在将样本文本框的样本尺寸收缩后，所得到的样本文本框中所包括的文本可能并不完整。因此，训练得到的文本检测模型可能仅能检测不完整的文本，所以可以利用一个统一的预设扩张倍数对文本检测模型输出的文本框进行扩张，从而，使得扩张后的文本框中可以包括完整的文本。

62、然而，由于在利用同一个预设扩张倍数对收缩后不同尺寸文本框进行扩张后，所得到的文本框与文本框中的文本之间的间隔可能较大，从而，导致该文本框可能会再次包含大量除文本之外的其他图像元素。因此，可以预先建立预设尺寸和收缩倍数的预设对应关系，在所建立的预设对应关系中，按照文本框的预设尺寸所对应的收缩倍数对文本框进行收缩，再按照统一的预设扩张倍数进行扩张，得到的文本框与原文本框的尺寸差位于预设范围内，从而，尽可能的使得扩张后的文本框的尺寸还原为原文本框的尺寸，进而，使得扩张后的文本框的边缘更加贴近文本，从而，在缩小文本框与该文本框中的文字内容的间隔，降低文本框中所包含的其他图像元素的数量的基础上，提高所包括的文本的完整性，且能够尽可能地使文本框中包含较少的其他图像元素。

63、这样，在进行模型训练的过程中，可以根据预设对应关系，确定样本图像中样本文本框的样本尺寸对应的目标收缩倍数，从而，基于上述目标收缩倍数，对上述样本文本框进行收缩，得到上述样本文本框的收缩文本框。进而，在将上述样本图像输入至初始模型，得到上述样本图像的检测文本框后，便可以利用上述检测文本框和上述收缩文本框之间的尺寸差，计算得到上述初始模型的模型损失，进一步，利用所计算得到的模型损失对上述初始模型的模型参数的调整，进行模型训练，从而，提高所训练得到的模型的检测准确度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：屈杨
技术所有人：北京奇艺世纪科技有限公司
我是此专利的发明人

上一篇：一种减震器及独轮车的制作方法
上一篇：一种双向阻尼减震器及独轮车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。