一种手写体文本图片的文本检测方法、装置及存储介质与流程

文档序号：35278410发布日期：2023-08-31 21:43阅读：25来源：国知局

本发明涉及文本检测，具体的涉及一种手写体文本图片的文本检测方法、装置及存储介质。

背景技术：

1、手写体文本是指以毛笔或钢笔等书写工具书写的文本，由于是手写文本，因此手写体文本的行与行之间会存在一些交错的情况。在这种情况下，手写体文本中还会出现插入行的情况，插入行指的是书写时出现在正常行之间的附加行，可能是因为笔误或想要添加注释等原因所导致。小目标行作为插入行的另一种形式，则是指书写时被嵌入在行内的较短的行，例如书写数字、符号、注音等，具体的手写体文本示例如图1所示。

2、深度学习算法是一种基于神经网络模型的机器学习算法，其模拟人类大脑神经元之间相互连接的方式，通过多层次的非线性变换，从大量的数据中提取出高层次、抽象的特征表征。深度学习算法可以用于图像、语音、自然语言处理等各种领域的数据分析与处理。深度学习算法的核心是深度神经网络，由多个层次的神经元组成，其中每个神经元都包含输入、输出、激活函数等元素，神经元之间的权重值可以通过反向传播算法进行调整，以优化神经网络的性能。深度学习算法具有较高的自动化和泛化能力，能够自主学习和发现数据之间的规律，从而在未知数据中实现准确的预测和分类。

3、手写体文本识别一直是计算机视觉领域的一个重要研究方向。但是，手写体文本中行与行之间会存在一些交错的情况，导致行与行之间相互粘连，使得目前许多文本检测和识别的深度学习算法进行手写体文本的检测和识别变得困难；而且，手写体文本中的插入行(也称为悬挂行)的存在，进一步加剧手写体文本中文本行与文本行之间的粘连现象，使得深度学习算法进行手写体文本的检测和识别变得更加困难。

4、目前，许多文本检测和识别的深度学习算法仍然无法很好地处理这些问题。传统基于深度学习算法的手写体文本的行分割方法通常依赖于像素级预测，通过强大的深度学习模型获得更好的行分割结果。然而，对于具有插入行手写体文本，仅依靠更强大的深度学习模型进行文本的检测分割是不可行的。

技术实现思路

1、针对以上阐述的问题，本发明提出了一种手写体文本图片的文本检测方法、装置及存储介质，将手写体文本中的插入行先验信息引入到深度模型的学习过程中，从而使模型获得更好的结果，解决具有插入行手写体文本的文本检测问题。具体地，采用了如下技术方案：

2、一种手写体文本图片的文本检测方法，包括：

3、手写体文本检测模型的深度学习训练流程：将含有插入行的手写体文本图片作为输入数据样本集，将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集，基于dbnet文本检测算法模型进行深度学习训练，得到手写体文本检测模型；

4、手写体文本图片的文本检测流程：将含有插入行的目标手写体文本图片输入手写体文本检测模型，输出与之相应的含有插入行文本框的手写体文本标注图片。

5、作为本发明的可选实施方式，所述手写体文本检测模型的深度学习训练流程包括：

6、将含有插入行的手写体文本图片作为输入数据样本集，输入基于dbnet文本检测算法模型中，得到预测probability map；

7、根据输出数据样本集中的手写体文本标注图片生成真实probability map；

8、将所述预测probability map与所述真实probability map进行逐点比较，得到各个点的损失，根据损失确定惩罚系数；

9、根据输出数据样本集中手写体文本标注图片生成真实threshold map，基于所述真实threshold map与真实probability map生成权重图weigt map；

10、根据所述权重图weigt map与各点的惩罚系数确定dbnet文本检测算法模型的损失，进行反向传播优化。

11、作为本发明的可选实施方式，本发明的一种手写体文本图片的文本检测方法，包括：

12、提取输出数据样本集中手写体文本标注图片中插入行；

13、所述根据输出数据样本集中手写体文本标注图片生成真实probability map过程中，针对插入行粘连的部分行进行膨胀，对插入行膨胀后的外框实例置为背景类，将膨胀之前的插入行实例置为前景类，生成dbnet文本检测算法模型应当输出的真实插入行。

14、作为本发明的可选实施方式，所述提取输出数据样本集中手写体文本标注图片中插入行包括：

15、所述手写体文本标注图片中各个文本行和插入行均被人为标注为各个文本框实例；

16、针对所有文本框实例进行边界扩充；

17、遍历所有边界扩充后的文本框实例；

18、当边界扩充后的第一文本框实例的面积和与其相交的边界扩充后的第二文本框实例的面积比小于或者等于第一预设阈值，则判定所述第一文本框实例为插入行。

19、作为本发明的可选实施方式，所述根据输出数据样本集中手写体文本标注图片生成真实threshold map，基于所述真实threshold map与真实probability map生成权重图weigt map包括：

20、将真实threshold map中所有真实文本框按照自身周长的系数进行膨胀，对膨胀后的真实文本框外框实例置为前景类，将膨胀之前的真实文本框实例置为背景类，得到初始权重图；

21、将膨胀的部分在模型训练中施加第一惩罚系数，所述第一惩罚系数由所述预测probability map与所述真实probability map进行逐点比较确定的惩罚系数乘以大于1的比例系数得到。

22、作为本发明的可选实施方式，所述根据输出数据样本集中手写体文本标注图片生成真实threshold map，基于所述真实threshold map与真实probability map生成权重图weigt map包括：

23、遍历初始权重图中所有膨胀后的真实文本框外框实例；

24、当膨胀后的的第一真实文本框外框实例的面积和与其相交的膨胀后的第二真实文本框外框实例的面积比小于或者等于第二预设阈值，则判定所述第一真实文本框外框实例所对应的真实文本框实例为插入行；

25、针对所述插入行实例在模型训练中施加第二惩罚系数，所述的第二惩罚系数大于所述第一惩罚系数。

26、作为本发明的可选实施方式，所述根据输出数据样本集中手写体文本标注图片生成真实threshold map，基于所述真实threshold map与真实probability map生成权重图weigt map包括：

27、对插入行实例的膨胀粘连区域在模型训练中施加第三惩罚系数，所述的第三惩罚系数大于所述第二惩罚系数。

28、本发明同时提供一种手写体文本图片的文本检测装置，包括：

29、手写体文本检测模型训练模块：将含有插入行的手写体文本图片作为输入数据样本集，将手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集，基于dbnet文本检测算法模型进行深度学习训练，得到手写体文本检测模型；

30、文本检测模块：将含有插入行的目标手写体文本图片输入手写体文本检测模型，输出与之相应的含有插入行文本框的手写体文本标注图片。

31、本发明还提供一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行所述的一种手写体文本图片的文本检测方法。

32、本发明同时还提供一种计算机可读存储介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现所述的一种手写体文本图片的文本检测方法。

33、与现有技术相比，本发明的有益效果：

34、本发明在进行手写体文本检测模型的深度学习训练时，采用含有插入行的手写体文本图片作为输入数据样本集，采用手写体文本图片标注完文本框对应的手写体文本标注图片作为输出数据样本集，将手写体文本中的插入行先验信息引入到深度模型的学习过程中，从而使模型获得更好的结果。这样，本发明的一种手写体文本图片的文本检测方法，在进行手写体文本图片的文本检测过程中，可以将含有插入行的目标手写体文本图片中的插入行文本和普通行文本进行识别检测和行分割，解决具有插入行手写体文本的文本检测问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘旭东郭彦宗袁景伟
技术所有人：北京云思智学科技有限公司
我是此专利的发明人

上一篇：一种消声结构和服务器的制作方法
上一篇：一种抑制鲭鱼罐头加工过程中生物胺产生的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。