文字检测系统、训练方法及检测方法与流程

文档序号：30703765发布日期：2022-07-09 21:06阅读：104来源：国知局

1.本发明涉及人工智能技术领域，尤其涉及文字检测系统、训练方法及检测方法。

背景技术：

2.文字检测任务是找出图像或视频中人们感兴趣的物体，并同时检测出它们的位置和大小。文字检测技术发展至今已经有几十年的时间，从技术的发展脉络看，可以划分为传统文字检测算法时期(2014年之前)以及之后的基于机器学习的文字检测算法。
3.传统文字检测算法主要基于手工提取特征，手工的缺陷主要在于计算量大，识别效果比较差，而且人工成本也非常高。随着机器学习的各种新算法成熟，文字检测技术得到了质的飞跃，基于cnn以及yolo的各种文字检测算法不断创新出来，大大提高了文字检测的识别能力和准确率。
4.这些层出不穷的新算法和新模型，功能越来越强大，网络深度也越来越深，网络结构也越来越复杂，而模型过大，其带来的问题就是其计算成本就越来越高，速度也受到了影响，因此无法在移动设备端使用和部署，因为移动端设备内存较小，同时移动设备计算量相当于服务器较低，导致文字检测模型不能部署和满足不了实时检测的需求。

技术实现要素：

5.本发明为解决现有技术中存在的技术问题，提供一种文字检测系统，包括预处理单元、基础网络单元、目标定位单元、输出处理单元，其中：
6.预处理单元用以对输入的图片进行预处理，用以作为基础网络单元的输入图像；
7.基础网络单元用以对输入图像进行特征抽取，获得特征图；
8.目标定位单元用以对特征图进行定位；
9.输出处理单元用以对目标定位单元定位的目标进行处理，得到文字目标。
10.进一步地，基础网络单元为对多个基础网络模块构成，每个基础网络模块为：对输入经过2次卷积得到第一特征图，对输入经过1次卷积和多次残差模块得到第二特征图，将第一特征图和第二特征图进行concat后，再经过1次卷积输出。
11.进一步地，基础网络单元还包括池化模块，用以处理不同纵横比和不同尺寸的输入图像的问题，其结构为：将输入图像复制为多份，对其中进行间隔采样，并进行框处理，再和特征图在通道维度上进行拼接，最后经过csp结构输出。
12.进一步地，基础网络单元还包括嵌入模块，用以将先验的隐式知识传递到基础网络单元的的显性知识中，其结构为：
13.将多个输出特征图分别在经过1次卷积后，叠加到一维正态分布的先验矩阵中，再分别经过1次卷积后，乘以另一个一维正态分布的先验矩阵。
14.进一步地，预处理单元包括数据增强模块、框处理模块以及切片模块，其中：
15.数据增强模块用以增加了数据的多样性；
16.框处理模块用以将不规整图片标准正方形；
17.切片模块用以对图片进行切片操作，并进行拼接，得到特征图。
18.进一步地，目标定位单元包括特征金字塔网络模块和聚合网络模块，其中：
19.特征金字塔网络模块用以自上而下传递了语义信息，发现大目标；
20.聚合网络模块用以自底而上传递语义信息，发现小目标。
21.进一步地，输出处理单元包括定位精度模块和目标锁定模块，其中：
22.定位精度模块为giou，用以发现目标；
23.目标锁定模块用以确定最佳目标，并消除冗余的边界框。
24.本发明还提供一种文字检测系统的训练方法，应用于文字检测系统中，包括步骤：
25.设置学习率、激活函数以及优化方法；
26.对输入的图片进行数据处理:
27.先验框筛选；
28.对中心坐标进行调整；
29.设置损失函数，计算损失值并进行训练。
30.本发明还一种文字检测方法，应用于文字检测系统中，包括步骤：
31.获取图片信息；
32.对图片信息进行处理，并给出检测结果，
33.所述文字检测系统为所述的文字检测系统。
34.本发明还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如所述的文字检测方法。
35.本发明公开的方法和系统中所述模块，在实际应用中，即可以在一台目标服务器上部署多个模块，也可以每一模块独立部署在不同的目标服务器上，特别的，根据需要，为了提供更强大的计算处理能力，也可以根据需要将模块部署到集群目标服务器上。
36.由此可见，本发明针对文字检测准确率不高的技术缺陷提出的技术方案，能够大大提高对复杂背景的文字检测鲁棒性。
37.为了对本发明有更清楚全面的了解，下面结合附图，对本发明的具体实施方式进行详细描述。
附图说明
38.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
39.图1为本技术实施例的文字检测系统结构示意图。
具体实施方式
40.本技术针对现有技术的技术缺陷，提出一种新型的文字检测系统，包括，包括预处理单元、基础网络单元、目标定位单元、输出处理单元，其中：
41.预处理单元用以对输入的图片进行预处理，用以作为基础网络单元的输入图像；
42.基础网络单元用以对输入图像进行特征抽取，获得特征图；
43.目标定位单元用以对特征图进行定位；
44.输出处理单元用以对目标定位单元定位的目标进行处理，得到文字目标。
45.请参阅图1，下面结合各种优选的实施方式进一步说明本技术的技术方案。
46.作为一种优选的实施方式，本技术实施例的预处理单元包括数据增强模块、框处理模块以及切片模块，其中：
47.数据增强模块的实施方式如下：
48.除了当前照片，还随机选取3张图片用来补充。
49.首先，创建标准大小画布，设定画布的宽高比例，比如设置画布宽高比例0.5-1.5之间，随机选择中心点，以此中心点拼接裁切4张图片，再将四张图的qtbox坐标重新映射到当前画布中,如此增加了数据的多样性，每张照片的目标个数，以及每次batchnorm可以统计到更多图片的参数。
50.框处理模块：框处理padding是将不规整图片的最长边放缩到标准正方形边长，然后在短边的上下也padding到标准正方形边长，传统的padding方案容易中引入过多冗余信息，本技术只给给短边较少的进行padding，只需满足网络采样间隔stride的整数倍即可。
51.切片模块：即对图片进行切片操作，即在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，然后将每个区域中采样的4个像素按原图位置拼接起来，再将四张图片在通道维度进行拼接，最终得到了通道是原来4倍，宽高减半的没有信息丢失情况下的二倍下采样特征图。
52.本技术的基础网络单元，用以对输入图像进行特征抽取，获得特征图，其结构为对多个基础网络模块构成，每个基础网络模块将前几层的结果和后几层的结果进行concat，用以增大感受野和减轻训练难度。每个基础网络模块为：对输入经过2次卷积得到第一特征图，对输入经过1次卷积和多次残差模块得到第二特征图，将第一特征图和第二特征图进行concat后，再经过1次卷积输出。
53.作为一种优选的实施方式，本实施例的基础网络单元5个csp模块，每次的残差模块的个数为[3.7.7.3.3]，后面4层输出不同宽高和通道数的特征图，用来给spp和fpn网络抽取不同尺寸目标的目标框。
[0054]
此外，作为一种优选的实施例，本技术的基础网络单元还包括池化模块，本技术的池化模块为空间金字塔池化网络，用以处理不同纵横比和不同尺寸的输入图像的问题，具体为：将原图复制4份，其中3份分别进行间隔采样stride的值设为1，kernel size分别为5、9和13的maxpooling，并统一padding到输入特征图的大小，再将结果和原特征图在通道维度上进行拼接，最后经过一层csp结构输出。
[0055]
此外，作为一种优选的实施例，本技术的基础网络单元还包括嵌入模块，本实施例的嵌入模块通过引入先验的隐式知识到基础网络单元的的显性知识中，是的模型可以面向不同的任务，其具体实施方式为：将多个输出特征图分别在经过1次卷积后，叠加到一维正态分布的先验矩阵中，再分别经过1次卷积后，乘以另一个一维正态分布的先验矩阵。
[0056]
目标定位单元用以对特征图进行定位，作为一种优选的实施方式，本技术实施例的目标定位单元包括特征金字塔网络模块和聚合网络模块。
[0057]
特征金字塔网络模块，本技术中，基础网络单元包含了自底而上的空间信息，为了
在不同尺度上检测物体，本技术的金字塔网络模块通过上采样，即结合了自上而下的语义信息。具体实现方式为:将经过1层卷积的高分辨率特征图，和经过1层卷积和1层最近邻上采样的低分辨率特征图进行拼接后，最后经过一层csp结构输出。
[0058]
特征金字塔网络模块通过上采样，高分辨率的信息结合上采样的低分辨率的信息，自上而下传递了语义信息，使得大目标更加明确。
[0059]
聚合网络模块则是进行自底而上传递语义信息，低分辨率的信息结合下采样的高分辨率的信息，使得小目标更加明确，具体实施方式为：将进行stride＝2的下采样的高分辨率特征图和低分辨率特征图进行拼接，再经过一层csp结构输出。
[0060]
输出处理单元用以对目标定位单元定位的目标进行处理，得到文字目标。
[0061]
作为一种优选的实施方式，本技术输出处理单元包括定位精度模块和目标锁定模块。本技术实施例的定位精度模块基于iou(intersection over union)进行优化的giou，giou的算法先计算两个框的最小闭包区域面积，即时包含了预测框和真实框的最小框的面积，再计算出iou，再计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用iou减去这个比重得到giou。clou考虑了重叠面积、中心点距离和长宽比等，还关注其他的非重合区域，因为具备更精准的定位。
[0062]
目标锁定模块，检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，本技术使用非极大值抑制(nms：non-maximum suppression)来找到最佳的目标边界框，并消除冗余的边界框。
[0063]
基于上述文字检测系统，本技术实施例的一种训练方法如下：
[0064]
参数设置:
[0065]
学习率余弦衰减+warmup(前3个epoch)+sgdmomentum+leakyrelu激活函数。
[0066]
数据处理:
[0067]
首先对图像进行矩形训练和归一化；
[0068]
然后进行图像增强，随机一个概率，如果小于阈值就进行mosaic图像增强操作；如果没有开启mosaic增强操作，就开启auament参数，即对图像进行仿射变化增强和色彩随机强化；
[0069]
最后将图像的左上角和右下角坐标转换为中心点和图像宽高的坐标。
[0070]
先验框筛选:
[0071]
通过计算每个目标框和先验框的宽/高比(目标框和先验框最大的高比或宽比)，过滤获取符合阈值(宽/高比小于阈值)的所有目标框和它对应的先验框(大幅降低负样本占比)。
[0072]
中心坐标调整:
[0073]
判断目标框中心坐标是否大于1，若距离网格的左上角的距离小于0.5，则划归为网格的左上角；
[0074]
判断目标框中心坐标是否小于特征图宽高-1，若距离网格右下角的距离小于0.5就划归为网格的右下角；
[0075]
将中心坐标进行四舍五入处理，和上述划归结果进行拼接(即获取所有合理的取整可能)；
[0076]
最后对坐标进行筛检，确保不越界。
[0077]
损失函数:
[0078]
整个文字检测系统的损失函数设置如下：
[0079]
xvwh坐标和宽高参数的回归任务(先转换目标框到和真实框的大小，再从xvwh转换为xvxv)采用clou计算回归损失；
[0080]
分类任务采用bce二分类损失；
[0081]
置信度任务采用bce二分类损失：若单张图目标数大于等于4，则分类损失乘以1.4，然后将上述三个损失相加除以目标个数再乘以3得到损失。
[0082]
此外，上述文字检测系统上线之后，根据新的文字检测需求，结合新标注的数据丰富数据集内容，可以采用keans和遗传算法更新先验框系数，微调优化模型。
[0083]
基于上述实施例，本技术提供一种文字检测方法，应用于文字检测系统中，包括步骤：
[0084]
获取图片信息；
[0085]
对图片信息进行处理，并给出检测结果，
[0086]
所述文字检测系统为上述实施例的文字检测系统，具体实施方案请参阅上述内容，不再详述。
[0087]
本技术实施例还提供一种计算机可读存储介质，所述存储介质中存储有指令或者程序，所述指令或者程序由处理器加载并执行如上述任一所述的文字检测方法。
[0088]
本技术实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述任一所述的文字检测方法。
[0089]
需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(rom，read only memory)、随机存取存储器(ram，randomaccess memory)、磁盘或光盘等。
[0090]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾祥云朱姬渊
技术所有人：上海易康源医疗健康科技有限公司
我是此专利的发明人

上一篇：震后道路通行受阻对建筑修复进度影响的分析方法及装置
上一篇：半导体装置和包括其的数据存储系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。