一种基于全卷积神经网络的文本行中的字符切分方法与流程

文档序号：19252269发布日期：2019-11-27 20:25阅读：来源：国知局

技术特征：

1.一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述方法包括：

获取待检测的文本行图像区域；

采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果；

获取所述分类结果中属于同一类别的分类结果；

对所述同一类别的分类结果进行区域划分，获得划分结果；

根据划分结果，获得文字切分结果。

2.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述获取待检测的文本行图像区域的步骤，包括：

获取待检测文本图像；

对所述待检测文本图像进行预处理，获取所述待检测文本图像所对应的单行文本行；

将所述单行文本行所组成的区域确定为待检测的文本行图像区域。

3.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果步骤，包括：

根据语义分割模型的编码器，提取所述文本行图像区域的文字边缘特征；

根据语义分割模型中的解码器，对所述文字边缘特征信息进行空间位置还原和像素分类。

4.根据权利要求2所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述对所述同一类别的分类结果进行区域划分，获得划分结果，步骤包括：

对连通区域进行标记搜索，在所述同一类别的分类结果中，查找连通区域并标记；

获取相邻且具有相同特性的联通区域进行合并，并对合并区域进行标记。

5.根据权利要求3所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述根据划分结果，获得文字切分结果的步骤，包括：

根据文字的类别标记，获取文字字符块，并记录所述文字字符块的位置参数，其中，所述位置参数包括：位置，高度和宽度；

根据所述位置参数，确定文字所在的最小的矩形区域。

6.根据权利要求5述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述根据文字的类别标记，获取文字字符块，并记录所述文字字符块的位置参数的步骤，包括：

根据文字和矩形框的对应关系，得到每个文字范围区域的四个边界，其中，所述四个边界为该文字所对应的上边界、下边界、左边界和右边界；

根据坐标位置，计算文字字符块的高度和宽度。

7.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，语义分割模型的训练方法包括：

接收样本图像和样本的标注信息；

将样本图像输入神经网络中，获得预测结果；

将所述预测结果与样本图像的标注信息进行损失函数的比较，获得损失值；

根据损失值和随机梯度下降法，对神经网络中各个节点进行反向传播，并修改节点权重；

根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络，获取所述语义预测模型。

8.根据权利要求7所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述语义预测模型的条件随机场所使用的能量函数表达为：

θi(xi)＝-logp(xi)

其中，θi(xi)为一元势函数，p(xi)为语义分割模型输出的像素i的结果类别的概率值，θij(xi，xj)为二元势函数，t(xi，xj)用于判断i和j是否是同一个像素，如果是则函数输出为0，否则输出为1，是两个高斯滤波器，pi代表像素i的位置坐标，gi代表像素i的灰度值，三个超参数控制高斯滤波器的缩放尺度大小。

技术总结
本发明公开了一种基于全卷积神经网络的文本行中的字符切分方法，所述方法包括：获取待检测的文本行图像区域；采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果；获取所述分类结果中属于同一类别的分类结果；对所述同一类别的分类结果进行区域划分，获得划分结果；根据划分结果，获得文字切分结果。应用本发明实施例，能够有效的避免复杂背景区域以及噪声的干扰，对大小，间距不统一的多语言文字混和的文本行图像进行精确的字符切分。

技术研发人员：刘晋;余超
受保护的技术使用者：上海海事大学
技术研发日：2019.08.28
技术公布日：2019.11.26

完整全部详细技术资料下载

当前第2页1 2