一种基于整字和偏旁部首的层次化建模方法及系统

文档序号：26175145发布日期：2021-08-06 18:20阅读：140来源：国知局

本发明涉及电子信息技术领域，具体涉及一种基于整字和偏旁部首的层次化建模方法及系统。

背景技术：

在日常生活中，文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容，文字往往包含更强的语义信息，因此对图像中的文字提取和识别具有重大意义。随着深度学习的迅速发展，深度学习模型被广泛应用到文字识别领域。但是深度学习模型需要大量的数据进行训练，如果训练样本很少，很难将模型训练好。特别是对于类似于中文这样字符数量较多的语种，存在低频字识别较困难的问题。

现有的针对低频字识别的方案主要基于两个方面，首先是采用语言模型的方案，利用更多的文本语料训练一个语言模型，在语言模型的辅助下实现对低频字的识别，其次是采用偏旁部首建模的方案，即将文字按照偏旁部首进行拆分，比如“科”字，按照偏旁部首拆分，可以得到“禾”、“斗”，其中，表示左右结构。

对于语言模型的方案，低频字的识别过度依赖于语言模型，语言模型的语料选取严重影响低频字的识别效果，对于偏旁部首建模的方案，会造成整字拆分过细，比如“朋”字，拆成“月”、“月”，每个单独的结果都可以认为是一个整字，增加了识别的难度。

技术实现要素：

为了解决上述技术问题，本发明提供一种基于整字和偏旁部首的层次化建模方法及系统。

本发明技术解决方案为：一种基于整字和偏旁部首的层次化建模方法，包括：

步骤s1：将文本行图像经过卷积神经网络和循环神经网络，得到所述文本行图像的序列特征；

步骤s2：将所述文本行图像的序列特征，输入有注意力机制的整字解码模块，得到整字的上下文特征向量以及整字的解码结果；

步骤s3：将所述整字的上下文特征向量输入偏旁部首解码模块，得到整字层级下的各个偏旁部首的解码结果；

步骤s4：利用置信度得分融合策略，分别计算所述整字的解码结果的置信度和所述各个偏旁部首的解码结果的置信度，并进行融合，得到最终的所述整字的识别结果。

本发明与现有技术相比，具有以下优点：

本发明提出一种基于整字和偏旁部首的层次化建模，借鉴了偏旁部首建模的思想，但是与现有的偏旁部首建模方法不同，本发明采用在整字建模的层级下，增加偏旁部首建模分支，每个时刻的上下文特征向量作为该整字下偏旁部首建模的输入，层级化的结构设计，不仅能实现整字的识别，同时实现该时刻偏旁部首的识别，最后通过整字建模置信度和偏旁部首建模置信度融合的策略，不仅能够提升低频字的识别效果，同时最大化地保证了非低频字识别的效果。

附图说明

图1为本发明实施例中一种基于整字和偏旁部首的层次化建模方法的流程图；

图2为本发明实施例中一种基于整字和偏旁部首的层次化建模方法中步骤s1：将文本行图像经过卷积神经网络和循环神经网络，得到所述文本行图像的序列特征的流程图；

图3为本发明实施例中一种基于整字和偏旁部首的层次化建模方法中步骤s2：将文本行图像的序列特征，输入有注意力机制的整字解码模块，得到整字的上下文特征向量以及整字的解码结果的流程图；

图4为本发明实施例中一种基于整字和偏旁部首的层次化建模方法中步骤s3：将整字的上下文特征向量输入偏旁部首解码模块，得到整字层级下的各个偏旁部首的解码结果的流程图；

图5为本发明实施例中一种基于整字和偏旁部首的层次化建模方法中步骤s4：利用置信度得分融合策略，分别计算整字的解码结果的置信度和各个偏旁部首的解码结果的置信度，并进行融合，得到最终的整字的识别结果的流程图；

图6为本发明实施例提供的整字层级下的偏旁部首建模结构示意图；

图7为本发明实施例中一种基于整字和偏旁部首的层次化建模系统的结构框图。

具体实施方式

本发明提供了一种基于整字和偏旁部首的层次化建模方法，采用在整字建模的层级下，增加偏旁部首建模分支，不仅能实现整字的识别，同时实现该时刻偏旁部首的识别，最后通过整字建模置信度和偏旁部首建模置信度融合的策略，不仅能够提升低频字的识别效果，同时最大化地保证了非低频字识别的效果。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于整字和偏旁部首的层次化建模方法，包括下述步骤：

步骤s1：将文本行图像经过卷积神经网络和循环神经网络，得到文本行图像的序列特征；

步骤s2：将文本行图像的序列特征，输入有注意力机制的整字解码模块，得到整字的上下文特征向量以及整字的解码结果；

步骤s3：将整字的上下文特征向量输入偏旁部首解码模块，得到整字层级下的各个偏旁部首的解码结果；

步骤s4：利用置信度得分融合策略，分别计算整字的解码结果的置信度和各个偏旁部首的解码结果的置信度，并进行融合，得到最终的整字的识别结果。

如图2所示，在一个实施例中，上述步骤s1：将文本行图像经过卷积神经网络和循环神经网络，得到所述文本行图像的序列特征，具体包括：

步骤s11：将文本行图像进行归一化处理，得到归一化的文本行图像；

本发明实施例中将文本行图片按照高度64像素进行归一化处理，并将像素归一化到[-1，1]。

步骤s12：将归一化的文本行图像输入卷积神经网络，得到文本行图像的特征向量；

本步骤中，将步骤s11得到的归一化的文本行图像输入卷积神经网络，进行特征提取，本发明是实施例采用resnet29神经网络，图像的高度方向经过6次下采样，即缩小64倍，图像宽度方向经过3次下采样，即缩小8倍，得到的文本行图像特征图大小是[h,l,d]，因为在本发明实施例中，图像高度是64像素，经过resnet29s神经网络后，h表示特征图的高度h＝1，l表示特征图的长度，d表示特征图的通道数。将得到的特征图在长度上进行切片操作，从而得到l个维度是d的特征向量。

步骤s13：将特征向量输入循环神经网络，文本行图像的序列特征。

本步骤中，将步骤s13得到的l个维度的特征向量作为输入循环神经网络，本发明实施例采用两层双向lstm作为循环神经网络，输出文本行图像的序列特征，此时输出的的序列特征的长度为l。

如图3所示，在一个实施例中，上述步骤s2：将文本行图像的序列特征，输入有注意力机制的整字解码模块，得到整字的上下文特征向量以及整字的解码结果，具体包括：

步骤s21：将文本行图像的序列特征，输入如下述公式(1)～(3)所示的有注意力机制的整字解码模块，得到整字的上下文特征向量ct；

eti＝o(st-1,hi)(1)

其中，st-1为上一刻隐状态，hi表示序列特征的第i帧，o表示点乘操作；αti为注意力机制的权重，l为特征向量个数；ct为整字的上下文特征向量；

本发明实施例中的整字解码模块采用一层单向lstm。

步骤s22：将上一时刻的输出yt-1和上下文特征向量ct，经过级联层操作后，再经过分类层，得到当前时刻的整字解码结果yt；

本发明实施例中的分类层采用softmax函数。

如图4所示，在一个实施例中，上述步骤s3：将整字的上下文特征向量输入偏旁部首解码模块，得到整字层级下的各个偏旁部首的解码结果，具体包括：

步骤s31：将上下文特征向量ct，输入偏旁部首解码模块，在t时刻的输出为rt；

本发明实施例中的偏旁部首解码模块同样采用的是一层单向lstm。

步骤s32：rt经过分类层，得到整字的偏旁部首的解码结果；

本步骤中的分类层也采用softmax函数。

步骤s33：统计一批次内的每个整字对应的偏旁部首拆分的个数，得到的最大个数作为该批次偏旁部首的最大解码长度。

偏旁部首解码模块在训练过程中，会统计一个批次内的所有整字下每个整字对应的偏旁部首拆分的个数，得到的最大个数作为该批次的偏旁部首解码的最大解码长度。

如图5所示，在一个实施例中，上述步骤s4：利用置信度得分融合策略，分别计算整字的解码结果的置信度和各个偏旁部首的解码结果的置信度，并进行融合，得到最终的整字的识别结果，具体包括：

步骤s41：判断整字解码结果yt是否为中文，若否，则将yt作为最终解码结果；若是，则根据公式(4)计算整字解码的置信度，并根据公式(5)计算偏旁部首解码的置信度，转至步骤s42；

-logpi(4)

其中，公式(4)中pi表示解码得到的第i个字符对应的识别概率；公式(5)中li表示第i个字符对应的偏旁部首拆分的个数，表示解码得到的第i个字符的第j个偏旁部首对应的识别概率；

步骤s42：比较整字解码的置信度与偏旁部首解码的置信度的大小，取置信度较小的结果作为该时刻最终的解码结果；

步骤s43：每个时刻的解码均重复步骤s41～步骤s42，直至达到最大解码长度或者遇到结束符为止。

如图6所示，为本发明实施例提供的整字层级下的偏旁部首建模结构示意图。

本发明提出一种基于整字和偏旁部首的层次化建模方法，该方法采用在整字建模的层级下，增加偏旁部首建模分支，每个时刻的上下文特征向量作为该整字下偏旁部首建模的输入，层级化的结构设计，不仅能实现整字的识别，同时实现该时刻偏旁部首的识别，最后通过整字建模置信度和偏旁部首建模置信度融合的策略，不仅能够提升低频字的识别效果，同时最大化地保证了非低频字识别的效果。

实施例二

如图7所示，本发明实施例提供了一种基于整字和偏旁部首的层次化建模系统，包括下述模块：

获取文本行图像的序列特征模块51，用于将文本行图像经过卷积神经网络和循环神经网络，得到文本行图像的序列特征；

获取整字的上下文特征向量以及解码结果模块52，用于将文本行图像的序列特征，输入有注意力机制的整字解码模块，得到整字的上下文特征向量以及整字的解码结果；

获取各个偏旁部首的解码结果模块53，用于将整字的上下文特征向量输入偏旁部首解码模块，得到整字层级下的各个偏旁部首的解码结果；

获取识别结果模块54，用于利用置信度得分融合策略，分别计算整字的解码结果的置信度和各个偏旁部首的解码结果的置信度，并进行融合，得到最终的整字的识别结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨争艳;吴嘉嘉;张为泰;宋彦
技术所有人：中国科学技术大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。