一种金融票据大写金额处手写汉字的分割方法与流程

文档序号:23149368发布日期:2020-12-01 14:19阅读:219来源:国知局
一种金融票据大写金额处手写汉字的分割方法与流程
本发明涉及薄片类纸质介质处理领域,特别是涉及一种金融票据处的大写金额处手写体汉字的分割方法。
背景技术
:目前,在字符处理领域内,手写体汉字分割和识别技术发展迅猛,其识别准确率正在逐步提升,应用场景日益不断拓展,其相关产品也日渐趋于成熟,但在金融票据上大写金额处的特定识别场景下的应用效果并不理想。不同于其他汉字手写体应用场景,金融票据上大写金额汉字种类较少,有壹、贰、叁、肆、伍、陆、柒等共约20个,由于手写区域长度的限制,汉字相互贴近、粘连的情况很普遍,且汉字手写时字体风格因人而异,字号大小不一致,连笔、乱笔等现象频繁出现,这使得精确分割出字符变得十分困难。技术实现要素:本发明的目的是针对现有技术中存在的技术缺陷,而提供一种金融票据大写金额处手写汉字的分割方法,为实现本发明的目的所采用的技术方案是:一种金融票据大写金额处手写汉字的分割方法,其特征在于,包括以下步骤:选取大写金额处手写汉字区域;利用大律法计算图像最佳分割阈值:遍历图像灰度值并求和取平均值,得到初步分割的阈值,遍历阈值从0到255,每次遍历需计算前景和背景图象的方差值,当方差值取得最大时,判定前景和背景的差异最大,此时得到的阈值为最佳分割阈值;利用最佳分割阈值对图像进行二值化,得到手写体汉字和背景分割的二值化图像;横向投影计算汉字平均高度;纵向投影确定最优宽度序列;利用平均高度及最优宽度序列分割大写金额处手写汉字。作为优选的,得到初步分割的阈值后,分别计算前景和背景的点数、质量矩、平均灰度,得到前景和背景图象的方差值。作为优选的,前景和背景图象的方差值计算公式如下:g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1)公式1其中:g是前景和背景的方差值;w0是前景像素点数占图像总像素数的比例值;u0是前景中的平均灰度;w1是背景像素点数占图像总像素数的比例值,u1是背景中的平均灰度;u是图像的总平均灰度。作为优选的,图像的总平均灰度的计算公式如下:u=w0*u0+w1*u1公式2。作为优选的,对二值化图像进行横向投影,计算每行汉字区所占像素点个数,以行像素点数作为限定条件,排除干扰点,得到有效连续的行数,即为汉字平均高度。作为优选的,使用汉字平均高度值截取横向投影图像,再对其进行纵向投影,得到垂直方向上各列有效像素点个数,即初步的宽度序列。作为优选的,针对初步的宽度序列,采用近似间隔的方法来确定汉字的最优宽度序列,包括如下步骤:假设汉字边界处的最大像素点个数为s,小于s个像素点数即被认为是近似间隔b,每行手写体汉字可得到b1,b2,b3......bn约n个近似间隔;对n个近似间隔取平均值mn,mn=(b1+b2+b3+......+bn)/n;依据判定条件:mn-5<b且b<mn+5,得到有效的间隔:b1’,b2’,b3’......bm’;由有效间隔点对应的坐标位置计算得到最优宽度序列。本发明的有益效果在于:本发明在研究了多种经典分割算法的基础上,采用了横向投影计算汉字平均高度和纵向投影确定最优宽度序列的字符分割方法。该方法从根本上克服了已有算法需要细化、路径搜索等复杂处理的弊端,从而大大提高分割率,缩短分割时间。最重要的是极大提升了大写金额字符的分割正确率,为进一步提高字符识别准确率打好基础。附图说明图1是某一种票据样例图片的部分截图。图2是票据中大写手写金额处的放大图。图3是分割成功的图像。具体实施方式以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。一种金融票据大写金额处手写汉字的分割方法,包括以下步骤:1.获取精确的大写金额处手写汉字区域;截取大写金额的roi图像,使用连通域分割方法,得到其最小外接矩形,用其截取原图像,即可获得精确的汉字区域图像。2.利用大律法计算图像最佳分割阈值:遍历图像灰度值并求和取平均值,得到初步分割的阈值,遍历阈值从0到255,每次遍历需计算前景和背景图象的方差值,当方差值取得最大时,判定前景和背景的差异最大,此时得到的阈值为最佳分割阈值。其中得到初步分割的阈值后,分别计算前景和背景的点数、质量矩、平均灰度,得到前景和背景图象的方差值。前景和背景图象的方差值计算公式如下:g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1)公式1其中:g是前景和背景的方差值;w0是前景像素点数占图像总像素数的比例值;u0是前景中的平均灰度;w1是背景像素点数占图像总像素数的比例值,u1是背景中的平均灰度;u是图像的总平均灰度。图像的总平均灰度的计算公式如下:u=w0*u0+w1*u1公式2。3.利用最佳分割阈值对图像进行二值化,得到手写体汉字的二值化图像。4.横向投影计算汉字平均高度;对二值化图像进行横向投影,计算每行汉字区所占像素点个数,以行像素点数作为限定条件,排除干扰点,得到有效连续的行数,即为汉字平均高度。5.纵向投影确定最优宽度序列;使用汉字平均高度值截取横向投影图像,再对其进行纵向投影,得到垂直方向上各列有效像素点个数,即初步的宽度序列。针对初步的宽度序列,采用近似间隔的方法来确定汉字的最优宽度序列,包括如下步骤:假设汉字边界处的最大像素点个数为s,小于s个像素点数即被认为是近似间隔b,每行手写体汉字可得到b1,b2,b3......bn约n个近似间隔;对n个近似间隔取平均值mn,mn=(b1+b2+b3+......+bn)/n;依据判定条件:mn-5<b且b<mn+5,得到有效的间隔:b1’,b2’,b3’......bm’;由有效间隔点对应的坐标位置计算得到最优宽度序列。6.利用平均高度及最优宽度序列分割大写金额处手写汉字。由最优宽度序列的坐标值,及对应的宽度和平均高度,计算得到一组分割矩形,再用其依次分割出单个字符图像。针对本发明的技术方案与现有技术中的连通域分割法和投影分割法,分别进行了分割统计,结果如下表,从表中可以看出,本发明的技术方案分割准确率高。分割算法样本总数分割成功数分割失败数分割准确率本发明分割算法10000945854294.58%连通域分割法100005547445355.47%投影分割法100007898210278.98%以上所述仅是本发明的优选实施方式,应当指出的是,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1