一种手写体笔划特征提取和识别方法及系统的制作方法

文档序号:6649167阅读:639来源:国知局
一种手写体笔划特征提取和识别方法及系统的制作方法
【专利摘要】本发明公开了一种手写体笔划特征提取和识别方法,通过引入低秩矩阵恢复和稀疏投影,将手写体图像分解为低秩主成分笔划特征、显著笔划特征和笔划错误。通过凸优化技术,实现主成分特征编码、显著笔划特征提取和笔划自动纠错,并保持显著笔划特征的相似性。得到的稀疏投影不仅可以提取手写体训练样本的显著笔划特征,且可用于测试样本的嵌入和鉴别性特征提取,生成训练集和测试集,再输入最近邻分类器,根据测试样本与训练样本间的相似性和训练样本的类别,得到测试样本的类别信息,得到最准确的手写体识别结果。通过引入低秩和稀疏编码,在得到主成分笔划特征和具鉴别性的显著笔划特征的同时可检测错误的笔划,有效提高了手写体描述和识别能力。
【专利说明】-种手写体笔划特征提取和识别方法及系统
[0001] 本申请要求申请日为2014年11月28日、申请号为201410709992. 5、发明名称为 "一种手写体笔划特征提取和识别方法及系统"的中国专利申请的优先权,其全部内容通过 引用结合在本申请中。

【技术领域】
[0002] 本发明设及计算机视觉和图像识别【技术领域】,更具体的说,是设及一种手写体笔 划特征提取和识别方法及系统。

【背景技术】
[0003] 随着计算机技术和智能化的不断发展,离线手写字符识别已经发展成为计算机视 觉与模式识别中非常重要的一个研究课题。离线手写体识别通过计算机将纸质图像电子 化,然后分析字符图像,获取字符的笔划属性,在办公自动化、机器翻译和笔迹鉴定等领域 有着重大的意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。但是抽取笔划 特征的过程具有一定难度,到目前为止,离线手写体(本发明中简称手写体)字符识别距实 用要求还有一定距离。目前的大部分研究工作都集中在处理笔划特征提取问题,且也已取 得一定的成果。但是真实世界中的图像(包括手写体图像)通常可用一个低秩子空间集合 进行表征,且手写体图像通常包含破坏、丢失数据,或因书写习惯等原因造成的不规范笔划 等问题,因此在考虑笔划特征提取的同时,如何有效修复笔划缺失或不规范的笔划,同时自 动定位出错误的笔划也是需要深入探讨的问题。
[0004] 近年来,一个最具代表性的低秩恢复方法RPCA(Robust Principal Component Analysis)可对原始数据进行精确恢复。当数据缺陷很小时,RPCA可W很大程度地 恢复数据,但它本质上是一种直推式(trans化ctive)的方法,只能提取低秩主成分特 征,但不能处理样本外数据,且无法解决在线计算问题。为了克服此缺点,RPCA的推广 IRPCA(Inductive Robust Principal Component Analysis)被提出。IRPCA 目标是通过一 个低秩的投影来去除或纠正样本数据中可能含有的错误,但计算低秩投影的过程并未考虑 特征间的相似性保持问题。
[0005] 因此,提供一种集成的手写体字符修复、显著笔划特征提取和识别方法及系统,实 现自动定位与检测错误的或不规则的手写体笔划,同时提高手写体字符表征能力与识别的 准确度,是本领域技术人员亟待解决的问题。


【发明内容】

[0006] 有鉴于此,本发明提供了一种手写体笔划特征提取和识别方法及系统,W克服现 有技术中新数据输入时计算的复杂性及未考虑特征相似性保持的问题。
[0007] 为实现上述目的,本发明提供如下技术方案:
[000引一种手写体笔划特征提取和识别方法,包括:
[0009] 对原始训练集中的手写体字符图像数据进行凸优化和特征学习,计算得到可保持 相似性的稀疏投影矩阵,提取出训练样本集合的显著笔划特征,对所述低秩主成分特征进 行编码,得到低秩主成分特征,同时利用所述笔划错误特征对数据中的笔划进行纠错;
[0010] 利用所述稀疏投影矩阵,对原始的待识别测试样本集合的具鉴别性的显著性特征 进行提取;
[0011] 将提取出的所述训练样本与测试样本的显著笔划特征输入最近邻分类器模型进 行分类,通过相似性比化得到与测试样本最接近的训练样本,确定待识别的手写体测试样 本的识别结果。
[0012] 优选的,所述原始训练集为可能含有错误笔划的或不规范笔划的手写体向量集 合义 = [Xl,x,,...,Xw]G股"xw,其中,n是手写体样本的维度,N是样本的数量,其中包含 有C个类别标签c〉2的训练样本集屯=G吸和无任何标签的测试样本集 而=IX,X2,...,xJ e吸"X",且满足样本数量1+U = N。
[0013] 优选的,所述凸优化问题为:
[0014]

【权利要求】
1. 一种手写体笔划特征提取和识别方法,其特征在于,包括: 对原始训练集中的手写体字符图像数据进行凸优化和特征学习,计算得到可保持相似 性的稀疏投影矩阵,提取出训练样本集合的显著笔划特征,对所述低秩主成分特征进行编 码,得到低秩主成分特征,同时利用所述笔划错误特征对数据中的笔划进行纠错; 利用所述稀疏投影矩阵,对原始的待识别测试样本集合的具鉴别性的显著性特征进行 提取; 将提取出的所述训练样本与测试样本的显著笔划特征输入最近邻分类器模型进行分 类,通过相似性比对,得到与测试样本最接近的训练样本,确定待识别的手写体测试样本的 识别结果。
2. 根据权利要求1所述的方法,其特征在于, 所述原始训练集为可能含有错误笔划的或不规范笔划的手写体向量集合 1 = [11,;...,1#]£股^,其中,11是手写体样本的维度^是样本的数量,其中包含有 c个类别标签c>2的训练样本集;^ x2,...,XjeRnw和无任何标签的测试样本集 Zc7 = [x"a-2"."xJg]Txm ,且满足样本数量l+u =n〇
3. 根据权利要求2所述的方法,其特征在于,所述凸优化问题为:
s.t.X = L+SX+E,其中,0 G [〇,1]为低秩和稀疏编码的权衡参数,A>〇为依赖于错 误或噪音级别的参数;又(义)及非负参数I表示每一步迭代中显著笔划特征相似性保持的 正规化项;N?IL为核范数,I卜11为11范数,I卜I|^为12,1范数,分别定义如下:
其中,Tr(A)为矩阵A的迹,,(.1$)表示表示显著笔划特征SxJPSxj间的欧式距离 平方,即IlSxi-SxjIl2;G(t)=X(Qw-Ww)Xt=XFwXt 是一个对称矩阵;Il?Il表示I2 范数
,其中采用余弦相似性表征手写体显著笔划特征之间的相似 性,即C) =exp(cos(0)),其中,cos(0) =xfX, / (||X,.Il_IlX, ||)。
4. 根据权利要求1所述的方法,其特征在于,利用所述稀疏投影矩阵,对原始的待识别 测试样本集合的具鉴别性的显著性特征进行提取的过程具体为: 首先将原始的样本数据集合划分为训练集和测试集,所述训练集中包含原始的训练样 本,所述测试集中包含测试样本; 根据所述训练集的手写体训练样本进行优化,计算得到可保持特征数据相似性的稀疏 投影矩 将所述训练样本和测试样本嵌入得到的稀疏投影空间,分别得到所述训练集和所述测 试集的显著笔划特征。
5. 根据权利要求4所述的方法,其特征在于,所述将提取出的所述训练样本和测试样 本的显著笔划特征使用最近邻法分类器进行分类的过程具体为: 将所述提取出的所述手写体训练样本和测试样本的显著笔划特征输入最近邻分类器 丰旲型; 根据经过投影嵌入后的训练样本与测试样本之间的内在关联进行相似性比对和分析, 得到与测试样本最接近的训练样本; 结合所述训练样本的类别标签,获得与其最接近的测试样本的类别信息,得到待识别 的手写体测试样本集合的识别结果。
6. 根据权利要求1-5中任意一项所述的方法,其特征在于,所述最近邻分类算法为 K-最近邻分类器,K= 1。
7. -种手写体笔划特征提取和识别的系统,其特征在于,包括: 训练模块,用于对原始训练集中的手写体字符图像数据进行凸优化和特征学习,计算 得到可保持相似性的稀疏投影矩阵,提取出训练样本集合的显著笔划特征;对所述低秩主 成分特征进行编码,得到低秩主成分特征,同时利用所述笔划错误特征对数据中的笔划进 行纠错; 测试预处理模块,用于利用所述稀疏投影矩阵,对原始的待识别测试样本集合的具鉴 别性的显著性特征进行提取; 测试模块,用于将提取出的所述训练样本与测试样本的显著笔划特征输入最近邻分类 器模型进行分类,通过相似性比对,得到与测试样本最接近的训练样本,确定待识别的手写 体测试样本的识别结果。
【文档编号】G06K9/68GK104504412SQ201510027888
【公开日】2015年4月8日 申请日期:2015年1月20日 优先权日:2014年11月28日
【发明者】张召, 汪笑宇, 李凡长, 张莉 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1