专利名称:一种基于笔矢量特征的联机手写中文词组切分方法
技术领域:
手写汉字是人们进行交流及记录信息的重要方式,研究如何让机器识别手 写体汉字,具有重大的实用价值。在各国科研人员的不懈努力下,至今,手写
字符识别已经开始逐渐成熟,并已开始慢慢应用到我们生活的各个领域;从手 写纸稿、手写表格的文档分析与敎字化,到支票、信封上的手写文字的自动识 别与分析,从计算机的手写文字输入到现在各种电子手持设备的手写输入法, 手写文字识别技术已经越来越多地出现在我们的身边,被我们所利用。如近年 来市场上出现的汉王手写、天行者手写、蒙恬手写,^VACOM等产品。
经过科研人员儿十年的辛苦努力,印刷体汉字识别和手写体汉字识别都取 得了极大的进步,并且日渐成熟。然而,至今仍存在很多难点课题有待我们研 究,联机无约束手写汉字词组的识别问题就是其中之一,近几年来,国1;.外众 多学者逐渐将研究的重点和注意力转到联机无约束手写体汉字词组识别上来。 联机无约束手写词组识别是指在一个没有方框规定的区域内无约束地随意书写 词组。这和以往的联机手写体汉字识别有着两点不同, 一是书写区域是没有方 框限定的,这无疑更适合人们书写时的习惯,但也增加了字符切分和识别的难 度。目前市场上流行的联机手写输入法,大部分都要求在一个方框内进行书写, 这就避开了字符切分这个难题,也使书写者在书写时存在不适。第二点是这时 书写者每次输入的是一个词组,而不是单个字符,这使书写者书写地更流畅更 快捷,也更符合书写者的自然习惯。
正是有着这些优势,使得无约束手写词组识别尤其是中文手写词组识别在手写字符识别已经较为成熟之后,成为急待我们去研究解决的热点问题。在字 符识别的研究开始以来,字符的切分和识别总是紧密相连的,字符切分的好坏, 将直接影响到最终的识别结果。对联机手写体汉字词组识别来说,除非用整体 识别法,否则切分都是一个不可避免的预处理步骤。
目前,专门针对联机手写汉字词组切分方面的研究并不多,以往的字符切 分方法都侧重于对脱机字符的切分就目前已发表的关于联机字符识别的论文来 说,里面所用到的字符切分方法基本上都是脱机的字符切分方法,没有能利用 上字符的联机信息帮助切分。如何结合联机信息设计出适合联机字符输入的切 分方法,正是我们亟待研究的课题之一。
本发明的目的在于提供一种基于笔矢量特征的联机手写中文词组切分方 法,使得联机手写中文词组的识别更进一层。
为了实现上述发明目的,采用的技术方案如下
一种基于笔矢量特征的联机手写中文词组切分方法,采用N个笔段构成词 组,将词组记为 =^,^.^,5^},每一个笔段由多个点A构成,记为 5; = {/V/W../^,而第k个点/^(x, y),其中x、 y分别为横、纵坐标大小, 第i个笔段的起点和终点分别为和《,定义第i个笔段S,.和第i+l个笔段5,.+1 之间的笔矢量特征如下
取其中最大的数值所对应的笔段最右点作切分线,将手写词组进行切分。
发明内容
,Dis表示计算两个点之间的距离,则词上述技术方案中,所述切分线根据词组的屮文字数确定,包含M个字数的 词组采用M-1条切分线,比如两个字的词组采用一条切分线,三个字的词组采
用两条切分线,四个字的词组采用三条切分线等等,切分线根据词组 - ^,2.53,..^}的笔矢量特征序列组的取值大小依次确定。
进一步的,本发明所述切分线还包括两条或两条以上候选线,将笔矢量特 征序列组的最大值所对应作为首选,第二大值作为第二候选,依次类推。
本发明在计算第i个笔段《和第i+l个笔段^+1之间的笔矢量特征时,所采 用的Dis为欧氏距离或城市街区距离。
本发明不仅运算复杂度低,而且切分效果较好,提切分候选线的效率高, 可以运用于词组切分的粗切分阶段。
本发明切分效果要比传统的直方图投影法好,并且对于切分中的字符粘连、 交叠或重叠等难点问题,利用前向恢复技术,笔矢量特征能有效的切分开字符。
本发明运用到了联机笔段时序信息来辅助切分,这和以往的切分方法有很 :人.不同。在以往的联机字符切分方法中,大部分部缺少对联机信息的变用。本 发明为联机字符的切分提供了 一种可选择的途径。
图1为应用本发明进行切分的手写中文词组"傲气"的示意图2为对"傲气"进行笔矢量特征计算示意图3为本发明的切分线结构示意图4为"傲气"的切分示意图5为"傲气"的笔矢暈特征值示意图6为"毅力"的切分示意图7为"毅力"笔矢量特征值图;图8为利用前向恢复技术所获得的词组"毅力"的4个切分结果示意图; 图9为"板上钉钉"词组切分示意图; 图10为"板上钉钉"笔矢量特征值图; 图11为本发明的实施过程采用的例子。
具体实施方式
下面结合附图对本发明做进一步的说明。
用户联机输入的手写词组,对于机器而言,这些词组表现为一系列按时间 排序的采样点,并且由多个有先后次序的笔段(stroke)所构成。假设一个无
约束手写体词组由N个笔段构成,记为w^ = ^,;2;3,…Sw;[,每一个笔段
(笔画)由多个点&构成,记为^ = "[Pi,P2,^3,…Al (假设第i个笔段中
含有t个点),而第k个点^二(x,y),其中x,y分别为横、纵坐标大小。若记第 i个笔段的起点和终点分别为《和《,定义第i个笔段(S,.)和第i+l个笔段(、,) 之间的笔矢暈特征为
如附图1所示,图中为无约束手写词组"傲气",该词组由4个笔段构成。 记这四个笔段分别为A、 &、 &、 &,则该词组可以表不为h.wsj,
记53和54的起点和终点分别为(《,尸/)和(",P/),那么在笔段53和笔段54之 间的笔矢量特征(Stroke Vector Feature)计算式为
<formula>formula see original document page 6</formula>
其中,Dis表示计算两个点之间的距离,在这里取欧氏距离(Euclidean distance)或城市種f区5巨离(city-block distance)。
特征计算如附图2所示
对于一个由N个笔段构成的词组样本V^ = ^;2,53,^},将存在一组笔矢量特征序列V = {「" 1,2 , 23 , 3 4 ,…
l,W J
依次取其中最大的数值所对应的笔段最右点作切分候选线,为了更好的分 析切分效果,本发明取多条候选线(最大值作为首选,第二大值作为第二候选, 其他依次类推), 一般的,取四条候选线,切分词组时的图例如附图3所示。
对上面的手写词组"傲气",采用笔矢量特征切分示意图如附图4所示,相 应的笔矢量特征数值大小如附图5所示,其中横轴为笔段序号,纵轴表示对应 笔矢量值大小。
另一个切分实例如附图6、 7所示,手写中文词组为"毅力",由于是联机 手写输入,笔段是按次序输入的,因此假如此时按计算特征值所获得的候选值 对应的笔段序号前向恢复的话,将能够获得对词组的切分结果,在这里只显示 左边图像部分,最左边的是首选候选线的切分结果,往右依次是第二候选,第 三候选和第四候选的切分结果,如附图8所示,从附图8可以看出,首候选基 本己经反映了正确的切分位置。
对于四字组成的词组,由于至少需要三条候选线才能将每个字符1刁分开, 因此首选切分线的条数为3,如附图9所示的"板上钉钉"四字手'与中文词组, 该词组总共由11个笔段构成,首选切割线条数为3,从图9可见在首选时就 已经准确的找到切分点位置了。图IO为各笔段对应的笔矢量值图。从实验数据 可知,图10中前3个最大峰值的笔段序号3, 5, 8正是对应着图9中首选的 三条切割线。
实施本发明的过程中采取随机抽样的办法,从每套二字、三字和四字词中 选取500个样本,采用笔矢量特征进行切分实验。因此,二字词的总共测试样 本数为15X500=7500个,三字词、四字词同样。
为了较好的评估这两种新型联机特征的切分效果,分别定义了首选,力n 1候选,加2候选,加3候选如下
首选根据特征选取恰好能将词中各字符分开的切线条数,二字词是1条,
三字词是2条,四字词是3条。
加l候选在首选的基础上增加一条候选线。 加2候选在首选的基础上增加两条候选线。 加3候选在首选的基础上增加三条候选线。
在实验中候选线条数是基于首选条数的,最多只提到了加3候选,当然,
也可以尝试加4候选,加5候选等。然而,利用少的切线条数能更好的观测特
征提出正确切线的效率。实验中对于二字、三字和四字词的切分线条数归纳如
下表所示
切线条数
首选 加1候选 加2候选 加3候选
二字词
1
2
3
4
三字词
2
3
4
四字词
3
4
6
实验的过程中,将不同的候选线用不同的线型来表示,这无疑更直观的显 示了切分的效果,如附图3所示,第一候选线采用直线线型来表示,而第二候 选线采用点线型来表示,第三候选线采用一点加直线的线型来表示,第四候选 线则是两点加直线的线型来表示。
实验时,三字词首选切分需要两条切分线,如果这两条切分线中有一条切 分线没有将字符切分正确,那么就认为没有正确切分,该切分特征的错误切分 样本数加l,四字同情况依此类推。
根据本发明提供的笔矢量特征(Stroke Vector Feature)计算方法,选取实验室所采集的样本数据进行切分实验, 一些用笔矢量特征(Stroke Vector Feature)切分的例子如附图11所示。可以看出,大部分词组已经被正确切分。
权利要求
1、一种基于笔矢量特征的联机手写中文词组切分方法,其特征在于采用N个笔段构成词组,词组记为WN={S1,S2,S3,...SN},每一个笔段由多个点Pk构成,记为Si={P1,P2,P3,...Pt},而第k个点Pk=(x,y),其中x、y分别为横、纵坐标大小,第i个笔段的起点和终点分别为Pib和Pie,定义第i个笔段Si和第i+1个笔段Si+1之间的笔矢量特征如下<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><msub> <mi>Vec</mi> <mrow><mi>i</mi><mo>,</mo><mi>i</mi><mo>+</mo><mn>1</mn> </mrow></msub><mo>=</mo><mi>Dis</mi><mrow> <mo>(</mo> <msup><msub> <mi>P</mi> <mi>i</mi></msub><mi>b</mi> </msup> <mo>,</mo> <msup><msub> <mi>P</mi> <mrow><mi>i</mi><mo>+</mo><mn>1</mn> </mrow></msub><mi>b</mi> </msup> <mo>)</mo></mrow><mo>,</mo> </mrow>]]></math> id="icf0001" file="A2008100294210002C1.tif" wi="72" he="8" top= "84" left = "31" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>Dis表示计算两个点之间的距离,则词组WN={S1,S2,S3,...SN}存在一组笔矢量特征序列如下V={Vec1,2,Vec2,3,Vec3,4,...VecN-1,N}取其中最大的数值所对应的笔段最右点作切分线,将手写词组进行切分。
2、 根据权利要求1所述的基于笔矢量特征的联机手写中文词组切分方法, 其特征在于所述切分线根据词组的中文字数确定,包含M个字数的词组采用 M. 1条切分线,切分线根据词组K^ .. {S,S2 S3,..&}的笔矢量特征序列组的玲v值大小依次确定。
3、 根据权利要求1或2所述的基于笔矢量特征的联机手写中文词组切分方 法,其特征在于所述切分线还包括两条或两条以上候选线,将笔矢量特征序列 组的最大值所对应作为首选,第二大值作为第二候选,依次类推。
4、 根据权利要求1所述的基于笔矢量特征的联机手写中文词组切分方法, 其特征在于所述Dis函数采用欧氏距离或城市街区距离。
全文摘要
本发明提供一种基于笔矢量特征的联机手写中文词组切分方法,采用N个笔段构成词组,词组记为W<sub>N</sub>={S<sub>1,</sub>S<sub>2,</sub>S<sub>3,</sub>…S<sub>N</sub>},每一个笔段由多个点P<sub>k</sub>构成,记为S<sub>i</sub>={P<sub>1,</sub>P<sub>2,</sub>P<sub>3,</sub>…P<sub>t</sub>},而第k个点P<sub>k</sub>=(x,y),其中x、y分别为横、纵坐标大小,第i个笔段的起点和终点分别为P<sub>i</sub><sup>b</sup>和P<sub>i</sub><sup>e</sup>,定义第i个笔段S<sub>i</sub>和第i+1个笔段S<sub>i+1</sub>之间的笔矢量特征如下Vec<sub>i,i+1</sub>=Dis(P<sub>i</sub><sup>b</sup>,P<sub>i+1</sub><sup>b</sup>),Dis表示计算两个点之间的距离,则词组W<sub>N</sub>={S<sub>1,</sub>S<sub>2,</sub>S<sub>3,</sub>…S<sub>N</sub>}存在一组笔矢量特征序列如下V={Vec<sub>1,2</sub>,Vec<sub>2,3</sub>,Vec<sub>3,4</sub>,…Vec<sub>N-1,N</sub>},取其中最大的数值所对应的笔段最右点作切分线,将手写词组进行切分。本发明不仅运算复杂度低,而且切分效果较好,提切分候选线的效率高,为联机手写中文词组的切分提供了一种有效的解决方法。
文档编号G06K9/46GK101320428SQ20081002942
公开日2008年12月10日 申请日期2008年7月11日 优先权日2008年7月11日
发明者锐 郭, 金连文 申请人:华南理工大学