手写字符识别方法和装置制造方法
【专利摘要】本发明涉及手写字符识别方法和装置。根据本公开一个实施例,提供了一种手写字符识别方法,所述手写字符具有手写轨迹,所述方法包括以下步骤:利用离线识别对所述手写字符进行识别,以获得若干离线候选字符;对于每一离线候选字符,对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式,以及基于所述规范化后的手写轨迹获得该离线候选字符的在线识别置信度;以及至少基于所述离线候选字符的在线识别置信度确定最终候选字符。
【专利说明】手写字符识别方法和装置
【技术领域】
[0001]本公开涉及手写字符识别方法和装置。
【背景技术】
[0002]以中文以及日文汉字(kanji)为代表的字符系统(其也被称为方块字或象形文字(ideographic character))通常包含多个笔画(stroke),其中的某些笔画或笔画组合常常被作为字根(radical)(例如但不限于,中文中的偏旁部首)。另外,某些字根可以与例如相邻的笔画组成更高级别的字根。
[0003]象形文字之类的字符的书写通常要比以英文为代表的表音字符系统要复杂得多。例如,中文(汉字)对于每一个字都具有标准的书写方式(writing style),包括:笔画的数目、笔画的书写顺序(笔顺)和方向,等等。
[0004]对于以中文(汉字)为代表的字符系统,键盘式的输入(到终端设备,例如计算机、移动终端等)常常是麻烦和低效的。随着手写板以及手机等便携式设备的普及,手写字符输入成为一种趋势。
[0005]然而,中文(汉字)字符众多,书写方式多样。并且,在书写时,为了简化和快捷,很多人并不是严格遵循标准的书写方式,并且笔画形状(stroke shape)和/或字根形状也可能发生变形,例如行书和草书等。并且,对于一些字根,特别是由较少笔画构成的字根,为了书写的便利,很多人会倾向于简化其书写,从而使得所写就的字根不符合标准的书写方式。通常,可以将这样的不符合标准的书写方式的字根称为异常字根(abnormal radical)。图14A示出了异常字根的一个示例。因此,这对高准确率地识别手写字符提出了挑战。
[0006]典型地,字符识别包括基于在线信息的在线识别和基于离线信息的离线识别。字符识别通常使用字典,字典可以包括用于字符的标准模板和/或基准模型。标准模板可以包括例如下列中的一项或多项:笔画构成,笔画数量,笔画的位置(起止点坐标),其它参考点坐标,等等。基准模型可以包括例如字符笔画的概率分布,笔画的起止点统计信息等等。本领域中已知用于字符识别的多种字典以及多种标准模板和/或基准模型。
[0007]在线识别将每一字符看作是笔移动(书写)的时间上的序列。也就是说,将手写轨迹看作具有分离笔画指示的坐标点的序列。因此,对于每一字符(文字),存在标准的序列,据此可以构造用于该字符(文字)的基准模型(reference model)以用于在线识别。从而,可以评估手写轨迹与用于在线识别的基准模型的匹配度,由此得到候选字符。例如但不限于,该匹配度可以作为识别置信度。
[0008]由于在线识别是基于轨迹序列的匹配,而一些常用的弹性的序列匹配方法(譬如隐马尔科夫模型(Hidden Markov Model, HMM)算法、动态时间归整(Dynamic TimeWarping, DTff)算法等)对变形的字符具有较为鲁棒的匹配结果,因此即使对于形状变形了的字符,也能够实现相对精确的输入的序列和基准序列(reference sequence)之间的匹配。然而,在线识别对书写的顺序敏感,而书写顺序与笔画的数目、笔画的书写顺序和方向(也即,书写方式)高度相关,其中的变化很可能导致不准确的识别。[0009]另一方面,离线识别从手写轨迹的图像提取笔画或笔画段的空间分布信息作为离线特征进行匹配。其通常是在书写完成之后进行识别的,一般其不利用动态书写信息(诸如,前述的笔画的数目、笔画的书写顺序(笔顺)和方向等)。与在线识别类似的,可以构造用于该字符(文字)的基准模型以用于离线识别,并评估手写轨迹与用于离线识别的基准模型的匹配度,由此得到候选字符。例如但不限于,该匹配度可以作为识别置信度。
[0010]离线识别依赖于手写轨迹图像的空间特征,从而对于书写方式的变化鲁棒。但是由于笔画形状的变形,离线识别的最佳候选(例如,第一最佳候选)的识别准确率通常没有在线识别的高。并且为了对笔画形状的变形鲁棒,离线识别需要高得多的处理能力和存储器成本,否则难以实现与在线识别相当的准确率。
[0011]另一方面,对于离线识别,高的识别准确率通常需要复杂的计算和大得多的字典(其包括用于该字符的基准模型),这也意味着需要高的硬件成本和/或较长的识别速度(识别响应时间)。因此,对于离线识别,常常需要在识别准确率与硬件成本和/或识别速度(识另Ij相应时间)之间进行折衷。
[0012]专利文献I (日本专利公开JP H09-179938)公开了一种串行使用离线识别和在线识别的方法,其中利用离线识别作为“粗筛分类器(coarse classifier)”来得到M个候选,之后利用在线识别作为“细筛分类器(fine classifier)”来从该M个候选中选择N个最佳候选。然而,在专利文献I中,为了识别出离线候选,需要高成本的在线识别模块。例如,在线识别模块可能需要相当大的字典(基准模型)以覆盖各种不同的书写方式。从而专利文献I的架构不适于与低成本的在线识别模块组合。
[0013]专利文献2(日本专利公开JP H09-288717)和专利文献3(日本专利N0.JP3595900)每一都公开了一种并行使用离线识别和在线识别的方法。其中,在线识别和离线识别彼此独立工作,输出各自的N个候选和相应的识别置信度;将在线候选和离线候选合并为一候选列表;对于该新的候选列表中的每一候选,融合其在线识别置信度和离线识别置信度,例如二者相加或者加权相加;根据融合的识别置信度确定候选。
[0014]根据专利文献2和3的方案,在两种识别方式(在线和离线)都输出了正确的候选的情况下,有利于实现比单独一种识别方式(在线或离线)高的第一候选的准确率。然而,由于书写方式的变化,某些手写轨迹可能难以通过在线识别被正确识别。在这种情况下,最终的识别结果将完全依赖于离线识别,并且识别的准确率甚至可能比离线识别本身的还差。如前面所述的,由于离线识别对笔画形状的变形敏感,一般的离线识别的第一候选的准确率并不太高,除非采用复杂的(高成本的)离线识别方法或者模块。另一方面,从多种分类器集成使用的角度而言,如果一个分类器不能给出其对于正确候选的置信度,那么所融合得到的置信度甚至会比单独的更差。因此,在这种情况下,专利文献2和3的方案不能得到比离线识别本身的准确率更高的识别准确率。
[0015]至少针对上述的部分或全部问题,提出了本发明。
【发明内容】
[0016]根据本公开一个方面,提供了一种手写字符识别方法,所述手写字符具有手写轨迹,所述方法包括以下步骤:利用离线识别对所述手写字符进行识别,以获得若干离线候选字符;对于每一离线候选字符,对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式,以及基于所述规范化后的手写轨迹获得该离线候选字符的在线识别置信度;以及至少基于所述离线候选字符的在线识别置信度确定最终候选字符。
[0017]在一些实施例中,所述方法进一步包括以下步骤:利用在线识别对所述手写字符进行识别,以获得若干在线候选字符,以及获得该在线候选字符的在线识别置信度和/或离线识别置信度;并且其中所述确定最终候选字符的步骤包括:至少基于所述离线候选字符的在线识别置信度以及所述在线候选字符的在线识别置信度和/或离线识别置信度确定最终候选字符。
[0018]根据本公开一个方面,提供了一种手写字符识别装置,所述装置包括:手写输入单元,适于接收用户输入的手写字符,所述手写字符具有手写轨迹;离线识别单元,适于对所述手写字符进行识别,以获得若干离线候选字符;处理单元,适于对于每一离线候选字符,对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式,基于所述规范化后的手写轨迹,通过在线识别获得该离线候选字符的在线识别置信度;以及至少基于所述离线候选字符的在线识别置信度确定最终候选字符。
[0019]在一些实施例中,所述手写字符识别装置还包括:在线识别单元,适于对所述手写字符进行识别,以获得若干在线候选字符并且其中所述处理单元还适于:对于每一在线候选字符,通过所述离线识别单元获得该在线候选字符的离线识别置信度和/或通过所述在线识别单元获得该在线候选字符的在线识别置信度,以及至少基于所述离线候选字符的在线识别置信度以及所述在线候选字符的在线识别置信度和/或离线识别置信度确定最终候选字符。
[0020]根据本公开的实施例,可以基于低成本的在线和离线识别的组合来实现紧凑的高准确率的手写识别引擎。根据本公开的实施例的识别方法或模块,对于书写方式的变化相比于现有技术更加鲁棒。另外,与现有技术相比,本发明可以实现对手写轨迹的更高准确率的识别,特别是,可以显著改善对于第一(最佳)候选的识别准确率。
[0021]从下面参考附图的说明中,本发明的另外的特性、特征、和优点将更加清楚。
【专利附图】
【附图说明】
[0022]本申请包括附图,并且附图构成本申请的一部分,附图示出了本公开的实施例并且与说明书一起用于解释本发明的原理。
[0023]图1是示出可以实现本公开的某些实施例的一种机器系统的硬件配置的框图。
[0024]图2示意性地示出了根据本公开一个实施例的手写字符识别装置的示意框图。
[0025]图3示意性地示出了根据本公开一个实施例的手写字符识别方法的框图。
[0026]图4示意性地示出了根据本公开另一实施例的手写字符识别方法的框图。
[0027]图5示出了根据本公开又一实施例的手写字符识别方法的框图。
[0028]图6示意性地示出了作为一个示例的手写字符的视图。
[0029]图7示出了根据本公开一个实施例的获得离线候选字符以及离线识别置信度的示例处理过程。
[0030]图8示出了根据本公开一个实施例的对手写轨迹进行规范化的处理过程。
[0031]图9A和9B示出了根据本公开一个实施例的检测手写轨迹中的异常字根的处理过程。[0032]图1OA和IOB示出了根据本公开的一个示例的原始手写轨迹和修正后的手写轨迹。
[0033]图11示出了在撤销对未被正确检测的异常字根的修正后得到的规范化的手写轨迹。
[0034]图12示出了根据本公开一个实施例的检测手写轨迹中的异常字根的处理过程。
[0035]图13示出了示出了根据本公开一个实例的判断是否笔画或笔画与相邻笔画的组合是异常字根的处理过程。
[0036]图14A-14D示出了根据本公开的一个实例的异常字根,其角点、其笔画连接点、和根据笔画连接点划分的笔画的例子。
[0037]图15示出了根据本公开一个实施例的对异常字根进行修正的处理过程。
[0038]图16示出了根据本公开一个实施例的验证所检测到的异常字根是否被正确检测的处理过程。
[0039]图17示出了根据本公开另一实施例的对手写轨迹进行规范化的处理过程。【具体实施方式】
[0040]下面将参考附图详细描述本公开的实施例。
[0041]注意,在附图中类似的附图标记和字母表示类似的项,并且因此一旦在一个附图中定义了一个项,则对于以后的附图无需再就该项进行讨论。
[0042]图1是示出可以实现本发明实施例的机器(例如,计算机)系统1000的硬件配置的框图。
[0043]如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口1195。
[0044]系统存储器1130包括ROM (只读存储器)1131和RAM (随机存取存储器)1132。BIOS (基本输入输出系统)1133驻留在R0M1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAMl 132中。
[0045]诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
[0046]诸如软盘驱动器1151和⑶-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口 1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及⑶(光盘)1156可以被插入到⑶-ROM驱动器1155中。
[0047]诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口 1160。计算机1110还可以包括手写输入单元(诸如,手写板)1163,以用于接收用户输入的手写字符,所述手写字符可以具有手写轨迹。
[0048]计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制解调器(调制器一解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
[0049]远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
[0050]视频接口 1190连接到监视器1191。
[0051]输出外围接口 1195连接到打印机1196和扬声器1197。
[0052]图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
[0053]图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
[0054]图 2示意性地示出了根据本公开一个实施例的手写字符识别装置200的示意框图。
[0055]如图所示,手写字符识别装置200包括手写输入单元201,用于接收用户输入的手写字符,所述手写字符具有手写轨迹。
[0056]手写字符识别装置200还包括离线识别单元203,用于对所述手写字符进行识别,以获得若干(一个或多个)离线候选字符。在某些实例中,离线识别单元203还可以适于提供离线识别的置信度(离线识别置信度),例如,提供离线候选字符的离线识别置信度。
[0057]手写字符识别装置200还包括处理单元207,用于针对每一离线候选字符,对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式(standard writing style),并基于所述规范化后的手写轨迹,通过在线识别(例如,通过如下文将说明的在线识别单元205,但不限于此)获得该离线候选字符的在线识别置信度;以及至少基于所述离线候选字符的在线识别置信度确定最终候选字符。
[0058]另外,在某些其它实施例中,手写字符识别装置200还可以另外包括在线识别单元205。在某些实例中,在线识别单元205可以用来对所述手写字符进行识别,以提供在线候选字符和/或在线识别的置信度(在线识别置信度)。在这些实施例中,处理单元207也可以基于所述规范化后的手写轨迹,通过在线识别单元205获得该离线候选字符的在线识
别置信度。
[0059]在某些另外的实施例中,所述处理单元207还适于:对于每一在线候选字符,通过所述离线识别单元203获得该在线候选字符的离线识别置信度和/或通过所述在线识别单元205获得该在线候选字符的在线识别置信度。另外,所述处理单元207还可以至少基于所述离线候选字符的在线识别置信度以及所述在线候选字符的在线识别置信度和/或离线识别置信度确定最终候选字符。
[0060]在进一步的实施例中,所述处理单元207还适于:对于每一在线候选字符,通过所述离线识别单元203获得该在线候选字符的离线识别置信度,并通过所述在线识别单元205获得该在线候选字符的在线识别置信度。并且,处理单元207还可以合并所获得的离线候选字符和在线候选字符以得到合并候选字符,并基于所述合并候选字符的相应的离线识别置信度和在线识别置信度的组合,确定最终候选字符。
[0061]根据本公开的不同实施例,可以通过如图1所示的计算机系统来实现图2所示的手写字符识别装置,也可以例如通过支持手写输入(例如,具有触摸屏)的移动终端(在图中未示出)等来实现该手写字符识别装置。
[0062]图3示意性地示出了根据本公开一个实施例的手写字符识别方法300的框图。本领域技术人员将理解,手写字符具有相应的手写轨迹。
[0063]在步骤S301,利用离线识别对所述手写字符进行识别,以获得若干(例如,最佳的M个)离线候选字符。已知多种离线识别方式/算法可用于对手写字符进行识别,以获得离线候选字符和相应的离线识别置信度。在本公开的一个具体实例中,采用本领域中已知的基于欧几里德距离(Euclidian Distance)的离线识别算法来进行识别,并将欧几里德距离作为离线识别置信度,后面将详细说明。
[0064]对于每一离线候选字符,在步骤S303,对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式。这里,针对每一离线候选字符,优选地,可以首先判断手写轨迹是否符合该离线候选字符的标准书写方式。在本公开的一些实施例中,通过检测手写轨迹中的异常字根来进行判断,如果检测到异常字根,则确定其不符合标准书写方式,反之,则确定其符合。如果符合,也即该手写轨迹是规范的,则无需进行额外处理。如果不符合,则对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式。
[0065]在步骤S305,对于步骤S303中的离线候选字符,基于所述规范化后的手写轨迹获得该离线候选字符的在线识别置信度。在此,对于所述每一候选字符,评估所述规范化后的手写轨迹与对于该离线候选字符的用于在线识别的基准模型的匹配度,作为该离线候选字符的在线识别置信度。在一些具体实现方式中,该处理过程可以通过将规范化后的手写轨迹提供给在线识别模块或单元,通过在线识别中的匹配来得到该匹配度。然而,本发明并不限于此,例如,也可以通过处理单元(处理器)直接取出适当的基准模型进行匹配。另外,在有些情况下,该匹配可能失败,在这种情况下,优选将该离线候选字符的在线识别置信度设置为一相对低的值(例如,50,相对于最高的100 )。
[0066]在步骤S307,至少基于所述离线候选字符的在线识别置信度确定最终候选字符。例如,可以基于所述离线候选字符的在线识别置信度对离线候选字符进行排序,从而得到最佳的N个候选字符。
[0067]另外,在某些实施例中,可以基于所述离线候选字符的在线识别置信度以及另外的参数确定最终候选字符。在这样的一个实例中,所述另外的参数可以是,例如但不限于,离线候选字符的离线识别置信度。例如但不限于,可以通过简单相加或者加权相加来组合离线候选字符的离线识别置信度和前述的在线识别置信度。所述另外的参数还可以是,例如,如下面的实施例中所示的在线候选字符的在线/离线识别置信度。
[0068]容易理解,方法300可以由(但不限于)图2所示的手写字符识别装置来实现。
[0069]图6示意性地示出了作为一个示例的手写字符《4艾《的视图。显然,对其正确的
识别将得到字符“位”。下表I示意性地示出了根据本公开一个具体实例针对图6所示的手写字符根据基于欧几里德距离的离线识别方法得到的离线候选字符的示例。
【权利要求】
1.一种手写字符识别方法,所述手写字符具有手写轨迹,所述方法包括以下步骤: 利用离线识别对所述手写字符进行识别,以获得若干离线候选字符; 对于每一离线候选字符, 对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式,以及 基于所述规范化后的手写轨迹获得该离线候选字符的在线识别置信度;以及 至少基于所述离线候选字符的在线识别置信度确定最终候选字符。
2.根据权利要求1所述的手写字符识别方法,进一步包括以下步骤: 利用在线识别对所述手写字符进行识别,以获得若干在线候选字符,以及 获得该在线候选字符的在线识别置信度和/或离线识别置信度;并且其中 所述确定最终候选字符的步骤包括:至少基于所述离线候选字符的在线识别置信度以及所述在线候选字符的在线识别置信度和/或离线识别置信度确定最终候选字符。
3.根据权利要求1所述的手写字符识别方法,进一步包括以下步骤: 获得所述离线候选字符的离线识别置信度; 利用在线识别对所述手写字符进行识别,以获得若干在线候选字符; 获得该在线候选字符的在线识别置信度和离线识别置信度;以及合并所获得的离线候选字符和在线候选字符以得到合并候选字符;并且其中,所述确定最终候选字符的步骤包括:基于所述合并候选字符的相应的离线识别置信度和在线识别置信度的组合,确定最终候选字符。
4.根据权利要求1-3中任一项所述的手写字符识别方法,其中对手写轨迹进行规范化的步骤包括: 基于预先定义的异常字根,检测手写轨迹中的异常字根; 对检测到的异常字根进行修正,从而得到修正后的手写轨迹; 根据修正后的手写轨迹,验证所检测到的异常字根是否被正确检测;以及 如果所检测到的异常字根未被正确检测,则撤销对该未被正确检测的异常字根的修正。
5.根据权利要求4所述的手写字符识别方法,其中所述检测手写轨迹中的异常字根的步骤包括: 对于手写轨迹的每一笔画, 判断是否该笔画是异常字根; 如果不是,则判断是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根。
6.根据权利要求5所述的手写字符识别方法,其中所述判断是否该笔画或该笔画与相邻笔画的组合是异常字根的步骤包括: 检测该笔画或笔画的组合内的角点,并在所述角点处将该笔画或笔画的组合分成多个线段; 确定每一线段的几何特征; 根据所述几何特征确定所述多个线段是否与所述预先定义的异常字根的线段对应; 如果对应,则评估所述多个线段之间的相互关系以确定是否与对应的异常字根的线段的相互关系相符;如果相符,则确定该笔画或笔画的组合是异常字根。
7.根据权利要求4所述的手写字符识别方法,其中所述修正步骤包括,对于每一检测的异常字根: 检测该异常字根的角点; 根据该异常字根的相应的标准书写方式选择角点中的至少一个作为笔画连接点; 将该异常字根在所述笔画连接点处分离成笔画;以及 根据标准书写方式重新排序每一分离的笔画中的轨迹点。
8.根据权利要求7所述的手写字符识别方法,其中所述修正步骤还包括: 根据标准书写方式重新排序所分离的笔画。
9.根据权利要求4所述的手写字符识别方法,其中所述验证所检测到的异常字根是否被正确检测的步骤包括: 将修正后的手写轨迹标准化为预定大小;以及 从标准化后的手写轨迹获得所检测到的异常字根的每一笔画的位置信息; 评估所检测到的异常字根的每一笔画的位置信息与离线候选字符内的相应笔画的预先定义的位置信 息的匹配度,从而得到所检测到的异常字根的匹配度;以及 如果所述所检测到的异常字根的匹配度低于或等于预定的阈值,则确定所检测到的异常字根被正确检测, 其中所述位置信息包括笔画的起止点坐标。
10.根据权利要求9所述的手写字符识别方法,其中所述匹配度包括该笔画的起止点坐标与离线候选字符内的相应笔画的预先定义的起止点坐标之间的城市距离。
11.根据权利要求9所述的手写字符识别方法,其中所检测到的异常字根的每一笔画是在选定的笔画连接点处分离的笔画。
12.根据权利要求1-3中任一项所述的手写字符识别方法,其中对手写轨迹进行规范化的步骤包括: 通过手写轨迹与相应离线候选字符的标准模板的比较,检测手写轨迹内的非标准笔画; 根据所述相应离线候选字符的标准模板中的标准书写方式对所述非标准笔画进行修正,从而得到修正后的手写轨迹。
13.根据权利要求12所述的手写字符识别方法,其中所述检测非标准笔画的步骤包括,对于所述手写轨迹内的每一笔画: 生成该笔画的特征序列; 计算所述特征序列与所述相应离线候选字符的标准模板中的所有笔画的特征序列的匹配距离;以及 如果对于该笔画的最小匹配距离大于预定的阈值,则确定该笔画为非标准笔画。
14.根据权利要求12所述的手写字符识别方法,其中对所述非标准笔画进行修正包括: 计算以该非标准笔画中的各角点分隔的各线段的每一组合与所述相应离线候选字符的标准模板中的每一标准笔画的匹配距离;以及 选择匹配距离最小的线段组合作为修正后的手写轨迹。
15.根据权利要求13所述的手写字符识别方法,其中所述特征序列包括笔画的起点坐标、终点坐标、以及各角点坐标。
16.根据权利要求1-3中任一项所述的手写字符识别方法,其中所述获得该离线候选字符的在线识别置信度包括: 评估所述规范化后的手写轨迹与对于该离线候选字符的用于在线识别的基准模型的匹配度,作为该离线候选字符的在线识别置信度。
17.根据权利要求2或3所述的手写字符识别方法,其中所述获得该在线候选字符的离线识别置信度包括:评估所述手写轨迹与对于该在线候选字符的用于离线识别的基准模型的匹配度,作为该在线候选字符的离线识别置信度。
18.一种手写字符识别装置,所述装置包括: 手写输入单元,适于接收用户输入的手写字符,所述手写字符具有手写轨迹, 离线识别单元,适于对所述手写字符进行识别,以获得若干离线候选字符; 处理单元,适于对于每一离线候选字符, 对手写轨迹进行规范化以使其符合该离线候选字符的标准书写方式, 基于所述规范化后的手写轨迹,通过在线识别获得该离线候选字符的在线识别置信度;以及 至少基于所述离线候选字符的在线识别置信度确定最终候选字符。
19.如权利要求18所述手写字符识别装置,所述装置还包括: 在线识别单元,适于对所述手写字符进行识别,以获得若干在线候选字符,并且 其中所述处理单元还适于: 对于每一在线候选字符,通过所述离线识别单元获得该在线候选字符的离线识别置信度和/或通过所述在线识别单元获得该在线候选字符的在线识别置信度,以及 至少基于所述离线候选字符的在线识别置信度以及所述在线候选字符的在线识别置信度和/或离线识别置信度确定最终候选字符。
20.如权利要求18所述手写字符识别装置,所述装置还包括: 在线识别单元,适于对所述手写字符进行识别,以获得若干在线候选字符;并且, 其中所述离线识别单元还适于提供所述离线候选字符的离线识别置信度,并且 其中所述处理单元还适于: 对于每一在线候选字符,通过所述离线识别单元获得该在线候选字符的离线识别置信度,并通过所述在线识别单元获得该在线候选字符的在线识别置信度; 合并所获得的离线候选字符和在线候选字符以得到合并候选字符;以及基于所述合并候选字符的相应的离线识别置信度和在线识别置信度的组合,确定最终候选字符。
21.根据权利要求18-20中任一项所述的手写字符识别装置,其中对手写轨迹进行规范化包括: 基于预先定义的异常字根,检测手写轨迹中的异常字根; 对检测到的异常字根进行修正,从而得到修正后的手写轨迹; 根据修正后的手写轨迹,验证所检测到的异常字根是否被正确检测;以及 如果所检测到的异常字根未被正确检测,则撤销对该未被正确检测的异常字根的修正。
22.根据权利要求21所述的手写字符识别装置,其中所述检测手写轨迹中的异常字根包括: 对于手写轨迹的每一笔画, 判断是否该笔画是异常字根; 如果不是,则判断是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根。
23.根据权利要求22所述的手写字符识别装置,其中所述判断是否该笔画或该笔画与相邻笔画的组合是异常字根包括: 检测该笔画或笔画的组合内的角点,并在所述角点处将该笔画或笔画的组合分成多个线段; 确定每一线段的几何特征; 根据所述几何特征确定所述多个线段是否与所述预先定义的异常字根的线段对应; 如果对应,则评估所 述多个线段之间的相互关系以确定是否与对应的异常字根的线段的相互关系相符; 如果相符,则确定该笔画或笔画的组合是异常字根。
24.根据权利要求21所述的手写字符识别装置,其中所述修正包括,对于每一检测的异常字根: 检测该异常字根的角点; 根据该异常字根的相应的标准书写方式选择角点中的至少一个作为笔画连接点; 将该异常字根在所述笔画连接点处分离成笔画;以及 根据标准书写方式重新排序每一分离的笔画中的轨迹点。
25.根据权利要求24所述的手写字符识别装置,其中所述修正还包括: 根据标准书写方式重新排序所分离的笔画。
26.根据权利要求21所述的手写字符识别装置,其中所述验证所检测到的异常字根是否被正确检测包括: 将修正后的手写轨迹标准化为预定大小; 从标准化后的手写轨迹获得所检测到的异常字根的每一笔画的位置信息; 评估所检测到的异常字根的每一笔画的位置信息与离线候选字符内的相应笔画的预先定义的位置信息的匹配度,从而得到所检测到的异常字根的匹配度;以及 如果所述所检测到的异常字根的匹配度低于或等于预定的阈值,则确定所检测到的异常字根被正确检测, 其中所述位置信息是包括笔画的起止点坐标的特征向量。
27.根据权利要求26所述的手写字符识别装置,其中所述匹配度包括该笔画的起止点坐标与离线候选字符内的相应笔画的预先定义的起止点坐标之间的城市距离。
28.根据权利要求26所述的手写字符识别装置,其中所检测到的异常字根的每一笔画是在选定的笔画连接点处分离的笔画。
29.根据权利要求18-20中任一项所述的手写字符识别装置,其中对手写轨迹进行规范化包括:通过手写轨迹与相应离线候选字符的标准模板的比较,检测手写轨迹内的非标准笔画; 根据所述相应离线候选字符的标准模板中的标准书写方式对非标准笔画进行修正,从而得到修正后的手写轨迹。
30.根据权利要求29所述的手写字符识别装置,其中所述检测非标准笔画包括,对于所述手写轨迹内的每一笔画: 生成该笔画的特征序列; 计算所述特征序列与所述相应离线候选字符的标准模板中的所有笔画的特征序列的匹配距离;以及 如果对于该笔画的最小匹配距离大于预定的阈值,则确定该笔画为异常笔画。
31.根据权利要求29所述的手写字符识别装置,其中对非标准笔画进行修正包括: 计算以该非标准笔画中的各角点分隔的各线段的每一组合与所述相应离线候选字符的标准模板中的每一标准笔画的匹配距离;以及 选择匹配距离最小的线段组合作为得到修正后的手写轨迹。
32.根据权利要求30所述的手写字符识别装置,其中所述特征序列包括笔画的起点坐标、终点坐标、以及各角点坐标。
33.根据权利要求18-20中任一项所述的手写字符识别装置,其中所述获得该离线候选字符的在线识别置信度包括: 评估所述规范化后的手写轨迹与对于该离线候选字符的用于在线识别的基准模型的匹配度,作为该离线候选字符的在线识别置信度。
34.根据权利要求19或20所述的手写字符识别装置,其中所述获得该在线候选字符的离线识别置信度包括:评估所述手写轨迹与对于该在线候选字符的用于离线识别的基准模型的匹配度,作为该在线候选字符的离线识别置信度。
【文档编号】G06K9/68GK104008405SQ201310202627
【公开日】2014年8月27日 申请日期:2013年5月28日 优先权日:2013年2月26日
【发明者】许梅芳, 李建杰 申请人:佳能株式会社