手写轨迹的检测、规范化和在线识别以及异常字根的收集的制作方法
【专利摘要】本发明涉及用于手写轨迹的检测、规范化和在线识别以及异常字根的收集的方法和装置。根据本公开一个实施例,提供了一种对字符的手写轨迹进行检测的方法,包括:基于预定的异常字根,对于手写轨迹的每一笔画,根据该笔画的几何特征进行第一判断,以判断是否该笔画是异常字根;如果不是,则进行第二判断,以判断是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根,所述第二判断是基于该笔画的几何特征和所述相邻笔画的几何特征进行的。
【专利说明】手写轨迹的检测、规范化和在线识别以及异常字根的收集
【技术领域】
[0001]本公开涉及用于字符的手写轨迹的检测、规范化、以及在线识别方法和装置,以及用于收集异常字根的方法和装置。
【背景技术】
[0002]以中文以及日文汉字(kanji)为代表的字符系统(其也被称为方块字或象形文字(ideographic character))通常包含多个笔画(stroke),其中的某些笔画或笔画组合常常被作为字根(radical)(例如但不限于,中文中的偏旁部首)。另外,某些字根可以与例如相邻的笔画组成更高级别的字根。
[0003]象形文字之类的字符的书写通常要比以英文为代表的表音字符系统要复杂得多。例如,中文(汉字)对于每一个字都具有标准的书写方式(writing style),包括:笔画的数目、笔画的书写顺序(笔顺)和方向,等等。
[0004]对于以中文(汉字)为代表的字符系统,键盘式的输入(到终端设备,例如计算机、移动终端等)常常是麻烦和低效的。随着手写板以及手机等便携式设备的普及,手写字符输入成为一种趋势。
[0005]然而,中文(汉字)字符众多,书写方式多样。并且,在书写时,为了简化和快捷,很多人并不是严格遵循标准的书写方式,并且笔画形状(stroke shape)和/或字根形状也可能发生变形,例如行书和草书等。并且,对于一些字根,特别是由较少笔画构成的字根,为了书写的便利,很多人会倾向于简化其书写,从而使得所写就的字根不符合标准的书写方式。通常,可以将这样的不符合标准的书写方式(例如,具有异常的笔画连接)的字根称为异常字根(abnormal radical)。例如,图8B示出了异常字根的一个示例。因此,这对高准确率地识别手写字符提出了挑战。
[0006]典型地,字符识别包括基于在线信息的在线识别和基于离线信息的离线识别。字符识别通常使用字典,字典可以包括用于字符的标准模板和/或基准模型。标准模板可以包括例如下列中的一项或多项:笔画构成,笔画数量,笔画的位置(起止点坐标),其它参考点坐标,等等。基准模型可以包括例如字符笔画的概率分布,笔画的起止点统计信息等等。本领域中已知用于字符识别的多种字典以及多种标准模板和/或基准模型。
[0007]在线识别将每一字符看作是笔移动(书写)的时间上的序列。也就是说,将手写轨迹看作具有分离笔画指示的坐标点的序列。因此,对于每一字符(文字),存在标准的序列,据此可以构造用于该字符(文字)的基准模型(reference model)以用于在线识别。从而,可以评估手写轨迹与用于在线识别的基准模型的匹配度,由此得到候选字符。例如但不限于,该匹配度可以作为识别置信度。
[0008]由于在线识别是基于轨迹序列的匹配,而一些常用的弹性的序列匹配方法(譬如隐马尔科夫模型(Hidden Markov Model, HMM)算法、动态时间归整(Dynamic TimeWarping, DTff)算法等)对变形的字符具有较为鲁棒的匹配结果,因此即使对于形状变形了的字符,也能够实现相对精确的输入的序列和基准序列(reference sequence)之间的匹配。然而,在线识别对书写的顺序敏感,而书写顺序与笔画的数目、笔画的书写顺序和方向(也即,书写方式)高度相关,其中的变化很可能导致不准确的识别。
[0009]另外,与离线识别相比,某些在线书写信息易于提取,例如,笔画的数目、笔画的书写顺序、每一笔画的书写方向。然而,由于笔画的不同书写方式,字符的手写迹线的笔画的数目、笔画的书写顺序、每一笔画的书写方向常常会发生变化。因而,书写方式的变化将影响在线识别的识别性能。
[0010]对此,在现有技术中提出了一些在字符识别字典中记录书写方式变化(原型)的方法,例如可以见:
[0011]现有技术文献I:Masaki N, Kaoru M 所著“Collection of on-line handwrittenJapanese character pattern databases and their analyses,,,IJDAR(2004) 7:69-81 ;
[0012]现有技术文献2:Akihito K, Masaki N所著“Prototype learning of structuredpattern representation applied to on-line recognition of handwritten Japanesecharacters”, IJDAR(2007) 10:101-112
[0013]现有技术文献3:US09/020838 ;
[0014]现有技术文献4:US13/214222。
[0015]在此,可以将每一种书写方式称为一种原型。在这些基于原型登记的在线识别技术中,将在字典中记录同一字符的多个原型,每一原型代表了一种书写方式。另一方面,对于基于统计的在线识别技术,诸如HMM、神经网络技术等等,字典中要存储对于同一字符的不同书写方式的更加复杂的统计模型,例如,HMM方法中的高斯密度分量来表示概率分布。
[0016]因此,针对不同书写方式,需要登记各种书写方式变化(原型),这通常需要复杂的计算和大得多的字典,这也意味着需要高的硬件成本和/或较长的识别时间(识别响应时间)。另外,对于这种基于原型登记的技术,其识别性能(例如,准确率)取决于训练样本的多样性。换句而言之,其仅能识别训练样本中已有的书写方式变化。离线识别从手写轨迹的图像提取笔画或笔画段的空间分布信息作为离线特征进行匹配。其通常是在书写完成之后进行识别的,一般其不利用动态书写信息(诸如,前述的笔画的数目、笔画的书写顺序(笔顺)和方向等)。离线识别依赖于手写轨迹图像的空间特征,从而对于书写方式的变化鲁棒。但是由于笔画形状的变形,离线识别的最佳候选(例如,第一最佳候选)的识别准确率通常没有在线识别的高。并且为了对笔画形状的变形鲁棒,离线识别需要高得多的处理能力和存储器成本,否则难以实现与在线识别相当的准确率。
[0017]至少针对上述的部分或全部问题,提出了本发明。
【发明内容】
[0018]根据本公开一个方面,提供了一种对字符的手写轨迹进行检测的方法和装置。所述方法包括:基于预定的异常字根,对于手写轨迹的每一笔画,根据该笔画的几何特征进行第一判断,以判断是否该笔画是异常字根;以及如果不是,则进行第二判断,以判断是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根,所述第二判断是基于该笔画的几何特征和所述相邻笔画的几何特征进行的。
[0019]根据本公开一个方面,提供了一种对字符的手写轨迹进行规范化的方法和装置。所述方法包括:根据前述的方法对字符的手写轨迹进行检测;以及对所检测到的异常字根进行修正以使其符合对应的标准字根的书写方式。
[0020]根据本公开一个方面,提供了一种手写字符在线识别方法和装置,所述手写字符具有手写轨迹。所述方法包括:根据前述的方法对手写字符的手写轨迹进行规范化;以及基于所述规范化后的手写轨迹,通过在线识别来识别该手写字符。
[0021]根据本公开一个方面,提供了一种收集异常字根的方法和装置。所述方法包括:获得非标准书写方式的字符手写轨迹及其对应的标准字符;通过将所述非标准书写方式的字符手写轨迹与对应的标准字符的标准模板的比较,检测非标准笔画以得到非标准笔画集,其中所述非标准笔画集至少包括一个非标准笔画,并且还能够包括与该非标准笔画相邻的一个或多个笔画;根据该非标准笔画集的几何特征,确定该非标准笔画集是否被包含在其它字符的手写轨迹中;以及如果包含该非标准笔画集的不同字符的数目大于一阈值,则将该非标准笔画集确定为异常字根。
[0022]根据本公开一个方面,提供了一种针对书写者自适应的在线字符识别方法和装置。所述方法包括:根据前述的方法收集异常字根;接收所述书写者的字符手写轨迹;根据前述的方法对所接收的字符手写轨迹进行识别,其中以所收集的异常字根作为所述预定的异常字根。
[0023]根据本公开的实施例,可以以较低的成本(例如,较小的字典,较低的计算处理能力)实现紧凑的高准确率的手写识别引擎。根据本公开的实施例的方法或装置,对于书写方式的变化相比于现有技术更加鲁棒。并且由于本发明基于字根级别的识别和/或书写方式规范化,而不是如现有技术中那样基于笔画级别,而字根是可以在若干不同字符之间共享的,因此可以降低或消除对训练样本的依赖性。此外,根据本公开的实施例,对于笔画形状变形也更加鲁棒。与现有技术相比,本发明可以实现对手写轨迹的更高准确率的识别,特别是,可以显著改善对于第一(最佳)候选的识别准确率。
[0024]从下面参考附图的说明中,本发明的另外的特性、特征、和优点将更加清楚。
【专利附图】
【附图说明】
[0025]本申请包括附图,并且附图构成本申请的一部分,附图示出了本公开的实施例并且与说明书一起用于解释本发明的原理。
[0026]图1是示出可以实现本公开的某些实施例的一种机器系统的硬件配置的框图。
[0027]图2示意性地示出了根据本公开一个实施例的用于对字符的手写轨迹进行检测的方法的流程图。
[0028]图3示意性地示出了根据本公开一个实施例的用于对字符的手写轨迹进行检测的装置的示意框图。
[0029]图4示意性地示出了根据本公开一实施例的判断笔画或笔画的组合是否是异常字根的示例处理过程的流程图。
[0030]图5示意性示出了根据本公开一实施例的收集异常字根的示例处理过程的流程图。
[0031]图6示意性地示出了根据本公开一个实施例的检测非标准笔画的示例处理过程的流程图。
[0032]图7示意性示出了根据本公开一个实施例的对字符的手写轨迹进行规范化的装置的示意框图。
[0033]图8A示意性地示出了作为一个示例的手写字符的视图,图SB示出了根据该示例的一个异常字根,图8C示出了对该异常字根的修正。
[0034]图9示意性地示出了根据本公开一个实施例的对异常字根进行修正的处理过程的流程图。
[0035]图10A-10D示出了根据本公开的一个实例的异常字根,其角点、其笔画连接点、和根据笔画连接点划分的笔画的例子。
[0036]图11示出了根据本公开一个实施例的手写字符在线识别装置的示意框图。
[0037]图12示出了根据本公开一个实施例的收集异常字根的装置的示意框图。
[0038]图13示出了根据本公开一个实施例的针对书写者自适应的在线字符识别装置的示意框图。
【具体实施方式】
[0039]下面将参考附图详细描述本公开的实施例。
[0040]注意,在附图中类似的附图标记和字母表示类似的项,并且因此一旦在一个附图中定义了一个项,则对于以后的附图无需再就该项进行讨论。
[0041]图1是示出可以实现本发明实施例的机器(例如,计算机)系统1000的硬件配置的框图。
[0042]如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口1195。
[0043]系统存储器1130包括ROM (只读存储器)1131和RAM (随机存取存储器)1132。BIOS (基本输入输出系统)1133驻留在R0M1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAMl 132中。
[0044]诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
[0045]诸如软盘驱动器1151和⑶-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口 1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及⑶(光盘)1156可以被插入到⑶-ROM驱动器1155中。
[0046]诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口 1160。计算机1110还可以包括手写输入单元(诸如,手写板)1163,以用于接收用户输入的手写字符,所述手写字符可以具有手写轨迹。
[0047]计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制解调器(调制器一解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
[0048]远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
[0049]视频接口 1190连接到监视器1191。
[0050]输出外围接口 1195连接到打印机1196和扬声器1197。
[0051]图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
[0052]图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
[0053]图2示出了根据本公开一个实施例的用于对字符的手写轨迹进行检测的方法的流程图。在该实施例中,在步骤S201,基于预定的异常字根,对于手写轨迹的每一笔画,根据该笔画的几何特征判断(第一判断)是否该笔画是异常字根。
[0054]在一个实现方式中,可以通过对多个书写者的多种书写方式进行统计分析,预先针对每一字符(例如,常用汉字)定义可能的异常字根,例如,具有异常笔画连接的字根,从而,形成预定的异常字根。在另外的实现方式中,可以以例如自适应的方式收集异常字根。图5示出了根据本公开一实施例的收集异常字根的处理过程的流程图,将在稍后对其详细说明。可以在数据库或者字典等中存储所预先定义或者收集的异常字根。
[0055]如果在步骤S201,判断该笔画是异常字根,则确定该笔画是异常字根。如果不是,则判断(第二判断)是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根(步骤S203)。如果是,则确定该笔画是异常字根。如果不是,则确定该笔画不是异常字根。这里,所述第二判断可以是基于该笔画的几何特征和所述相邻笔画的几何特征进行的。
[0056]所述几何特征包括所述笔画或笔画的组合中的线段的长度、线段的方向、以及线段的中点的坐标。在一个具体示例中,所述线段可以是在所述笔画或笔画的组合中的角点处将该笔画或笔画的组合分隔而成的多个(两个或更多个)线段。
[0057]图8A示意性地示出了作为一个示例的手写字符“/(女,,的视图。显然,对其正确的识别将得到字符“位”。图8B示出了对于该手写轨迹,一个可能的异常字根,是由一笔写成的“义”。
[0058]下表I以示例的方式示出了某些示例字符内的可能的异常字根。
【权利要求】
1.一种对字符的手写轨迹进行检测的方法,包括: 基于预定的异常字根,对于手写轨迹的每一笔画, 根据该笔画的几何特征进行第一判断,以判断是否该笔画是异常字根; 如果不是,则进行第二判断,以判断是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根,所述第二判断是基于该笔画的几何特征和所述相邻笔画的几何特征进行的。
2.根据权利要求1所述的方法,其中所述判断是否该笔画或笔画的组合是异常字根的步骤包括: 检测该笔画或笔画的组合内的角点,并在所述角点处将该笔画或笔画的组合分成多个线段; 确定每一线段的几何特征; 根据所述几何特征确定所述多个线段是否与所述预定的异常字根的线段对应; 如果对应,则确定该笔画或笔画的组合是异常字根。
3.根据权利要求1所述的方法,其中所述判断是否该笔画或该笔画与相邻笔画的组合是异常字根的步骤包括: 检测该笔画或笔画的组合内的角点,并在所述角点处将该笔画或笔画的组合分成多个线段; 确定每一线段的几何特征; 根据所述几何特征确定所述多个线段是否与所述预定的异常字根的线段对应; 如果确定所述多个线段与所述预定的异常字根的线段对应,则评估所述多个线段之间的相互关系以确定是否与对应的异常字根的线段的相互关系相符; 如果相符,则确定该笔画或笔画的组合是异常字根。
4.根据权利要求1-3中任一项所述的方法,其中所述几何特征包括下列中的至少一项:线段的长度、线段的方向、以及线段的中点的坐标。
5.根据权利要求3所述的方法,其中所述相互关系包括下列中的至少一项:所述多个线段之间的交叉角以及所述多个线段之间的距离。
6.根据权利要求1所述的方法,其中通过如下步骤收集获得所述预定的异常字根: 获得非标准书写方式的字符手写轨迹及其对应的标准字符; 通过将所述非标准书写方式的字符手写轨迹与对应的标准字符的标准模板的比较,检测非标准笔画以得到非标准笔画集,其中所述非标准笔画集至少包括一个非标准笔画,并且还能够包括与该非标准笔画相邻的一个或多个笔画; 根据该非标准笔画集的几何特征,确定该非标准笔画集是否被包含在其它字符的手写轨迹中;以及 如果包含该非标准笔画集的不同字符的数目大于一阈值,则将该非标准笔画集确定为异常字根。
7.根据权利要求6所述的方法,其中所述检测非标准笔画的步骤包括,对于所述手写轨迹内的每一笔画: 生成该笔画的特征序列; 计算所述特征序列与所述对应的标准字符的标准模板中的所有笔画的特征序列的匹配距离;以及 如果对于该笔画的最小匹配距离大于预定的阈值,则确定该笔画为非标准笔画。
8.一种对字符的手写轨迹进行规范化的方法,包括: 根据权利要求1-7中任一项所述的方法对字符的手写轨迹进行检测;以及 对所检测到的异常字根进行修正以使其符合对应的标准字根的书写方式。
9.根据权利要求8所述的方法,其中所述修正步骤包括,对于每一检测的异常字根: 检测该异常字根的角点; 根据该异常字根的相应的标准书写方式选择角点中的至少一个作为笔画连接点; 将该异常字根在所述笔画连接点处分离成笔画;以及 根据标准书写方式重新排序每一分离的笔画中的轨迹点。
10.根据权利要求9所述的方法,其中所述修正步骤还包括: 根据标准书写方式重新排序所分离的笔画。
11.根据权利要求9或10所述的方法,其中所述修正步骤还包括: 如果修正后的异常字根能够与相邻的笔画组合形成更高级别的字根,则根据该更高级别的字根的标准书写方式对所述分离的笔画和所述相邻的笔画重新排序。
12.—种手写字符在线识别方法,所述手写字符具有手写轨迹,所述方法包括: 根据权利要求8-11中任一项所述的方法对手写字符的手写轨迹进行规范化;以及 基于所述规范化后的手写轨迹,通过在线识别来识别该手写字符。
13.一种收集异常字根的方法,包括: 获得非标准书写方式的字符手写轨迹及其对应的标准字符; 通过将所述非标准书写方式的字符手写轨迹与对应的标准字符的标准模板的比较,检测非标准笔画以得到非标准笔画集,其中所述非标准笔画集至少包括一个非标准笔画,并且还能够包括与该非标准笔画相邻的一个或多个笔画; 根据该非标准笔画集的几何特征,确定该非标准笔画集是否被包含在其它字符的手写轨迹中;以及 如果包含该非标准笔画集的不同字符的数目大于一阈值,则将该非标准笔画集确定为异常字根。
14.根据权利要求13所述的方法,其中所述检测非标准笔画的步骤包括,对于所述手写轨迹内的每一笔画: 生成该笔画的特征序列; 计算所述特征序列与对应的标准字符的标准模板中的所有笔画的特征序列的匹配距离;以及 如果对于该笔画的最小匹配距离大于预定的阈值,则确定该笔画为非标准笔画。
15.根据权利要求13所述的方法,其中所述几何特征至少包括有关以该非标准笔画集中每一笔画的各角点分隔的各线段的信息。
16.根据权利要求15所述的方法,其中所述几何特征还包括所述各线段之间的相互关系; 其中所述线段的信息包括下列中一项或多项:线段的起始点坐标、线段的长度、线段的方向、线段的中点坐标、线段的角点坐标。
17.根据权利要求13所述的方法,还包括: 确定与所述异常字根对应的标准字根。
18.根据权利要求17所述的方法,其中确定与所述异常字根对应的标准字根包括: 计算以该非标准笔画集中每一笔画的各角点分隔的各线段的每一组合与所述标准字符的标准模板中的标准笔画的组合之间的匹配距离;以及 选择该非标准笔画集的匹配距离最小的线段组合作为对应的标准字根。
19.一种针对书写者自适应的在线字符识别方法,包括: 根据权利要求13-18中任一项所述的方法收集异常字根; 接收所述书写者的字符手写轨迹; 根据权利要求12所述的方法对所接收的字符手写轨迹进行识别,其中以所收集的异常字根作为所述预定的异常字根。
20.一种对字符的手写轨迹进行检测的装置,包括: 手写输入单元,适于接收用户输入的字符的手写轨迹, 处理单元,适于: 基于预定的异常字根,对于所述手写轨迹的每一笔画, 根据该笔画的几何特征进行第一判断,以判断是否该笔画是异常字根;以及如果不是,则进行第二判断,以判断是否该笔画是异常字根的一部分并且其与相邻笔画的组合是异常字根,所述第二判断是基于该笔画的几何特征和所述相邻笔画的几何特征进行的。
21.根据权利要求20所述的装置,其中所述判断是否该笔画或笔画的组合是异常字根包括: 检测该笔画或笔画的组合内的角点,并在所述角点处将该笔画或笔画的组合分成多个线段; 确定每一线段的几何特征; 根据所述几何特征确定所述多个线段是否与所述预定的异常字根的线段对应; 如果对应,则确定该笔画或笔画的组合是异常字根。
22.根据权利要求20所述的装置,其中所述判断是否该笔画或该笔画与相邻笔画的组合是异常字根包括: 检测该笔画或笔画的组合内的角点,并在所述角点处将该笔画或笔画的组合分成多个线段; 确定每一线段的几何特征; 根据所述几何特征确定所述多个线段是否与所述预定的异常字根的线段对应; 如果确定所述多个线段与所述预定的异常字根的线段对应,则评估所述多个线段之间的相互关系以确定是否与对应的异常字根的线段的相互关系相符; 如果相符,则确定该笔画或笔画的组合是异常字根。
23.根据权利要求20-22中任一项所述的装置,其中所述几何特征包括下列中的至少一项:线段的长度、线段的方向、以及线段的中点的坐标。
24.根据权利要求22所述的装置,其中所述相互关系包括下列中的至少一项:所述多个线段之间的交叉角以及所述多个线段之间的距离。
25.根据权利要求20所述的装置,还包括: 收集装置,用于收集获得所述预定的异常字根,所述收集装置适于: 获得非标准书写方式的字符手写轨迹及其对应的标准字符; 通过将所述非标准书写方式的字符手写轨迹与对应的标准字符的标准模板的比较,检测非标准笔画以得到非标准笔画集,其中所述非标准笔画集至少包括一个非标准笔画,并且还能够包括与该非标准笔画相邻的一个或多个笔画; 根据该非标准笔画集的几何特征,确定该非标准笔画集是否被包含在其它字符的手写轨迹中;以及 如果包含该非标准笔画集的不同字符的数目大于一阈值,则将该非标准笔画集确定为异常字根。
26.根据权利要求25所述的装置,其中所述检测非标准笔画包括,对于所述手写轨迹内的每一笔画: 生成该笔画的特征序列; 计算所述特征序列与所述对应的标准字符的标准模板中的所有笔画的特征序列的匹配距离;以及 如果对于该笔画的最小匹配距离大于预定的阈值,则确定该笔画为非标准笔画。
27.一种对字符的手写轨迹进行规范化的装置,包括: 根据权利要求20-26中任一项所述的对字符的手写轨迹进行检测的装置; 修正装置,用于对所检测到的异常字根进行修正以使其符合对应的标准字根的书写方式。
28.根据权利要求27所述的装置,其中所述修正装置适于: 对于每一检测的异常字根,检测该异常字根的角点; 根据该异常字根的相应的标准书写方式选择角点中的至少一个作为笔画连接点; 将该异常字根在所述笔画连接点处分离成笔画;以及 根据标准书写方式重新排序每一分离的笔画中的轨迹点。
29.根据权利要求28所述的装置,其中所述修正装置还适于: 根据标准书写方式重新排序所分离的笔画。
30.根据权利要求28或29所述的装置,其中所述修正装置还适于: 如果修正后的异常字根能够与相邻的笔画组合形成更高级别的字根,则根据该更高级别的字根的标准书写方式对所述分离的笔画和所述相邻的笔画重新排序。
31.一种手写字符在线识别装置,所述手写字符具有手写轨迹,所述装置包括: 根据权利要求27-30中任一项所述的对手写字符的手写轨迹进行规范化的装置; 在线识别单元,适于基于所述规范化后的手写轨迹,通过在线识别来识别该手写字符。
32.一种收集异常字根的装置,包括: 获取单元,适于获得非标准书写方式的字符手写轨迹及其对应的标准字符; 检测单元,适于通过将所述非标准书写方式的字符手写轨迹与对应的标准字符的标准模板的比较,检测非标准笔画以得到非标准笔画集,其中所述非标准笔画集至少包括一个非标准笔画,并且还能够包括与该非标准笔画相邻的一个或多个笔画; 确定单元,适于根据该非标准笔画集的几何特征,确定该非标准笔画集是否被包含在其它字符的手写轨迹中,以及如果包含该非标准笔画集的不同字符的数目大于一阈值,则将该非标准笔画集确定为异常字根。
33.根据权利要求32所述的装置,其中所述检测非标准笔画包括,对于所述手写轨迹内的每一笔画: 生成该笔画的特征序列; 计算所述特征序列与对应的标准字符的标准模板中的所有笔画的特征序列的匹配距离;以及 如果对于该笔画的最小匹配距离大于预定的阈值,则确定该笔画为非标准笔画。
34.根据权利要求32所述的装置,其中所述几何特征至少包括有关以该非标准笔画集中每一笔画的各角点分隔的各线段的信息。
35.根据权利要求34所述的装置,其中所述几何特征还可包括所述各线段之间的相互关系; 其中所述线段的信息包括下列中一项或多项:线段的起始点坐标、线段的长度、线段的方向、线段的中点坐标、线段的角点坐标。
36.根据权利要求32所述的装置,还包括: 标准字根确定单元,适于确定与所述异常字根对应的标准字根。
37.根据权利要求36所述的装置,其中确定与所述异常字根对应的标准字根包括: 计算以该非标准笔画集中每一笔画的各角点分隔的各线段的每一组合与所述标准字符的标准模板中的标准笔画的组合的匹配距离;以及 选择该非标准笔画集的匹配距离最小的线段组合作为对应的标准字根。
38.一种针对书写者自适应的在线字符识别装置,包括: 根据权利要求32-37中任一项所述的收集异常字根的装置,适于收集异常字根; 手写输入单元,适于接收所述书写者的字符手写轨迹;以及 根据权利要求31所述的手写字符在线识别装置,适于对所接收的字符手写轨迹进行识别,其中以所收集的异常字根作为所述预定的异常字根。
【文档编号】G06K9/68GK104008363SQ201310202701
【公开日】2014年8月27日 申请日期:2013年5月28日 优先权日:2013年2月26日
【发明者】许梅芳, 李建杰 申请人:佳能株式会社