一种多语言混合手写文本行的识别方法及装置的制作方法

文档序号:6556115阅读:264来源:国知局
专利名称:一种多语言混合手写文本行的识别方法及装置的制作方法
技术领域
本发明属于输入法技术领域,涉及一种多语言混合手写文本行的识别方法,特别是涉及一种多语言混合手写文本行的识别方法及装置。
背景技术
随着移动终端和触控技术的发展,手写技术以其方便、快速的优势得到了更加广泛的应用。对手写文本的识别也逐步从单个字符的识别发展到文本行的识别,中文和英文两种语言类别的文本行识别是目前应用最多的。现有的大部分手写文本行识别技术中,通常只支持单一语言的手写文本行识别, 当需要识别不同语言的手写文本行时,通过在一个终端上加载相应的识别语言包来实现特定语言的手写文本行输入。该方法无法在同一个终端上同时加载多种语言包,无法识别多种语言的手写文本行,当需要识别其他语言的手写文本行时,需要首先卸载当前识别语言包,然后,再安装另一种识别语言包,使用起来非常不方便。一种改进的手写文本行识别技术的应用是同时加载多个识别语言包,进行手写文本行识别之前,首先指定手写文本行的语言类别,在用户完成文本行的输入后,只能按照指定的语言类别对输入的文本行进行识别。这种应用,要求使用者在每次输入不同语言类别的文本行之前,首先设置识别的文本行的语言类别,用户使用起来非常不方便,也影响输入的速度。出现上述问题的原因是目前的手写识别技术还无法准确的识别一行不同语言混合输入的文本,如既包括中文输入又包括英文输入的中英文混合的手写文本行。

发明内容
本发明的目的在于提供一种多语言混合手写文本行的识别方法及装置,能够自动识别多种语言混合的手写文本行,在进行手写文本行识别之前,不需要用户手动设置手写文本行的识别范围,方便用户进行多语言的文本行输入,也提高了输入的速度。本发明提供了如下方案一种多语言混合手写文本行的识别方法,包括根据获得的手写文本行的笔迹数据,将手写文本行分割成多个笔画几何块;分别提取每个笔画几何块的特征,根据提取的笔画几何块的特征识别所述笔画几何块的语言类别;将相邻的具有相同语言类别的笔画几何块进行合并,得到该语言类别的笔画语言块;分别采用相应的语言类别的字符串识别核心识别所述笔画语言块,获得各笔画语言块的识别结果;合并各笔画语言块的识别结果,得到该手写文本行的识别结果。其中,所述将手写文本行分割成多个笔画几何块,包括从手写文本行的笔迹数据中提取所有笔画,并将每个笔画初始化为相应的笔画块;通过合并水平投影重叠的笔画块,将多个笔画块合并成至少一个笔画几何块。所述笔迹数据包括手写文本行中构成笔画的笔迹点坐标和笔画结束标志,所述笔画几何块包括至少一个笔画。所述通 过合并水平投影重叠的笔画块,将多个笔画块合并成至少一个笔画几何块,包括a、依 序取两 个相邻的笔画块;b、判断所述两个相邻的笔画块的水平投影是否重叠,如果重叠,将所述两个相邻的笔画块合并为合并笔画块;C、依序取与所述合并笔画块相邻的笔画块,并判断所述合并笔画块和该相邻的笔画块的水平投影是否重叠,如果重叠,将所述合并笔画块和该相邻的笔画块合并为另一合并笔画块,转至d ;否则,所述合并笔画块形成一个笔画几何块,转至a,直至所有笔画块合并完成;d、重复C,直至所有笔画块合并完成。其中,所述合并笔画块为包括至少两个笔画的笔画块。所述相邻笔画块指笔画书写顺序相邻的笔画块。所述笔画几何块的特征包括第一预设语言的字符识别可信度、笔迹长度、笔迹方向和笔画重叠度。所述根据提取的特征识别所述笔画几何块的语言类别,包括计算笔画几何块的第一预设语言的可信度,当所述预设语言的可信度大于设定阈值时,识别该笔画几何块的语言类别为第一预设语言。所述第i个笔画几何块的预设语言的可信度P(Bi)通过公式
权利要求
1.一种多语言混合手写文本行的识别方法,其特征在于,包括根据获得的手写文本行的笔迹数据,将手写文本行分割成多个笔画几何块;分别提取每个笔画几何块的特征,根据提取的笔划几何块特征识别所述笔画几何块的语言类别;将相邻的具有相同语言类别的笔画几何块进行合并,得到该语言类别的笔画语言块;分别采用相应的语言类别的字符串识别核心识别所述笔画语言块,获得各笔画语言块的识别结果;合并各笔画语言块的识别结果,得到该手写文本行的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将手写文本行分割成多个笔画几何块,包括从手写文本行的笔迹数据中提取所有笔画,并将每个笔画初始化为相应的笔画块;通过合并水平投影重叠的笔画块,将多个笔画块合并成至少一个笔画几何块;其中,所述笔迹数据包括手写文本行中构成笔画的笔迹点坐标和笔画结束标志,所述笔画几何块包括至少一个笔画。
3.根据权利要求2所述的方法,其特征在于,所述通过合并水平投影重叠的笔画块,将多个笔画块合并成至少一个笔画几何块,包括a、依序取两个相邻的笔画块;b、判断所述两个相邻的笔画块的水平投影是否重叠,如果重叠,将所述两个相邻的笔画块合并为合并笔画块;C、依序取与所述合并笔画块相邻的笔画块,并判断所述合并笔画块和该相邻的笔画块的水平投影是否重叠,如果重叠,将所述合并笔画块和该相邻的笔画块合并为另一合并笔画块,转至d ;否则,所述合并笔画块形成一个笔画几何块,转至a,直至所有笔画块合并完成;d、重复c,直至所有笔画块合并完成,其中,所述合并笔画块为包括至少两个笔画的笔画块。
4.根据权利要求3所述的方法,其特征在于,所述相邻笔画块指笔画书写顺序相邻的笔画块。
5.根据权利要求4所述的方法,其特征在于,所述笔画几何块的特征包括第一预设语言的字符识别可信度、笔迹长度、笔迹方向和笔画重叠度。
6.根据权利要求5所述的方法,其特征在于,所述根据提取的特征识别所述笔画几何块的语言类别,包括计算笔画几何块的第一预设语言的可信度,当所述预设语言的可信度大于设定阈值时,识别该笔画几何块的语言类别为第一预设语言。
7.根据权利要求6所述的方法,其特征在于,所述第i个笔画几何块的预设语言的可信N度P(Bi)通过公式= ⑷⑷X7^))计算得到,k=\\ 1 X{I{k)) > T{k)其中,5{X{I{k)\m) =,I (k)表示通过N轮迭代训练笔画语言块[0 AyJyk)) < Iyk)分类器过程中第k轮迭代选中的特征维数,T(k)表示第k轮迭代选中的阈值;所述ω(10 表示第k轮迭代的权重。
8.根据权利要求1所述的方法,其特征在于,所述分别采用相应的语言类别的字符串识别核心识别所述笔画语言块,获得各笔画语言块的识别结果,包括判断当前笔画语言块的语言类别是否为第一预设语言,若是,采用第一预设语言的字符串识别核心识别当前笔画语言块;否则,采用第二预设语言的字符串识别核心识别当前笔画语言块,得到当前笔画语言块的识别结果;取另一个笔画语言块,直至所有笔画语言块识别完毕,所述识别结果包括候选字符串及该候选字符串的候选得分。
9.根据权利要求8所述的方法,其特征在于,所述合并各笔画语言块的识别结果,得到手写文本行的识别结果,包括将每个笔画语言块的识别候选字符串按照候选得分由大到小的顺序进行排列,得分最高的识别候选字符串作为第一识别候选;分别提取每个笔画语言块的第一识别候选,按照笔画语言块在手写文本行中的排列顺序合并提取的第一识别候选,得到混合手写文本行的识别结果。
10.根据权利要求6或9所述的方法,其特征在于,所述语言类别包括中文、西文,所述第一预设语言为中文。
11.一种多语言混合手写文本行的识别装置,其特征在于,包括分割单元,用于根据获得的手写文本行的笔迹数据,将手写文本行分割成多个笔画几何块;语言类别识别单元,用于分别提取每个笔画几何块的特征,根据提取的笔画几何块的特征识别所述笔画几何块的语言类别;笔画几何块合并单元,用于将相邻的具有相同语言类别的笔画几何块进行合并,得到该语言类别的笔画语言块;笔画语言块识别单元,分别采用相应的语言类别的字符串识别核心识别所述笔画语言块,获得各笔画语言块的识别结果;合并单元,用于合并各笔画语言块的识别结果,得到该手写文本行的识别结果。
全文摘要
本发明公开了一种多语言混合的手写文本行的识别方法及装置,属于输入法技术领域。该方法包括根据获得的手写文本行的笔迹数据,将手写文本行分割成多个笔画几何块;分别提取每个笔画几何块的特征,根据提取的特征识别所述笔画几何块的语言类别;将相邻的具有相同语言类别的笔画几何块进行合并,得到该语言类别的笔画语言块;分别采用相应的语言类别的字符串识别核心识别所述笔画语言块,获得各笔画语言块的识别结果;合并各笔画语言块的识别结果,得到该手写文本行的识别结果。通过该方法,使得用户在进行多语言手写文本行输入时,不必要预先指定手写文本行的语言类别,方便了用户进行手写文本输入,同时有效地提高了手写输入的速度。
文档编号G06K9/68GK102208039SQ20111014704
公开日2011年10月5日 申请日期2011年6月1日 优先权日2011年6月1日
发明者郭育生 申请人:汉王科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1