汉字字首排检及信息处理方法
【技术领域】
[0001] 本发明涉及汉字排检技术领域,特别的涉及一种汉字字首排检及信息处理方法。
【背景技术】
[0002] 目前最常用的汉字排检法分为三类:一、义序排检法,二、音序排检法,三、形序排 检法。
[0003] 义序排检法按字词的意义进行排列和检索;音序排检法通过汉字读音转写成的注 音符号或拼音字母及相关符号对汉字进行排列和检索;形序排检法按汉字的字形进行排列 和检索,严格意义的形序法应与字的音、义无关。
[0004] 当代主要的形序排检法有笔画法、部首法、四角号码法。笔画法的排列原则是单字 按笔画数从少到多进行排列,同画数的按笔顺起笔的笔画形状排列,在进行排检时需要首 先要数清需要排检的汉字的笔画数,应用不方便,而且由于汉字中相同笔画数的汉字很多, 也为排检造成了麻烦。所谓部首法排列原则是先分析汉字结构中的偏旁,把偏旁相同的字 归于一个部首之下,再按笔画来排列。查字前,首先分析字形结构,熟悉部首的位置,查出部 首后,再按部首以外的笔画数查字。目前虽然对取部位置有了明文规定,但部位仍是忽上忽 下忽左忽右,检索者必须对300个形态了如指掌,否则很容易把部首判错。所谓四角号码法 是将汉字按照笔形分为十种并编号,每个汉字定有左上、右上、左下、右下四个角,每个角按 笔形分配一个阿拉伯数字,共四位数字,成为"四角号码",四角号码排检法出现于上个世纪 二三十年代,因查起来比部首法快而异军突起、风靡数十年,但由于归纳的笔形及取角方式 不合汉字固有性质、加附码后重码仍多等原因,虽经不断修改却难成主流排检法。
[0005] 随着计算机的普及人们越来越多的借助计算机对文字进行处理,然而现有技术中 排序方法存在的各种不确定的因素,会使得在使用计算机处理排序过程时计算机无法完全 准确的将所有汉字按照预定的规律进行排序。当出现计算机无法按照预先设置的数据库中 排序方法进行排序的汉字时,需要工作人员进行手动排序,使得整个排序过程费时费力。
【发明内容】
[0006] 基于上述问题,本发明公开一种汉字字首排检及信息处理方法。技术方案如下:
[0007] -种汉字字首排检及信息处理方法,其特征在于,包括:
[0008] 预先建立笔段特征库,所述特征库中保存有各个笔段的名称以及对应的图形特征 信息,所述笔段根据汉字笔画单元的形状确定;
[0009]确定待处理的汉字集合,所述汉字集合中的各个汉字具有相同的字体以及字号;
[0010] 对各个汉字的组成结构进行图形检测,确定所述汉字所具有的笔段,并将各个笔 段的图形检测结果与所述特征库中的图形特征进行比对,确定所述汉字笔画位次,生成汉 字笔画位次表,所述笔画位次表根据笔段排列;
[0011] 确定汉字的笔序,所述笔序为单字笔画的先后次序;确定各个汉字的字首以及字 身,所述字首为所述汉字根据所述笔序开头笔画的结合体,所述字身为除去字首笔画以外 的部分;
[0012] 将所述获取到的字首相同的汉字进行分组,并获取所述字首起始笔画,按照所述 字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;其中,当所 述获取到的字首起始笔画相同时,获取所述字身起始笔画,根据所述字身起始笔画在所述 笔画位次表中的排列顺序,将所述字首相同的汉字进行排序;
[0013] 根据分组以及排序结果生成汉字信息数据库。
[0014] 可选的,还可以包括:所述笔段特征库中,各个笔段的名称以及对应的图形特征信 息包括:
[0015] 横,形状特征是自左而右,或稍斜向右上方,两端粗细相同,可自成笔画,也可作为 折笔的首段、中段或末段;
[0016] 提,形状特征是自左下而右上、由粗而细提为尖,可自成笔画,也可作为折笔的首 段或末段;
[0017] 竖,形状特征是自上而下,或稍斜向左下方,两端粗细一样,可自成笔画,也可作为 折笔的首段、中段或末段;
[0018] 撇,形状特征是自上而下再向左偏收尖,或自上而左下斜收尖、或平斜收尖,可自 成笔画,也可作为折笔的首段、中段或末段;
[0019] 点,形状特征是自尖而顿圆,或向右下,或向左下,可自成笔画,也可为折笔的首段 或末段;
[0020] 捺,形状特征是自左上起尖渐粗,然后平拖或向右下斜拖,独自成画时收为尖,可 自成笔画,也可作为折笔的前段、中段或末段;
[0021] 左弯,形状特征是自上尖细而左弯垂粗、或自右上粗左斜弯,只能作首段,与钩合 成折笔;
[0022] 钩,形状特征是一个尖,或朝左,或朝上,只能作折笔的末段;
[0023] 圈,形状特征为圆形,本身是个笔画,不能构成别的笔画。
[0024] 可选的,还可以包括:所述开头部分为所述汉字书写时的前三笔笔画,当单个汉字 全部笔画数不足三笔的,取其全部笔画构成字首。
[0025] 可选的,还可以包括:所述字首包括:分段字首、方位字首、示意字首、并列字首、 单笔字首、前位字首、引字字首、引首字首。
[0026] 可选的,还可以包括:同时获取所述字首起始笔画,按照所述字首起始笔画在所述 笔画位次表中的排列顺序,将组别中的各个汉字进行排序;包括:
[0027] 当获取的起始笔画相同时,取下一笔画,前面皆同、笔画已尽的在前。
[0028] 可选的,还可以包括:所述笔段分为九种,分别以从1到9数字为码,生成笔段码, 横为1,提为2,竖为3,撇为4,点为5,捺为6,左弯为7,钩为8,圈为9 ;笔画三十五种,分别 以每种笔画的前两个笔段的段码组成,生成笔画码;
[0029] 根据所述生成的笔段码以及笔画码对各个汉字进行编码,生成字码,并按照所述 字码进行排序。
[0030] 可选的,还可以包括:根据确定的笔段码以及笔画码将所述获取到的各个汉字的 字首以及字身进行编码,生成字首码以及字身码。
[0031] 根据本申请提供的具体实施例,本申请公开了以下技术效果:
[0032]通过本申请实施例,可以实现一种汉字字首排检及信息处理方法,在一种实现方 式下,该方法可以包括,预先建立笔段特征库,所述特征库中保存有各个笔段的名称以及对 应的图形特征信息,所述笔段根据汉字笔画单元的形状确定;确定待处理的汉字集合,所述 汉字集合中的各个汉字具有相同的字体以及字号;对各个汉字的组成结构进行图形检测, 确定所述汉字所具有的笔段,并将各个笔段的图形检测结果与所述特征库中的图形特征进 行比对,确定所述汉字笔画位次,生成汉字笔画位次表,所述笔画位次表根据笔段排列;确 定汉字的笔序,所述笔序为单字笔画的先后次序;确定各个汉字的字首以及字身,所述字首 为所述汉字根据所述笔序开头笔画的结合体,所述字身为除去字首笔画以外的部分;将所 述获取到的字首相同的汉字进行分组,并获取所述字首起始笔画,按照所述字首起始笔画 在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;其中,当所述获取到的字 首起始笔画相同时,获取所述字身起始笔画,根据所述字身起始笔画在所述笔画位次表中 的排列顺序,将所述字首相同的汉字进行排序;根据分组以及排序结果生成汉字信息数据 库。通过本申请提供的汉字排序方法能够将所有汉字按照统一的标准进行归纳总结,并根 据归纳进行统一的排序,解决了传统汉字排序方法存在的笔形位置不固定、重码多以及添 加附加码后重码验证等问题,使汉字的排序更加简洁方便。
【附图说明】
[0033]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍