补字的排序存储方法及装置、创建补充字库的方法及装置制造方法

文档序号:6508233阅读:269来源:国知局
补字的排序存储方法及装置、创建补充字库的方法及装置制造方法
【专利摘要】本发明提供一种补字的排序存储方法,包括如下步骤:1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则执行步骤2);2)对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息;3)根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。相应地,提供一种补字的排序存储装置、创建补充字库的方法及装置。本发明能够避免字形重复,提高存储及检索效率,且能够与其他系统进行传输、交换。
【专利说明】补字的排序存储方法及装置、创建补充字库的方法及装置

【技术领域】
[0001] 本发明涉及计算机字符信息处理领域,具体涉及补字的排序存储方法及装置、创 建补充字库的方法及装置。

【背景技术】
[0002] 截至目前,已经颁布的国际编码标准IS0/IEC10646:2003,和国家编码标准 GB13000-2010、GB18030-2005中,已收录CJK统一汉字、CJK统一汉字扩充集A和CJK统一 汉字扩充集B,共计70195字,而CJK统一汉字扩充集C1正在制定过程中。然而,如此庞大 的字符集仍无法满足现有的使用需求。例如,无法满足公民个人信息中姓名、住址用字的需 求。也就是说,公民个人信息的姓名、住址中的冷僻字,目前仍然没有被国际或国家编码标 准所收录,因而现有的符合国际或国家编码标准的字库,都不支持公民个人信息中大量冷 僻字的录入、显示、打印、存储、读取、传输、交换及处理,从而导致在涉及到公民个人信息处 理的领域,例如公安人口信息管理系统、第二代居民身份证制证系统、银行、保险、海关等, 经常会遇到居民姓名、住址中冷僻字的处理问题。
[0003] 目前的现状是:用户发现自己使用的输入法无法录入某些汉字时,并不清楚是国 际或国家编码标准中尚未收录该汉字,还是输入法未能覆盖现有的国际或国家编码标准, 且不经编码查重,就按照自己的需求随便地补入一个字形,也未经数据整理和字形规范,就 随便地将该字形放入用户自定义区的某个位置。如此一来,用户自定义区内的补字没有进 行分级和排序存放,不仅存储无序、杂乱无章,造成用户自定义区内存储空间的浪费及检索 效率的低下。而且,由于未经查重、整理,还可能存在字形重复。更为严重的是,这样产生的 补字存储序列和补字字库,很难与其它系统进行传输、交换。


【发明内容】

[0004] 本发明所要解决的技术问题是针对现有技术中所存在的上述缺陷,提供一种能够 避免字形重复,提高存储及检索效率,且能够与其他系统进行传输、交换的补字的排序存储 方法及装置、创建补充字库的方法及装置。
[0005] 解决本发明技术问题所采用的技术方案:
[0006] 所述补字的排序存储方法包括如下步骤:
[0007] 1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标 准收录,如是,则执行步骤2);
[0008] 2)对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属 性信息;
[0009] 3)根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存 储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储 对应的待补充字符。
[0010] 优选地,所述步骤1)中,判断所述待补充字符序列中的所有待补充字符是否均未 被现有国际或国家编码标准收录具体为:
[0011] 11)逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所 有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似 的字符或类似的字符序列;
[0012] 12)逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序 列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的 一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的 所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行步骤 2)。
[0013] 优选地,所述对比的方法采用图片对比或字形数据对比。
[0014] 优选地,所述现有国际编码标准包括IS0/IEC10646:2003,所述现有国家编码标准 包括 GB18030-2000 和 GB13000. 1-1993。
[0015] 优选地,所述步骤2)中,待补充字符的属性信息包括:待补充字符的使用频率、间 架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
[0016] 优选地,所述步骤3)中,根据每个待补充字符的属性信息,分别形成与每个待补充 字符相对应的排序存储序列和索引值,具体为:
[0017] 311)根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个 排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;
[0018] 312)按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进 行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序 存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。
[0019] 优选地,所述多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排 序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;所述使用频率排序因 子具有最高优先级;
[0020] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且 所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号;
[0021] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下 结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结 构因子,上述所有结构因子分别对应唯一的编号;
[0022] 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部 首笔画顺序分别对应唯一的编号;
[0023] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余 笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号;
[0024] 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的 编号。
[0025] 优选地,所述步骤3)中,根据形成的各个排序存储序列分别在用户自定义区的相 应位置处存储对应的待补充字符具体为:
[0026] 321)将所述用户自定义区划分成多个子区域;
[0027] 322)依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较 高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域, 将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义 区中位置靠后的子区域;
[0028] 323)根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配 至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自 定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用 频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。
[0029] 本发明还提供一种创建补充字库的方法,所述方法为:采用上述补字的排序存储 方法在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序 列,从而形成补充字库。
[0030] 优选地,所述补充字库的字库格式为TrueType字库、OpenType字库、PostScript 字库或者用户自定义字库。
[0031] 本发明还提供一种补字的排序存储装置,包括:判断单元、处理单元和排序存储单 元;
[0032] 所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国 际或国家编码标准收录,如是,则将所述待补充字符序列发送至处理单元;
[0033] 所述处理单元用于对每个待补充字符进行数据整理和字形规范处理,以得出每个 待补充字符的属性信息,并将每个待补充字符的属性信息发送至排序存储单元;
[0034] 所述排序存储单元用于根据每个待补充字符的属性信息,分别形成与每个待补充 字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义 区的相应位置处存储对应的待补充字符。
[0035] 优选地,所述判断单元具体用于:
[0036] 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有 字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的 字符或类似的字符序列;
[0037] 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列 中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一 个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所 有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,将所述待补 充字符序列发送至处理单元。
[0038] 优选地,所述判断单元采用的对比方法为图片对比或字形数据对比。
[0039] 优选地,所述判断单元采用的现有国际编码标准包括IS0/IEC10646:2003,现有国 家编码标准包括 GB18030-2000 和 GB13000. 1-1993。
[0040] 优选地,所述处理单元得出的待补充字符的属性信息包括:待补充字符的使用频 率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和 拼音。
[0041] 优选地,所述排序存储单元具体用于:
[0042] 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序 因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;
[0043] 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排 序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储 序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。
[0044] 优选地,所述排序存储单元形成的多个排序因子包括使用频率排序因子,和间架 结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多 种;所述使用频率排序因子具有最高优先级;
[0045] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且 所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号;
[0046] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下 结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结 构因子,上述所有结构因子分别对应唯一的编号;
[0047] 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部 首笔画顺序分别对应唯一的编号;
[0048] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余 笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号; [0049] 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的 编号。
[0050] 优选地,所述排序存储单元还用于:
[0051] 将所述用户自定义区划分成多个子区域;
[0052] 依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因 子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具 有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中 位置靠后的子区域;
[0053] 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用 户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义 区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率 发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。
[0054] 本发明还提供一种创建补充字库的装置,其用于采用上述补字的排序存储装置在 用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而 形成补充字库。
[0055] 优选地,所述创建补充字库的装置形成的补充字库的字库格式为TrueType字库、 OpenType字库、PostScript字库或者用户自定义字库。
[0056] 有益效果:
[0057] 1)本发明所述补字的排序存储方法及装置经过编码查重、数据整理和字形规范处 理后,按照一定顺序将待补充字符(即补字)数字化和规范化地存储于用户自定义区中,避 免了字形重复,存储有序,从而提高了用户自定义区存储空间的利用率和检索效率,且方便 定制针对待补充字符的各种检索方法,规范、统一了向用户自定义区中存储待补充字符的 流程,还易于实现与其他系统的字符传输和交换。
[0058] 2)经本发明所述补字的排序存储方法及装置创建的补充字库可包含现有国际或 国家编码标准中未收录的大量冷僻字,能够有效解决现有信息领域,如公民个人信息中姓 名、住址出现的冷僻字的录入、显示、打印、存储、读取、传输、交换及处理,从而能实现上述 冷僻字在全国范围内规范化、统一化、高效化的精准存储和读取。

【专利附图】

【附图说明】
[0059] 图1为本发明实施例1所述补字的排序存储方法的流程图;
[0060] 图2为本发明实施例1所述补字的排序存储装置的框图。

【具体实施方式】
[0061] 为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和实施例对本 发明所述补字的排序存储方法及装置、创建补充字库的方法及装置作进一步详细描述。 [0062] 需要说明的是,本发明中出现的用户自定义区指的是中国国家文字现行编码标准 中的用户自定义区,是用于当国家编码标准中缺少标准字符时允许用户自行造字的区域, 其码位有限,为了对其进行充分利用,本发明中,先将待补充的字符(即补字)与标准中的字 符比较去重后,再按照一定顺序存入用户自定义区。
[0063] 实施例1 :
[0064] 如图1所示,本实施例提供一种补字的排序存储方法,包括如下步骤:
[0065] slOl.判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码 标准收录,如是,则执行步骤sl02。
[0066] 优选地,所述步骤slOl具体为:
[0067] slOl-1.逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准 中的所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字 符类似的字符或类似的字符序列。所述对比的方法采用图片对比或字形数据对比。此步骤 中,可采用程序语言的方式实现所述待补充字符序列中的所有待补充字符分别与现有国际 或国家编码标准中所有字符的多次自动对比。
[0068] slOl-2.逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字 符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列 中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列 中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行 步骤sl02。本步骤中,既可采用程序语言的方式实现所述待补充字符序列中的所有待补充 字符分别与其类似的字符或类似的字符序列中的所有字符的自动对比,也可采用人工校对 的方式实现所述待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符 序列中的所有字符的人工对比。
[0069] 其中,所述待补充字符序列包括至少一个待补充字符。所述类似的字符序列包括 至少一个类似的字符。所述现有国际编码标准包括IS0/IEC10646:2003,所述现有国家编码 标准包括 GB18030-2000 和 GB13000. 1-1993。
[0070] sl02.对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符 的属性信息。
[0071] 所述待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画 数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
[0072] sl03.根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排 序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处 存储对应的待补充字符。
[0073] 其中,根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排 序存储序列和索引值,具体为:
[0074] sl03_ll.根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的 多个排序因子(即每个待补充字符均对应多个排序因子),并为每个待补充字符对应的多个 排序因子分别赋予编号和优先级。
[0075] S103-12.按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因 子进行排序,以分别形成每个待补充字符对应的排序存储序列,即每个排序存储序列包括 多个按优先级排列的排序因子;将每个待补充字符对应的排序存储序列中各个排序因子的 编号组合,以分别形成每个待补充字符的索引值。
[0076] 其中,所述编号可采用数字或字母,故所述索引值可以为数字字符串、字母字符串 或数字与字母组合字符串。
[0077] 优选地,所述多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排 序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种。所述使用频率排序因 子具有最1?优先级。
[0078] 可见,虽然待补充字符的属性信息有很多,但是并不需要将所有的属性信息都形 成排序因子,只需将其中一部分形成排序因子即可,至于将哪些属性信息形成排序因子可 由本领域技术人员根据实际情况确定,例如根据检索需求、存储顺序等因素确定。而且,由 于排序因子的数量和种类可选择,每个排序因子的优先级也可以定义,因此对于同一个待 补充字符来说,可形成多种排序存储序列,不同排序存储序列中排序因子的数量、种类及先 后顺序均可不同,因此对后续检索的反应速度也不同,但无论采用哪种排序存储序列,均为 后续快速检索、精准定位提供了字符属性数据基础。
[0079] 根据待补充字符的使用频率形成使用频率排序因子,所述使用频率排序因子分为 使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频 率相对较低因子分别对应唯一的编号。
[0080] 也就是说,对每个待补充字符的使用频率进行分级,可分为使用频率相对较高的 待补充字符和使用频率相对较低的待补充字符,且使用频率相对较高的待补充字符对应的 多个排序因子中包括使用频率相对较高因子,使用频率相对较低的待补充字符对应的多个 排序因子中包括使用频率相对较低因子。每个待补充字符的使用频率是可以动态调整的, 例如,每使用一次某待补充字符,系统均会自动记录其使用次数,若该待补充字符原来对应 使用频率相对较低因子,则当该待补充字符的使用次数累积到一定数值(该数值大于预设 的平均使用次数)时,就会使该待补充字符对应使用频率相对较高因子,从而调整了该待补 充字符的使用频率。
[0081] 根据待补充字符的间架结构(如表1所示)形成间架结构排序因子,所述间架结构 排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构 因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构 因子分别对应唯一的编号。其中,所述半包围结构因子还可分为从左包围结构因子、从左上 包围结构因子、从右上包围结构因子、从左下包围结构因子、从左下包围结构因子,从上包 围结构因子和从下包围结构因子。
[0082] 表1现有汉字间架结构表

【权利要求】
1. 一种补字的排序存储方法,其特征在于,包括如下步骤: 1) 判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收 录,如是,则执行步骤2); 2) 对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信 息; 3) 根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序 列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应 的待补充字符。
2. 根据权利要求1所述的方法,其特征在于, 所述步骤1)中,判断所述待补充字符序列中的所有待补充字符是否均未被现有国际或 国家编码标准收录具体为: 11) 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字 符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字 符或类似的字符序列; 12) 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中 的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个 字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有 待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行步骤2)。
3. 根据权利要求2所述的方法,其特征在于,所述对比的方法采用图片对比或字形数 据对比。
4. 根据权利要求1-3中任一项所述的方法,其特征在于,所述现有国际编码标准包括 IS0/IEC10646:2003,所述现有国家编码标准包括 GB18030-2000 和 GB13000. 1-1993。
5. 根据权利要求1所述的方法,其特征在于,所述步骤2)中,待补充字符的属性信息包 括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、 除部首外剩余笔画顺序和拼音。
6. 根据权利要求1所述的方法,其特征在于, 所述步骤3)中,根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应 的排序存储序列和索引值,具体为: 311) 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序 因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级; 312) 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排 序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储 序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。
7. 根据权利要求6所述的方法,其特征在于, 所述多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部 首外剩余笔画排序因子、拼音排序因子中的一种或多种;所述使用频率排序因子具有最高 优先级; 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述 使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号; 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构 因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因 子,上述所有结构因子分别对应唯一的编号; 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔 画顺序分别对应唯一的编号; 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画 顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号; 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编 号。
8. 根据权利要求7所述的方法,其特征在于, 所述步骤3)中,根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储 对应的待补充字符具体为: 321) 将所述用户自定义区划分成多个子区域; 322) 依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因 子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具 有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中 位置靠后的子区域; 323) 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用 户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义 区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率 发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。
9. 一种创建补充字库的方法,其特征在于,所述方法为:采用如权利要求1-8中任一项 所述的补字的排序存储方法在用户自定义区中依次存储多个未被现有国际或国家编码标 准收录的待补充字符序列,从而形成补充字库。
10. 根据权利要求9所述的方法,其特征在于,所述补充字库的字库格式为TrueType字 库、OpenType字库、PostScript字库或者用户自定义字库。
11. 一种补字的排序存储装置,其特征在于,包括:判断单元、处理单元和排序存储单 元; 所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国际或 国家编码标准收录,如是,则将所述待补充字符序列发送至处理单元; 所述处理单元用于对每个待补充字符进行数据整理和字形规范处理,以得出每个待补 充字符的属性信息,并将每个待补充字符的属性信息发送至排序存储单元; 所述排序存储单元用于根据每个待补充字符的属性信息,分别形成与每个待补充字符 相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的 相应位置处存储对应的待补充字符。
12. 根据权利要求11所述的装置,其特征在于,所述判断单元具体用于: 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符 进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符 或类似的字符序列; 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的 所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字 符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待 补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,将所述待补充字 符序列发送至处理单元。
13. 根据权利要求12所述的装置,其特征在于,所述判断单元采用的对比方法为图片 对比或字形数据对比。
14. 根据权利要求11-13中任一项所述的装置,其特征在于,所述判断单元采用的 现有国际编码标准包括ISO/IEC10646:2003,现有国家编码标准包括GB18030-2000和 GB13000. 1-1993。
15. 根据权利要求11所述的装置,其特征在于,所述处理单元得出的待补充字符的属 性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余 笔画数、除部首外剩余笔画顺序和拼音。
16. 根据权利要求11所述的装置,其特征在于,所述排序存储单元具体用于: 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子, 并为每个待补充字符对应的多个排序因子分别赋予编号和优先级; 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以 分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中 各个排序因子的编号组合,以分别形成每个待补充字符的索引值。
17. 根据权利要求16所述的装置,其特征在于,所述排序存储单元形成的多个排序因 子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因 子、拼音排序因子中的一种或多种;所述使用频率排序因子具有最高优先级; 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述 使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号; 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构 因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因 子,上述所有结构因子分别对应唯一的编号; 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔 画顺序分别对应唯一的编号; 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画 顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号; 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编 号。
18. 根据权利要求17所述的装置,其特征在于,所述排序存储单元还用于: 将所述用户自定义区划分成多个子区域; 依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的 各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具有使 用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置 靠后的子区域; 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自 定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中 位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生 变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。
19. 一种创建补充字库的装置,其特征在于,其用于采用如权利要求11-18中任一项所 述的补字的排序存储装置在用户自定义区中依次存储多个未被现有国际或国家编码标准 收录的待补充字符序列,从而形成补充字库。
20. 根据权利要求19所述的方法,其特征在于,所述创建补充字库的装置形成的补充 字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。
【文档编号】G06F17/30GK104424196SQ201310364886
【公开日】2015年3月18日 申请日期:2013年8月20日 优先权日:2013年8月20日
【发明者】高玉军 申请人:北大方正集团有限公司, 方正信息产业控股有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1