补字的排序存储方法及装置、创建补充字库的方法及装置制造方法

文档序号：6508233阅读：269来源：国知局

补字的排序存储方法及装置、创建补充字库的方法及装置制造方法
【专利摘要】本发明提供一种补字的排序存储方法，包括如下步骤：1）判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录，如是，则执行步骤2）；2）对每个待补充字符进行数据整理和字形规范处理，以得出每个待补充字符的属性信息；3）根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。相应地，提供一种补字的排序存储装置、创建补充字库的方法及装置。本发明能够避免字形重复，提高存储及检索效率，且能够与其他系统进行传输、交换。
【专利说明】补字的排序存储方法及装置、创建补充字库的方法及装置

【技术领域】
[0001] 本发明涉及计算机字符信息处理领域，具体涉及补字的排序存储方法及装置、创建补充字库的方法及装置。

【背景技术】
[0002] 截至目前，已经颁布的国际编码标准IS0/IEC10646:2003,和国家编码标准 GB13000-2010、GB18030-2005中，已收录CJK统一汉字、CJK统一汉字扩充集A和CJK统一汉字扩充集B，共计70195字，而CJK统一汉字扩充集C1正在制定过程中。然而，如此庞大的字符集仍无法满足现有的使用需求。例如，无法满足公民个人信息中姓名、住址用字的需求。也就是说，公民个人信息的姓名、住址中的冷僻字，目前仍然没有被国际或国家编码标准所收录，因而现有的符合国际或国家编码标准的字库，都不支持公民个人信息中大量冷僻字的录入、显示、打印、存储、读取、传输、交换及处理，从而导致在涉及到公民个人信息处理的领域，例如公安人口信息管理系统、第二代居民身份证制证系统、银行、保险、海关等，经常会遇到居民姓名、住址中冷僻字的处理问题。
[0003] 目前的现状是：用户发现自己使用的输入法无法录入某些汉字时，并不清楚是国际或国家编码标准中尚未收录该汉字，还是输入法未能覆盖现有的国际或国家编码标准，且不经编码查重，就按照自己的需求随便地补入一个字形，也未经数据整理和字形规范，就随便地将该字形放入用户自定义区的某个位置。如此一来，用户自定义区内的补字没有进行分级和排序存放，不仅存储无序、杂乱无章，造成用户自定义区内存储空间的浪费及检索效率的低下。而且，由于未经查重、整理，还可能存在字形重复。更为严重的是，这样产生的补字存储序列和补字字库，很难与其它系统进行传输、交换。

【发明内容】

[0004] 本发明所要解决的技术问题是针对现有技术中所存在的上述缺陷，提供一种能够避免字形重复，提高存储及检索效率，且能够与其他系统进行传输、交换的补字的排序存储方法及装置、创建补充字库的方法及装置。
[0005] 解决本发明技术问题所采用的技术方案：
[0006] 所述补字的排序存储方法包括如下步骤：
[0007] 1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录，如是，则执行步骤2);
[0008] 2)对每个待补充字符进行数据整理和字形规范处理，以得出每个待补充字符的属性信息；
[0009] 3)根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。
[0010] 优选地，所述步骤1)中，判断所述待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录具体为：
[0011] 11)逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比，以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列；
[0012] 12)逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比，若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同，将该待补充字符从所述待补充字符序列中去除，直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时，执行步骤 2)。
[0013] 优选地，所述对比的方法采用图片对比或字形数据对比。
[0014] 优选地，所述现有国际编码标准包括IS0/IEC10646:2003,所述现有国家编码标准包括 GB18030-2000 和 GB13000. 1-1993。
[0015] 优选地，所述步骤2)中，待补充字符的属性信息包括：待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
[0016] 优选地，所述步骤3)中，根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，具体为：
[0017] 311)根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子，并为每个待补充字符对应的多个排序因子分别赋予编号和优先级；
[0018] 312)按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序，以分别形成每个待补充字符对应的排序存储序列，将每个待补充字符对应的排序存储序列中各个排序因子的编号组合，以分别形成每个待补充字符的索引值。
[0019] 优选地，所述多个排序因子包括使用频率排序因子，和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种；所述使用频率排序因子具有最高优先级；
[0020] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子，且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号；
[0021] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子，上述所有结构因子分别对应唯一的编号；
[0022] 所述部首排序因子包括部首笔画数和/或部首笔画顺序，且所述部首笔画数和部首笔画顺序分别对应唯一的编号；
[0023] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序，且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号；
[0024] 所述拼音排序因子包括拼音字符和音调，且所述拼音字符和音调共同对应唯一的编号。
[0025] 优选地，所述步骤3)中，根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符具体为：
[0026] 321)将所述用户自定义区划分成多个子区域；
[0027] 322)依次检测每个排序存储序列中的使用频率排序因子，将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域，将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域；
[0028] 323)根据每个排序存储序列中除使用频率排序因子之外的其它排序因子，对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储，和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储；且当任一待补充字符的使用频率发生变化时，其在用户自定义区中的存储位置和索引值也相应发生变化。
[0029] 本发明还提供一种创建补充字库的方法，所述方法为：采用上述补字的排序存储方法在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列，从而形成补充字库。
[0030] 优选地，所述补充字库的字库格式为TrueType字库、OpenType字库、PostScript 字库或者用户自定义字库。
[0031] 本发明还提供一种补字的排序存储装置，包括：判断单元、处理单元和排序存储单元；
[0032] 所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录，如是，则将所述待补充字符序列发送至处理单元；
[0033] 所述处理单元用于对每个待补充字符进行数据整理和字形规范处理，以得出每个待补充字符的属性信息，并将每个待补充字符的属性信息发送至排序存储单元；
[0034] 所述排序存储单元用于根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。
[0035] 优选地，所述判断单元具体用于：
[0036] 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比，以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列；
[0037] 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比，若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同，将该待补充字符从所述待补充字符序列中去除，直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时，将所述待补充字符序列发送至处理单元。
[0038] 优选地，所述判断单元采用的对比方法为图片对比或字形数据对比。
[0039] 优选地，所述判断单元采用的现有国际编码标准包括IS0/IEC10646:2003,现有国家编码标准包括 GB18030-2000 和 GB13000. 1-1993。
[0040] 优选地，所述处理单元得出的待补充字符的属性信息包括：待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
[0041] 优选地，所述排序存储单元具体用于：
[0042] 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子，并为每个待补充字符对应的多个排序因子分别赋予编号和优先级；
[0043] 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序，以分别形成每个待补充字符对应的排序存储序列，将每个待补充字符对应的排序存储序列中各个排序因子的编号组合，以分别形成每个待补充字符的索引值。
[0044] 优选地，所述排序存储单元形成的多个排序因子包括使用频率排序因子，和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种；所述使用频率排序因子具有最高优先级；
[0045] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子，且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号；
[0046] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子，上述所有结构因子分别对应唯一的编号；
[0047] 所述部首排序因子包括部首笔画数和/或部首笔画顺序，且所述部首笔画数和部首笔画顺序分别对应唯一的编号；
[0048] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序，且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号； [0049] 所述拼音排序因子包括拼音字符和音调，且所述拼音字符和音调共同对应唯一的编号。
[0050] 优选地，所述排序存储单元还用于：
[0051] 将所述用户自定义区划分成多个子区域；
[0052] 依次检测每个排序存储序列中的使用频率排序因子，将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域，将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域；
[0053] 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子，对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储，和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储；且当任一待补充字符的使用频率发生变化时，其在用户自定义区中的存储位置和索引值也相应发生变化。
[0054] 本发明还提供一种创建补充字库的装置，其用于采用上述补字的排序存储装置在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列，从而形成补充字库。
[0055] 优选地，所述创建补充字库的装置形成的补充字库的字库格式为TrueType字库、 OpenType字库、PostScript字库或者用户自定义字库。
[0056] 有益效果：
[0057] 1)本发明所述补字的排序存储方法及装置经过编码查重、数据整理和字形规范处理后，按照一定顺序将待补充字符（即补字）数字化和规范化地存储于用户自定义区中，避免了字形重复，存储有序，从而提高了用户自定义区存储空间的利用率和检索效率，且方便定制针对待补充字符的各种检索方法，规范、统一了向用户自定义区中存储待补充字符的流程，还易于实现与其他系统的字符传输和交换。
[0058] 2)经本发明所述补字的排序存储方法及装置创建的补充字库可包含现有国际或国家编码标准中未收录的大量冷僻字，能够有效解决现有信息领域，如公民个人信息中姓名、住址出现的冷僻字的录入、显示、打印、存储、读取、传输、交换及处理，从而能实现上述冷僻字在全国范围内规范化、统一化、高效化的精准存储和读取。

【专利附图】

【附图说明】
[0059] 图1为本发明实施例1所述补字的排序存储方法的流程图；
[0060] 图2为本发明实施例1所述补字的排序存储装置的框图。

【具体实施方式】
[0061] 为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和实施例对本发明所述补字的排序存储方法及装置、创建补充字库的方法及装置作进一步详细描述。 [0062] 需要说明的是，本发明中出现的用户自定义区指的是中国国家文字现行编码标准中的用户自定义区，是用于当国家编码标准中缺少标准字符时允许用户自行造字的区域，其码位有限，为了对其进行充分利用，本发明中，先将待补充的字符（即补字）与标准中的字符比较去重后，再按照一定顺序存入用户自定义区。
[0063] 实施例1 :
[0064] 如图1所示，本实施例提供一种补字的排序存储方法，包括如下步骤：
[0065] slOl.判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录，如是，则执行步骤sl02。
[0066] 优选地，所述步骤slOl具体为：
[0067] slOl-1.逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中的所有字符进行多次对比，以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列。所述对比的方法采用图片对比或字形数据对比。此步骤中，可采用程序语言的方式实现所述待补充字符序列中的所有待补充字符分别与现有国际或国家编码标准中所有字符的多次自动对比。
[0068] slOl-2.逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比，若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同，将该待补充字符从所述待补充字符序列中去除，直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时，执行步骤sl02。本步骤中，既可采用程序语言的方式实现所述待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符的自动对比，也可采用人工校对的方式实现所述待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符的人工对比。
[0069] 其中，所述待补充字符序列包括至少一个待补充字符。所述类似的字符序列包括至少一个类似的字符。所述现有国际编码标准包括IS0/IEC10646:2003,所述现有国家编码标准包括 GB18030-2000 和 GB13000. 1-1993。
[0070] sl02.对每个待补充字符进行数据整理和字形规范处理，以得出每个待补充字符的属性信息。
[0071] 所述待补充字符的属性信息包括：待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
[0072] sl03.根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。
[0073] 其中，根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，具体为：
[0074] sl03_ll.根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子（即每个待补充字符均对应多个排序因子)，并为每个待补充字符对应的多个排序因子分别赋予编号和优先级。
[0075] S103-12.按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序，以分别形成每个待补充字符对应的排序存储序列，即每个排序存储序列包括多个按优先级排列的排序因子；将每个待补充字符对应的排序存储序列中各个排序因子的编号组合，以分别形成每个待补充字符的索引值。
[0076] 其中，所述编号可采用数字或字母，故所述索引值可以为数字字符串、字母字符串或数字与字母组合字符串。
[0077] 优选地，所述多个排序因子包括使用频率排序因子，和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种。所述使用频率排序因子具有最1?优先级。
[0078] 可见，虽然待补充字符的属性信息有很多，但是并不需要将所有的属性信息都形成排序因子，只需将其中一部分形成排序因子即可，至于将哪些属性信息形成排序因子可由本领域技术人员根据实际情况确定，例如根据检索需求、存储顺序等因素确定。而且，由于排序因子的数量和种类可选择，每个排序因子的优先级也可以定义，因此对于同一个待补充字符来说，可形成多种排序存储序列，不同排序存储序列中排序因子的数量、种类及先后顺序均可不同，因此对后续检索的反应速度也不同，但无论采用哪种排序存储序列，均为后续快速检索、精准定位提供了字符属性数据基础。
[0079] 根据待补充字符的使用频率形成使用频率排序因子，所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子，且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号。
[0080] 也就是说，对每个待补充字符的使用频率进行分级，可分为使用频率相对较高的待补充字符和使用频率相对较低的待补充字符，且使用频率相对较高的待补充字符对应的多个排序因子中包括使用频率相对较高因子，使用频率相对较低的待补充字符对应的多个排序因子中包括使用频率相对较低因子。每个待补充字符的使用频率是可以动态调整的，例如，每使用一次某待补充字符，系统均会自动记录其使用次数，若该待补充字符原来对应使用频率相对较低因子，则当该待补充字符的使用次数累积到一定数值(该数值大于预设的平均使用次数）时，就会使该待补充字符对应使用频率相对较高因子，从而调整了该待补充字符的使用频率。
[0081] 根据待补充字符的间架结构（如表1所示）形成间架结构排序因子，所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子，上述所有结构因子分别对应唯一的编号。其中，所述半包围结构因子还可分为从左包围结构因子、从左上包围结构因子、从右上包围结构因子、从左下包围结构因子、从左下包围结构因子，从上包围结构因子和从下包围结构因子。
[0082] 表1现有汉字间架结构表

【权利要求】
1. 一种补字的排序存储方法，其特征在于，包括如下步骤： 1) 判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录，如是，则执行步骤2); 2) 对每个待补充字符进行数据整理和字形规范处理，以得出每个待补充字符的属性信息； 3) 根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。
2. 根据权利要求1所述的方法，其特征在于，所述步骤1)中，判断所述待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录具体为： 11) 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比，以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列； 12) 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比，若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同，将该待补充字符从所述待补充字符序列中去除，直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时，执行步骤2)。
3. 根据权利要求2所述的方法，其特征在于，所述对比的方法采用图片对比或字形数据对比。
4. 根据权利要求1-3中任一项所述的方法，其特征在于，所述现有国际编码标准包括 IS0/IEC10646:2003,所述现有国家编码标准包括 GB18030-2000 和 GB13000. 1-1993。
5. 根据权利要求1所述的方法，其特征在于，所述步骤2)中，待补充字符的属性信息包括：待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
6. 根据权利要求1所述的方法，其特征在于，所述步骤3)中，根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，具体为： 311) 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子，并为每个待补充字符对应的多个排序因子分别赋予编号和优先级； 312) 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序，以分别形成每个待补充字符对应的排序存储序列，将每个待补充字符对应的排序存储序列中各个排序因子的编号组合，以分别形成每个待补充字符的索引值。
7. 根据权利要求6所述的方法，其特征在于，所述多个排序因子包括使用频率排序因子，和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种；所述使用频率排序因子具有最高优先级；所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子，且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号；所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子，上述所有结构因子分别对应唯一的编号；所述部首排序因子包括部首笔画数和/或部首笔画顺序，且所述部首笔画数和部首笔画顺序分别对应唯一的编号；所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序，且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号；所述拼音排序因子包括拼音字符和音调，且所述拼音字符和音调共同对应唯一的编号。
8. 根据权利要求7所述的方法，其特征在于，所述步骤3)中，根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符具体为： 321) 将所述用户自定义区划分成多个子区域； 322) 依次检测每个排序存储序列中的使用频率排序因子，将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域，将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域； 323) 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子，对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储，和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储；且当任一待补充字符的使用频率发生变化时，其在用户自定义区中的存储位置和索引值也相应发生变化。
9. 一种创建补充字库的方法，其特征在于，所述方法为：采用如权利要求1-8中任一项所述的补字的排序存储方法在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列，从而形成补充字库。
10. 根据权利要求9所述的方法，其特征在于，所述补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。
11. 一种补字的排序存储装置，其特征在于，包括：判断单元、处理单元和排序存储单元；所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录，如是，则将所述待补充字符序列发送至处理单元；所述处理单元用于对每个待补充字符进行数据整理和字形规范处理，以得出每个待补充字符的属性信息，并将每个待补充字符的属性信息发送至排序存储单元；所述排序存储单元用于根据每个待补充字符的属性信息，分别形成与每个待补充字符相对应的排序存储序列和索引值，并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。
12. 根据权利要求11所述的装置，其特征在于，所述判断单元具体用于：逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比，以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列；逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比，若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同，将该待补充字符从所述待补充字符序列中去除，直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时，将所述待补充字符序列发送至处理单元。
13. 根据权利要求12所述的装置，其特征在于，所述判断单元采用的对比方法为图片对比或字形数据对比。
14. 根据权利要求11-13中任一项所述的装置，其特征在于，所述判断单元采用的现有国际编码标准包括ISO/IEC10646:2003，现有国家编码标准包括GB18030-2000和 GB13000. 1-1993。
15. 根据权利要求11所述的装置，其特征在于，所述处理单元得出的待补充字符的属性信息包括：待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
16. 根据权利要求11所述的装置，其特征在于，所述排序存储单元具体用于：根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子，并为每个待补充字符对应的多个排序因子分别赋予编号和优先级；按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序，以分别形成每个待补充字符对应的排序存储序列，将每个待补充字符对应的排序存储序列中各个排序因子的编号组合，以分别形成每个待补充字符的索引值。
17. 根据权利要求16所述的装置，其特征在于，所述排序存储单元形成的多个排序因子包括使用频率排序因子，和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种；所述使用频率排序因子具有最高优先级；所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子，且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号；所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子，上述所有结构因子分别对应唯一的编号；所述部首排序因子包括部首笔画数和/或部首笔画顺序，且所述部首笔画数和部首笔画顺序分别对应唯一的编号；所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序，且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号；所述拼音排序因子包括拼音字符和音调，且所述拼音字符和音调共同对应唯一的编号。
18. 根据权利要求17所述的装置，其特征在于，所述排序存储单元还用于：将所述用户自定义区划分成多个子区域；依次检测每个排序存储序列中的使用频率排序因子，将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域，将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域；根据每个排序存储序列中除使用频率排序因子之外的其它排序因子，对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储，和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储；且当任一待补充字符的使用频率发生变化时，其在用户自定义区中的存储位置和索引值也相应发生变化。
19. 一种创建补充字库的装置，其特征在于，其用于采用如权利要求11-18中任一项所述的补字的排序存储装置在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列，从而形成补充字库。
20. 根据权利要求19所述的方法，其特征在于，所述创建补充字库的装置形成的补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。
【文档编号】G06F17/30GK104424196SQ201310364886
【公开日】2015年3月18日申请日期:2013年8月20日优先权日:2013年8月20日
【发明者】高玉军申请人:北大方正集团有限公司, 方正信息产业控股有限公司, 北京北大方正电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高玉军;
技术所有人：北大方正集团有限公司;方正信息产业控股有限公司;北京北大方正电子有限公司;
我是此专利的发明人

上一篇：一种三维空间中的手势识别系统及其识别方法
上一篇：用于横屏和竖屏显示的共用资源的生成方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。