专利名称:汉字全息编码的制作方法
汉字全息编码是一种汉字信息处理技术。
汉字不是拼音文字,在检索、打印、通讯等方面效率不高,特别是在电子计算机上的应用存在很大的困难,必须找到理想的汉字信息处理方法。汉字全息编码正是为了这一目的而创造的。
为解决汉字信息处理问题,国内外提出的汉字编码方案不下五百种。汉字全息编码的独到之处在于
1.编码容量大而无重码;
2.具有见码知字地可读性。
汉字全息编码通过笔形码表明每个汉字的全部笔形,通过结构码反映汉字中笔画的结构关系,通过变码反映汉字中构件的部位关系,从而排除了重码并达到字码的可读性。编码的原理如下
一、字形编码按字形编码,排除按字音编码时因同音字造成重码的可能性。
二、笔形分类用26个字母分别代表汉字中各种笔形,分为三种类型
1、基本型横、竖、撇、捺、点五种基本笔画分别用a、b、c、d、e表示。字母a在英文中有“一”的意义,刚好对应笔画“横”,其他则依次用b、c、d、e表示。
2、直观型字母n表示“ㄇ”,u表示“ㄩ”,t表示“十”,l表示“し”,r表示“
”,x表示“ㄨ”,o表示“口”等等可以直观对应的笔形。
3、联想型指那些可以用一句“口诀”来概括或提示的笔形。例如字母k表示“撇捺撇点撇横人”的笔形,即“
”,“ㄑ”,“
”,“ㄑ”,“”,“人”等笔形。再如字母q表示“书為(为)偉(伟)力左缺框”的笔形。“书為偉力”分别用来提示包含在这四个字中的“
力”等近似笔形,“左缺框”表示“
”,“ユ”等左边有缺口的框形笔形,都用q作为代码。又如字母s表示“活三点及鼎巧马”的笔形,即“氵”,“氵”,“
”,“三”,“
”,“彡”,“
”,“ㄋ”,“ㄣ”,“
”,“ㄅ”,“
”等十二种笔形。其中前六种都是三笔的笔形,概括为“活三点”;后六种都是折笔的笔形,分别用“及鼎巧马”四个字来提示,“及”字包含“
”和它的近形“ㄋ”,“鼎”字包含“ㄣ”和它的近形“
”,“巧”字包含“ㄅ”,“马”字包含“
”,都用s作代码。
三、标码顺次以笔顺的先后作为标码的次序,使汉字有规律地依次由方块形的平面信息转变为直线形的线性信息;反之,可由线性信息依次还原成平面信息。例如“可”字在标码时“一”用a表示,“口”用o表示,“亅”用b表示,依次排列编出该字的字码为“aob”;该字码在还原成汉字时可将“aob”所代表的笔形“一口亅”依次组合即得“可”字。
四、固定笔顺对为数不多但有争议的笔顺用“组合码”函定表示,从而达到唯一性。例如“方”字中“勹”的笔顺有两可的情况,有的先写“丿”后写“”,有的则先写“”后写“丿”,为此用组合码cu固定表示“勹”。“方”字的编码就唯一确定为mcu,其中m代表“亠”,cu代表“勹”,避免了这类笔形在笔顺上的分歧。组合码由基本代码派生组成,只要掌握了基本代码就自然能记住组合码。
五,结构显示用“结构码”表明字形结构上的微小差别,防止重码,加强可读性。结构码由个位数表示。例如“甲”、“申”两字都是先写出构件“曰”,再写竖笔“丨”;“曰”的代码为oe,“丨”的代码为b,按笔顺编码都是“oeb”,形成异字同码,即重码。但“甲”字中竖笔有2个交点,而“申”字中竖笔有3个交点,因此辅以结构码,用“oeb2”表示“甲”,“oeb3”表示“申”,并不重码。反之,在见到“oeb2”时,知道该字的竖笔有2个交点;在见到“oeb3”时,知道该字的竖笔有3个交点,不至于“甲”“申”不分。
六、以少制多汉字的笔形远远超过26种,如果每个字母只代表一种笔形,那么26个字母是不够用的。因此必须使每个字母所代表的笔形至少在两种以上,并且必须使各个字母所代表的笔形在字码中只能衔接成一种笔形,达到唯一性。例如字母q代表“
”,“
”,“
”,“力”,“
”,“ユ”等六种笔形,字母S代表“氵”,“
”,“
”,“三”,“
”,“彡”,“
”,“ㄋ”,“ㄣ”,“
”,“ㄅ”,“
”,等十二种笔形,当q和s编在一起时只可能衔接成一种笔形“弓”;反之,“弓”也只能用qs来编码。
七、缩短码位据统计,一九五二年教育部公布的二千个常用字,平均每个字有11.2笔,其中17笔以上的有221个,有的字笔画多达27笔以上。如果用“一笔一码”的方法编码,则字码太长,不切实用。因此必须采取缩短码位的措施。
1.缩略码缩略码是全码的缩略形式,有记忆联系,且数量不多,共占36个汉字,都是使用频率高或编码较难的汉字。例如“和”字的全码为“dtko”,其缩略码为“do”,是取全码的首尾两码缩略而成。“南”字的全码为“tniat”,其缩略码为“tnt”,是取全码的首中尾三码缩略而成。
2.对称码对称码是取y作为代码,表示右部与左部对称或同形的笔形。例如“臼”字中“亻”的代码为y,“-”的代码为e,合在一起“
”用ye表示;右边的“
”与左边的“
”对称,用对称码y表示,“一”用a表示,“臼”字的字码为yeya。因此用四位码就能表示六画的“臼”字。再如“朋”字中左边的“月”用nj表示,其中“
”的代码为n,“
”的代码为j,合在一起“月”即为nj;右边的“月”与左边的“月”同形,用对称码y表示,“朋”字的字码为“njy”。因此用三位码就能表示八画的“朋”字。
3.同形码同形码是取字母z作为代码,表示下部与上部相同的笔形。例如“炎”字中上面的“火”用ik表示,其中“丷”的代码为i,“人”的代码为k,合在一起“火”即为ik;下面的“火”与上面的“火”同形,用同形码Z表示,“炎”字的字码为“ikz”。因此用三位码就能表示八画的“炎”字。
4、组合码如前所述,组合码用来固定表示有争议的笔顺,此外还有简化编码和缩短码位的作用。例如“受”字中的“
”用组合码dea表示,“又”用组合码rd表示,合在一起“受”的字码为deard,因此用五位码就能表示八画的“受”字。
八、偏旁变码有少量偏旁部首在汉字中位置不同构成的字也不同,必须用“变码”来区别对待。例如“呗”与“员”都是由“口”,“ㄇ”,“人”三个构件组成,但这两字中“口”的位置不同,因此用字母O表示口字旁的“口”,用字母nu表示口字头的“口”,nu在这里是“口”的变码,相当于“ㄇ”(=n)和“ㄩ”(=u)的叠加形式。于是“onk”表示口字旁的“呗”,“nunk”表示口字头的“员”。“变码”是原码的变体,起到加强可读性和防止重码的作用。
汉字全息编码的笔形代码和标码方法
一、笔形代码
A、基本代码
(一)笔形码
说明
1.编码按笔顺进行,优先采用笔画多的笔形码。例如“大”字,不按“一丿丶”而按“丶”编码,即“大”=td。用双线划出的复笔形,不能拆开编码。例如“区”字,不按“一ㄨ乚”而按“匚ㄨ”
编码,即“区”=wx。
2.竖撇用b,斜撇用c。折笔笔形内的撇一律用c。
3.d包括由捺退缩所成之点。
4.e包括与竖笔相接的短横以及在封闭的左缺框内仅有的一横或一竖。
5.笔形“勹”只有在上下结构的最上部位以及在鸟类字头中用f标码,其他情况用cu标码。例如“没”=sfrd,其中f=勹;再加“鸟”=fesa,其中f=勹。但“勿”=cucc,其中cu=勹。
6.s中的“彡”只在右旁时使用,在其他部位时用ccc标码。例如“形”=ahs,但“须”=cccank,“参”=wetdccc。
7.u还用作大口框以及“西、
、酉”等笔形或字形中的尾码。例如“国”=nageu,“西”=ahu,“票”=ahumbi,“酉”=ahau。
8.w中竖折的横部明显较长;l中竖折的竖部较长或竖部与横部的长短相仿。
9.一位码的字在右栏“一码字”中都已表明,其他字的字码最少应该是两位。例如“口”用作独体字时,其字码不是o,而是nu。再如“士”用作独体字时,其字码不是g而是ta。
10.字码的首位是z时,应在z前加a。例如“乙”=az,“迅”=azted。
(二)结构码
结构码用个位数表示,写在有关字母之后,一般用来指出该字母所代表的笔形穿过前序笔形时产生的交点数。
例出=ub1u,甲=oeb2 申=oeb3
结构码“5”还用来辨别少量容易混淆的字形。
例干=at,但于=at5
结构码“8”还用来表示前序笔形在上部。
例仌=k8k
B、派生代码
(一)组合码
1.ai
丌(亓) 24.gx 走
2.aiwyia 亞 25.hef
3.aom 豆 26.hepd 茣
4.aonv 鬲 27.ii 灬
(变亦)
5.ax 丈 28.iiayeya 凿
6.ba (青表隹) 29.inbikx 敝
7.bab
30.jz 虫
8.bk 末 31.ktk
夾(
)
9.buib
32.k8k 仌
10.cty
33.ld
11.cu 勹(方敖) 34.lr 耳
12.cx 夂夂夕夂(处夜) 35.me 宀
13.daf 尧 36.merd
14.dea
37.mex 定
15.du
(留) 38.mt 辛
16.ea
39.myy
17.eaecti 冞 40.ngg 里
18.ee 冫(斗头於扵) 41.ngii 黑
19.ej 疒 42.niu 凸
20.erqi
43.nl
21.es
44.oe 日曰曰
22.ev 礻 45.oex 是
23.ew 衤 46.oi 四罒
47.oj 目 60.tp 车
48.ojj 貝 61.tz
耂
49.oorlk
62.uiu 凹
50.ox 足
63.us 心
51.qh
64.vrx 虍
52.ql 巳
(民) 65.wa 纟
53.qu 已 66.ws 糸
54.qw 己
(改) 67.wv
(互贯毋)
55.rby 厤 68.wy
56.rd 又又
(圣邓久泾)69.xe 弋(试武)
57.rs
70.xz 丸
58.ru 万
71.yny
59.tda 太 72.yxy
说明
1.括号中为字例。
2.笔形“冫”只在“斗、头、於、扵”字形中用ee标码,其他情况用j标码。
3.“曰”用作独体字时,其字码不是oe而是nau。
4.用双线划出的组合码笔形,即使其前笔与后笔之间还有笔画,也不能拆开编码。例如“式”字,不按“一工
丶”而按“弋工”编码,即“式”=xeam。再如“夜”字,不按“亠亻ク丶
”而按“亠亻夂丶”编码,即“夜”=mycxe。
(二)缩略码
1.雨 ajj 3.車 aoet 5.的 ce
2.两 ankk 4.豐 bsbyaom 6.樂 ceoti
7.鬼 cfwe 17.堇 heba 27.骨 nn
8.舟 cne 18.革 het 28.門 qey
9.身 cnsc 19.金 kaa 29.馬 rpii
10.鼻 cojai 20.命 kab 30.尞 tdibi
11.得 cye 21.这 md 31.南 tnt
12.我 de 22.垂 mhg 32.齒 vmkaku
13.和 do 23.龍 mials 33.女 wr
14.永 ek 24.這 mjd 34.母 wve
15.鱼 fa 25.就 mole 35.
wwawwl
16.魚 fii 26.
nju 36.鳥 yqeii
注组合码和缩略码共108个,都是从基本代码派生而来,有一定的记忆联系。只要掌握了基本代码,就自然能记住组合码和缩略码。
二、标码方法
1.每字都按楷书笔顺进行。
2.标码时优先采用缩略码或组合码,其次是选用笔形码。笔形码中,优先使用笔画多的代码。例如“献”字在编码时首先标出“南”的缩略码“tnt”,余部“犬”中的“”用代表复笔的笔形码“t”表示,“
”和“丶”分别用代表单笔的笔形码“d”和“e”表示,“献”字的字码为“tnttde”。再如“申”字中的“曰”有组合码,即“oe”,因此“申”字在编码时首先标出“oe”,再标余部“丨”,用笔形码“b”表示,但“丨”穿过前序笔形有3个交点,所以还得加上结构码“3”,“申”字的字码为“oeb3”。
3.凡是不用结构码而能编出字码时,则一律不考虑结构码,例如“天”字的字码为atd,而不是mk1。
4.用字母dd作为标点符号的专用标记。
例如逗号,=ddc 句号。=ddo 问号?=ddqe同一个字重叠出现时后者可用“se”表示。
例如等等=fftate se
与已有技术相比,汉字全息编码具有的优点或效果如下
1.编码容量大,足以涵盖〔辞海〕大字典上的全部字形。
2.一个字码只对应一个汉字,无重码。对〔辞海〕大字典中一万六千多个汉字全部编码后得到证实。
3.编译双解,既能见字知码又能见码知字。
4.繁体字、异体字、简体字都能编出各自的代码,各不相同。
5.输入设备简便,既可单独用英文键盘输入也可同时用英文键盘和特殊键盘输入。特殊键盘共108键,其中72键用于组合码(以12键×6按字母表或笔画顺序排列),36键用于缩略码(以12键×3按字母表或笔画顺序排列)。
6.代码对应笔形有直观性或记忆联系。
7.以明显少于笔画数的码位来反映汉字字形的全部信息。字码的码位不长,最少为1位,最多为15位和16位(两者总共不到十个汉字)。一般书报文章每百字的平均码位通常不超过5位,十个最常用字的平均码位为2.1位,一百个高频字的平均码位为3.45位。
权利要求
1、本发明属于汉字信息处理技术,是一种按字形、笔顺用26个字母作为笔形代码的编码系统,其特征在于通过笔形码表明各个汉字的全部笔形,通过结构码反映汉字笔画的结构关系,通过变码反映汉字构件的部位关系,通过组合码固定表示有争议的笔顺,通过缩略码、对称码、同形码等简化编码和缩短码位,从而达到既能见字知码又能见码知字,确保字形不同编出的字码也不同。
2、如权利要求
1所属的一种编码系统,其特征在于字母对应笔形具有直观性或记忆联系。例如x=ㄨ,u=ㄩ,a=一等等。
3、如权利要求
1所属的一种编码系统,其特征在于以个位数作为结构码,用来表示笔画交点或辨别少量容易混淆的字形。
4、如权利要求
1所属的一种编码系统,其特征在于通过变码反映出构件在字中的部位,起到防止重码和加强可读性的作用。
5、如权利要求
1所属的一种编码系统,其特征在于从基本代码派生出组合码,用来固定表示有争议的笔顺或简化编码和缩短码位。
6、如权利要求
1所属的一种编码系统,其特征在于设置了缩略码,缩略码是全码的缩略形式,用来固定表示一些使用频率高或编码较难的字,并起到简化编码、缩短码位的作用。
7、如权利要求
1所属的一种编码系统,其特征在于固定使用一个字母作为对称码,用来表示右部与左部对称或相同的笔形,起到简化编码、缩短码位的作用。
8、如权利要求
1所属的一种编码系统,其特征在于固定使用一个字母作为同形码,用来表示下部与上部相同的笔形,起到简化编码、缩短码位的作用。
9、如权利要求
1所属的一种编码系统,其特征在于固定使用两个字母作为标点符号的专用标记。
10、如权利要求
1所属的一种编码系统,其特征在于既可单独用英文键盘输入也可同时用英文键盘和特殊键盘输入,后者专供输入组合码和缩略码之用。
专利摘要
汉字全息编码是一种按笔顺、笔形用26个字母作为笔形代码的编码系统,其特征在于既能见字知码又能见码知字,以明显少于笔画数的码位来反映汉字字形的全部信息。字母作为代码对应笔形具有直观性或记忆联系。此外,通过结构码(个位数)表示笔画交点或字形的细微差别,通过变码表示构件处于字中的部位,从而确保字形不同字码也不同,排除了重码。字码的码位不长,最少为1位,最多为15位和16位(两者总共不到十个汉字)。一般书报文章每百字的平均码位通常不超过5位。
文档编号G06F3/023GK86102528SQ86102528
公开日1988年4月13日 申请日期1986年10月4日
发明者包祖刚, 沈丹仙, 包祖学 申请人:包祖刚, 包祖学, 沈丹仙导出引文BiBTeX, EndNote, RefMan