专利名称:汉字形声码的制作方法
专利说明 汉字形声码是一种形码,应用于中文信息处理。
目前,汉字编码方案已有600种,但成名的,不过十几种。编码按信息特征分,基本上为音码、形码、音形码三类。音码的缺点是①同音字太多,②8000汉字,通常只识得三、四千字。形码的缺点是①要记字根及其编码,②字根分解规则的模糊性常造成误码,並增加了记忆量,③字码合成时总有些特殊的规定,④要准确掌握字形。音形码则兼有两者的优点与缺点。当前的电脑输入还是形码占优势,而王永民的五笔字型码为其典型代表。
作为形码方案主要由四部分组成①字根选择及其编码,②字根分解规则,③识别码设计,④字码合成规则。
字根编码方法有三①区位码,如王码,②象形码,如钱码,③声码,如全息码。显然声码比较优越,容易记忆,反应快。
字根分解方法常见以笔顺为序。它的优点是将平面结构的字形转化为线性结构的笔顺,简单明确。其缺点是将字形分解得较零碎,常不符合文字传统与习惯,因而王码要加个“兼顾直观”的规定。但是“直观”是个模糊概念。王码的五条分解规则各自独立,使人不知道该用那条规则。
识别码的主要功能是抑制重码,王码的末笔、字型交叉识别码是一种很好的识别码。当字根采用按声取码时,对其识别码提出了更高的要求。杜冰蟾的全息码采用末笔画的八种笔型作为识别码,其离散力不足,故未能实现真正的按声编码。
本发明的目的在于全面改进形码的品质,並实现部分的反向识别功能(见码识字),使它成为一种文字码的雏形。
本发明的构思原理与基本结构如下 汉字是一种拼形文字,拼音化道路走不通,能否走拼形道路。汉字现代化就是汉字符号化,符号汉字就是文字码。它与一般编码不同之处就在于要求反向识别;还有,编码过程中、符号转换中,不允许存在文字学以外的指令手段。一旦,统筹研究汉字编码与汉字简化(减少字根,而不是减少笔画),实现2500常用字的双向识别是可能的。那时,一般文字资料中,每100个字有99个可以双向识别,这种编码就可称之为“文字码”。它不取代汉字,但可辅助汉字,它将从专业走向社会。本发明是设计文字码的一次初步尝试。
本编码采用英文字母键盘,4位等长码,(用于汉字检索或全汉字编码也可用5位等长码)。150~200个正体字根按音(声母)编码,另声母字根采用韵母的一个字母,首字母或韵腹字母。声母21个,Ch、Sh、Zh写成C1、
、Z1。取消分隔用声母W、Y,Y改作ü。元音“O”用作功能码。C1、
可占用V、W键,Z与Z合用Z键,这样共26键位。字根读音在下列读音中选择①今音、②古音、③习惯音,④注音符号音,没有现成读音或因避重需要给予拟定读音的,可采用如下方法①形转意法,②仿形声法,③仿音省法,④仿反切法,⑤形似法。凡当今通用的成字字根,一律采用今音。凡有现成读音的尽量在现成读音中选取。(注今音是指现代读音。) 本编码创造一种新的字根分解方法。它与通常的以笔顺为序的动态分解法不同,而是直接分解字形的静态分解法。这种分解法所得的字根比较完整,比较符合于文字传统。如束字王码分解为一、口、小,本编码分解为木、口,符合“说文解字”束从口木的观点。它有一条必循准则与五条顺序运用的优先准则。根据这些严密、确定、统一的准则,任一字形均可得到一个唯一的分解结果。必循准则是“笔顺一致性”准则。这规定分解所得的字根其笔顺必须与整字中的笔顺一致,即字根的笔顺在整字中可以被别的字根间断,但不可颠倒。五条优先准则依次为①最少字根优先,②脱连优先,③最小根值优先,④笔顺连续优先,⑤笔画先分优先。下面给予扼要说明 最少字根优先是为了取得较少的字根,这样字根字形完整,並利于反向识别。
汉字中的笔画群组成字根或部件,说明这些笔画间存在一定的关系。依其关系的紧密程度可分为三类,(1)相关几何学上不相连,而文字学上相连,如八、心,(2)相连笔画接触,(3)相交笔画相交,有交点。脱连优先的含义是笔画间关系较松散的,相关与相连优先脱开,其特征是交点数不减少。
字根是由一个笔画、二个笔画,或多于二笔画组成,用“根值”来表示字根笔画的繁简程度。规定二笔以上的复笔字根其根值为1,一个笔画的单笔字根,若其笔型为“折”时,根值为0·8,其余四种笔型时,根值为0·6。最小根值优先准则规定了在同样字根数,同样是脱连(或折交)的情况下,选取根值较小的一种。
静态分解法规定字根的笔顺在整字中可以被别的字根间断,在先行的优先准则相同的条件下,字根笔顺未被间断的分解结果应该优先。
笔画先分优先准则规定在先行优先准则相同的条件下,可以归属于二字根的中间笔画应归属于前字根。如兰→
、二,
丷、三。(→读成“分解为”或“编码为”,
读成“不分解为”或“不编码为”。) 分解后的字根次序依其首笔画的先后为序。
本编码的字根分解采用二步进行第一步先分解为独立部件这是指该部件与相邻笔画无牵连;所谓牵连是指相邻笔画间可组成新的字根。8000正体汉字共有600个独立部件,其中200多个是单个字根,余下只有300多复字根部件需要分解。只要按照分解准则,掌握这300多部件的分解结果,那应对8000正体汉字的分解便驾轻就熟,反应迅速。
同码(同声母)字根用字形识别码来加以区分。字形的分类用字根的首末笔画的笔型作为特征来确定的。这样,相似的字形既可归于一类,又可避免“相似”的模糊性。笔型分五种,字形分成5×5=25类,可以用2位数表示。末笔为撇的字根很少,可以归为一类,用03表示,定名为“撇”,这样得字形为21类,03之外的20类字形,每类中选出一个字根作为代表,称代字,这个代字的读音(声母)便是该类字形的代码。这样21类字形可由21个字母表示,称为字形识别码,简称识别码。
同码字根(字根码相同)中可选出一、二个较常用的字根,对它们不用字形识别码,而用功能码“O”代替。这些字根便称为零识别码字根,或简称O码字根。
当字根码、识别码结合起来成为字母区位码,用来表示一个字根时,这字根的字形便可确定。这就是实现反向识别功能的途径。
代字法的构思来源于汉字的音韵学传统,用字母(整字)代表音素符号。
字码合成规则如下 单字根字GO
′; 双字根字G1G21
2
1 三字根字G1G2G31
i(i=3或2) 或G1G2G3,
i(i=1) 用一个识别码位去识别三个字根码,本发明首创“扫描识别法”。
i首先识别G1,遇O码字根,转向G3,遇O码,转向G2,又是O码,则
i标为“O”。若在扫描过程中,遇到非O码,则标记首先遇到的非O码字根的字形识别码。
扫描法有利于抑制重码与增强反向识别功能。
四字根字G1G2G3G4 ≥5字根字G1G2Gn-1Gn 当复笔字根数≥5时,单笔字根全部省去。
得Gf1Gf2Gfn-1Gfn。
以上G、
、S′、Gf、O表示字根码、识别码,辅助识别码、复笔字根码、功能码。注脚数字为序号。“′”为区分字根码与识别码的分隔符,它不用输入电脑,仅用于人脑反向识别。
另外,尚有局部的附加规则,以抑制重码,如8000汉字编码初稿中有这样三条附则 (1)以口,木为首字根的双字根字,字型为上下型时,口、木的识别码不用“O”,而用上下字型识别码“K”、K是“卡”的声母。
(2)由2~3个字根组成的字形在整字中重复出现时,后面的可用“U”代替。它模仿简化汉字中,用“又”代替重复字形,如轰、聂。
例器→KKQU, 辨→L
BU。
注U所代表的字根(上例为KK,L
)必须全部入选字码。
(3)四字根字,首字根为M、Y、S、
的≥3笔的非O码字根时,字码不用G1G2G3G4,而用G1G2G4
1(或G1G3G4
1)。
初学者忘记附则时,可用容错码找出该字。
8000汉字编码初稿中单字根字编码是这样规定的 单笔画字,三个 O→LOOO,一→IOOI 乙→IOOE。
M1是读音,M2是空位码,M3是识别码,M4是笔型码。(M表示码位)。
O码字根字GOO
是它的原本的字形识别码; 非O码字根字GO
b3 b3是它的第三笔画的笔型码,若字根笔画数≤3,则用“O”代替。
高频字可采用以一码表示的一级简码,以二码表示的二级简码。一级简码按整字读音取码。
参照字码结构,可编制词码,单字读音声母相当于字根码,首字根相当于识别码。这种词码比较好记,反应快。
功能码“O”出现在不同的码位上有不同的功能。在M1时作为查询码。查询时,字码中不再用识别码,不确定的字根码可用空位码O代替。正码的M4为O时,规定应省去,如森→MMM,而
MMMO。这样“O”在M4可以用作“去重码”。功能码“O”共有①查询②空位③识别④去重⑤反向识别等五种功能。
本编码由于其按音取码的结构可提供一种新的读码、记码方式。如照字分解为“日、刀、口、灬”四个字根,可得编码为“RDKH”,这样有二种读码方式①按字母读音读码,②按字根读音读码。设计者推荐采用第二种方式。这时,读码为“Ri、Dao、Kou、Hou-Zhao”。通过字根的读音,把单字的字形结构与代码紧密地联系起来,这有利于默打。如此还为我们学习、记忆汉字字形提供了一种新的方法一一拼读法。自古以来,记忆汉字字形只有靠看和写二种方法(读是记字音),现在多了一种象拼读英文生字一样的拼读汉字字形的方法。
从上面的介绍可以看出本编码的优越性与独创性。它灵活地应用了文字传统,又注入了数学的逻辑性。它易学好记,反应快,适宜于专职人员的视作(看打),又适宜于非专职人员的默打(想打)。它实现了部分的反向识别,将来有可能演变成文字码。
作为实施例8000正体汉字的编码初稿选用正体字根约160个,连同变体、变形字根共260个,详见附表“字根表”。表中“氵”、“冫”读成流、冻,是形转意法,“攵”、“阝”读成扑、阜,是古音,“宀”、“辶”读成宝、之,是习惯音,“匚”、“卩”读成方、资,是注意符号音;“丂”、“
”读成巧、各,是仿形声法,“
”、“
”读成黑、母,是仿音省法,“
”、“
”读成喷、撇、是仿反切法,“
”、“”读成里、厶、是形似法。只一个字根“才”尚未找到合适的文字学依据。
笔型代码,“撇”用声母“p”,其余“横、竖、点(奈)、折”,用元音“I、U、A、E”。此时I可读成“一”或“提”,也可读“横”。
首字母为A、E、U、Y的韵母即用A、E、U、Y(即
)作代码,首字母为I的韵母用它的韵腹字母作代码,如言(ian)为A,也(ie)为E。
编码初稿在一级字集3755字中,有1839字实现反向识别,占49%。这包括①全部单字根字,②全部双字根字,③三字根字中,扫描识别了2~3个字根的字。一级字集,重码39字,增加二级字集,增加重码150字,增加二级外字集(1058字),增加重码72字,略低于王码。
下附“字根表”。
字根表 (8页)
字根表(续) (9页)
权利要求
1、一种用于信息处理的汉字形声码,其特征在于字根按音取码,采用字根的静态分解法和以首末画笔型为特征的字形识别码,组成字根码在前、识别码在后的四位等长码。
2、根据权利要求1所述的汉字形声码,其特征在于正体字根选取150~200个为宜。
3、根据权利要求1所述的汉字形声码,其特征在于字根按其读音声母取码,零声母字根采用韵母的首字母或韵腹字母。
4、根据权利要求1、3所述的汉字形声码,其特征在于声母为21个,Ch、Sh占用V、W键。Z与Zh合用Z键。取消分隔用声母W、V、Y改作u。元音“O”改作功能码。共占26键位。
5、根据权利要求1所述的汉字形声码,其特征在于字根读音在①今音、②古音、③习惯音、④注音符号音中选择;无现成读音或因避重需要给予拟定读音的可采用如下方法①形转意法,②仿形声法,③仿音省法,④仿反切法,⑤形似法。凡当今通用的成字字根一律采用今音。
6、根据权利要求1所述的汉字形声码,其特征在于字根的静态分解法由一条必循准则与五条顺序运用的优先准则组成。必循准则为笔顺一致性准则,五条优先准则依次为①最少字根优先、②脱连优先、③最小根值优先,④笔顺连续优先,⑤笔画先分优先。
7、根据权利要求6所述的字根静态分解法,其特征在于根值表示字根笔画的繁简程度,规定复笔字根的根值为1,单笔字根,笔型为“折”者,根值为0.8,其余笔型为0.6。脱连优先的特征是笔画间的交点数不减少。
8、根据权利要求1所述的汉字形声码,其特征在于字形识别码由字根的首末画笔型所确定。笔型为5种,得字形为25类。末笔为撇的字形较少,合并为一类,定名为“撇”。代码为P。余下20类各选一字根为代字,取其字根码为代码。称字形识别码。
9、根据权利要求1所述的汉字形声码,其特征在于在同码(同声母)字根中,可选取一二个较常用的字根,规定不用字形识别码,而用功能码“O”代替,这些字根称为“O”码字根。
10、根据权利要求1所述的汉字形声码,其特征在于字码一般为四位等长码,(用于汉字检索或全汉字编码也可用五位等长码),其字码结构如下
单字根字GO
′;
双字根字G1G2′
2
1;
三字根字G1G2G3′
i,i=2或3,
G1G2G3,
i i=1,
对G1、G3、G2顺次扫描识别,标以首先相遇的非O码字根的字形识别码。若G1、G3、G2均为O码,则
i标以“O”。
四字根字G1G2G3G4;
≥5字根字G1G2Gn-1Gn;
当复笔字根数≥5时,单笔字根可略,
得Gf1Gf2Gfn-1Gfn;
以上G、S等符号含义见说明书。
11、根据权利要求1、10所述的汉字形声码,参照字码结构,可编制词码,单字读音声母相当于字根码,首字根代码相当于识别码。
全文摘要
本发明为一种具有部分反向识别功能(见码识字)的汉字形声码。26个字母,4位等长码,字根按音取码。本发明提出了字根的静态分解法和以首末画笔型为特征的字形识别码。本编码易学好记,适用于电脑输入与汉字检索。
文档编号G06F3/023GK1060363SQ91108178
公开日1992年4月15日 申请日期1991年9月16日 优先权日1991年9月16日
发明者嵇政 申请人:嵇政