专利名称:汉字“笔画分子”型编码输入方法——简称“分子码”又称“米字码”的制作方法
汉字"笔画分子"型编码输入方法——简称"分子码",因与"汉字的米字定律"和米字引导图有关,又称"米字码",属计算机汉字输入技术领域的一种全形码输入法。有关汉字输入技术的背景文件,著作[1]汉字终端技术入门 (周关兴)人民邮电出版社 1992.2[2]计算机常用汉字输入方法 (王盼卿)电子工业出版社 1992.10[3]启宏全息码汉字编码输入系统 (萧启宏)电子工业出版社 1993.3[4]计算机文字处理与信息管理 (吴良占)杭州大学出版社 1990.0[5]通用汉字输入方法及排版系统 (邵平凡)浙大科海公司 1994.2[6]汉字信息处理 (陈增武)贵州人民出版社 1988.5[7]计算机应用基础教程 (周苏) 天津科技出版社 1993.4[8]自然码汉字输入法 (周志农)浙江科技出版社 1993.1[9]表音码汉字输入法 (沈克成)浙江科技出版社 1994.7发明一种易学易用,好记难忘,中外老少,普及适用的"小键盘米字象形键盘编码"的汉字输入方法。以适应面临21世纪前后计算机将普遍进入家庭的需要。计算机这一人类文明的生产工具和生活高质量的标志,现已获全球共识。在进入2000年的十年期间,在高效率办公,高信息传输,存储,高速运算。大范围联网,录取,显示,等方面功效卓著,加上微电子,光纤通信,多媒体的进展,推动了PC486,奔腾PENTIUM PC586,强力POWER PC604,以及95年刚推出的INTEL P6芯片的PC686等多种新的PC机型的大发展,大竞争,大跌价和随之而来的必然的计算机大普及浪潮,计算机将像电话机一样多地进入到家庭。若使用汉字信息处理者的年令范围扩展至[10--70~80岁],则市场前景,社会需求量总在数亿人以上。
"计算机汉字输入方法"一直是汉字文化圈内计算机普及的一个瓶颈。汉字输入编码方法有音码,音形码,和形码这三种类型。国内外历时几十年,方案数百种,迄今仍未解决好,仍处普及的瓶颈态势。前5~10年发明的各种汉字输入方法在解决计算机排版,机关文秘等方面虽功不可灭,但一般中老年人仍望而生畏,年青人除专业者外,多数宁慢试打拼音,也不想强背,难记易忘的各种键盘表。试想人们为解决拼音输入重音字多,方言多,难普及的缺点,已奋斗了三十余年,提出了三百多种详硕方案迄今仍是多数宁慢试打拼音,则足以说明现行汉字输入方法弊端之严重不理想。关键是要解决输入编码的易学,好记,和难忘的这个课题。本发明的目即为克服现有技术之不足,解决计算机普及的这个汉字输入瓶颈。以迎接21世纪信息时代的到来。
对现有技术的评估,作者认为对"汉字输入法"有三个问题亟待取得共识1.汉字编码理论未获重视,多数人埋头发明实践精神感人,然而理论升华,理论定位功亏一篑。现代复杂高科技之理想突破进展,无不是在理论分析指导下取得的。
2.评估鉴定时看重用户操作比赛结果,印象评语。而量化指标项目不足,无先进性定位,用户难辨东西南北。
3.高速盲打成为重要的,甚至成为唯一受重视的指标,形成误导。许多编码方案特设一级,二级,三级"简码",要求操作者"熟练掌握"(背牢)500,1000,2000个"简码"。当年机械打字亦不过背记三千。汉字输入方案须针对新的应用对象需求,其评估方法亦应有新的侧重,这就是要低难度系数(易学好记),宽的人口,年龄,民族,地域范围,输入速度可降为第二,三位。甚至以不影响拟稿即可。作者着意使应用与理论分析挂钩,明确先进性定位的量化指标,并对米字码与已有技术进行评估对比。
现行汉字输入法多侧重於解决"输入速度"和"重码率"两项指标,目标针对专业操作人员。而输入方法之难易,则不在严格定量评估之列,致使普及发展滞缓。而把计算机当作工具的非专业操作者(这类将占八九成之多),对"难度"最为重视,也是电脑进入家庭的障碍,故作者明确提出平均难度系数D这一概念定义D为直观(硬)难度系数Dh及与操作细则,图表记忆方法,取码方法等有关的(软)难度系数Ds的乘积。即D=Dh x Ds (4)硬难度系数Dh可定义为平均每打一个英文字(Word)或汉字的操作复杂程度(操作难度)和所需的记忆量(记忆难度)。键盘大,击键次数多,单键(码元)含义数多,需背需记的编码数多达几百,上千,几千,其难度系数则高,反之则低。难度系数是没有单位的量化指标,但可相对比较。最好的比较对象是英文,它不学自会。以英文为基准的硬难度系数Dh值的大小,一般可以反映某种输入方法的主要难度,尤其是键盘的操作,记忆难度。例如平均每打一个英文字的难度系数(Dh)为Dh=26x(5.2~5.8)=143(每英文字平均为5.2~5.8个字母)公式Dh=A x B x K x N x L (5)K=码符总数(即输入码需动用的总键数,称码元数)N=平均每键的含义数L=平均每字击键数(暂定非等长码为L+1)A=编码体制加权系数 (暂定音码,形码均为1,音形码复体制为1.4)B=码符加权系数 (暂定码符可读为1,有序为1,反之为1.2~1.4)直观难度系数Dh能反映键盘记忆难度,而Ds反映取码难度,操作规则记忆难度等,Dh虽不全面反映难度,却能以数字相互比较主要难度部分,有比较鉴别才能促使朝需要和改进的方向发展,因而颇有参考价值,不同的汉字结构分析所得出的编码方法不同,它的A,B,K,N,L等参数各异。因此Dh值也可作为改进汉字输入方法的计算工具之一。此外汉字不同于英文,除硬难度Dh以外,例如取码规则的多少,即便条文数目相等,其难度差别也大。上手感觉如何,停用是否易忘,这些不好量化的难度,称为软难度系数Ds,Ds值可大面积统计评估得出。硬难度系的实例计算及列表对照。
表1.为国内20余种著名汉字输入法,按Dh公式初步计算的结果。(附注重码重字等性能)
以下对七种实例计算Dh值1.五笔字型王(永明教授)码有成字根103个,键名根25个,特殊根72个(不在国标字符集内),共200个,(王码教材只言基本根130个,引自资料[5]P.4.)交叉识别码3x5=15个,降重码L,容错码U,F,D,共4个,高频字码25个,Z键三功能,共计247个码符含义量。
K=26. L=4(单字码长) N=(200+3x5+7+25)/26=9.5约40%字根难读,加权(1.2).字根有序加权(1.2)B=1.2x1.2=1.44得Dh=26x9.5x4x1.44=1423资料[5]提出训练要求背熟王码一级简码(1键码)25个高频字之外,牢记二级简码(2键码)588个,和熟练掌握三级简码(3键码)2250个。一,二,三级简码的利用率要达到95%以上,通过训练使达到打速为800字/10分以上。然此处Dh值当中尚未计及或尚未反映其背记难度。
2.见字识码法---上海支(秉彝博士)码有码元--26个,常用字元12个,字元标记50个,关系字X,Y,Z,R,H,Q,N,O,8个,高频字26个。
K=26N=(12+50+8+26)/26=3.7 L=4B=1.2x1.2=1.44得Dh=26x3.7x4x1.44=5543.通信拼音字---总参通信部杜(牧平)码有H,CH,SH双声代码V,W,Y三个,汉拼—通拼代码26个,一码双韵7个,声调代码24个,高频字18个,零声母(OB,EL,OX,EX)2x4个,即K=26N=(3+26+7+2x4+24+18)/26=3.3 L=2.5B=1.2得Dh=26x3.3x(2.5+1)x1.2=360。
4.自然码---周志农音码--码元26,代表全拼38音。形码码元30个,代表部首组件168个,字型码4个,笔画码8个(多数是用标点符号当作代码)。
K=30N=(38+168+4+8)/30=7.3 L=2~4A=1.4B=1.2得Dh=30x7.3x(3.5+1)x1.4x1.2=16565.全息码---萧(启宏)码有码元--36个,形码(字元102,部首45,部件30,笔画8,规则键2,共187个,转注字元54个)音码(一级字元329个,二级字元230个)共559个K=36N=(187+54+329+230)/36=22L=2.46A=1.4B=1.2得Dh=36x22x(2.46+1)x1.4x1.2=46506.王安三角---王安电脑三角编码(美)码元--10个,306个基本笔形符号其代码共99个(双位代码01----99),码长6.
k=992N=306/99=3.09L=6(3个双位码)得Dh=99x3x3.09/2=9187.米字码---赏(宝珩高工)码有笔画码7个[(左,右)横,(上,下)竖,撇,捺,],部件码3个[口,勾,交(十X<)](含义共为5个),千位数调控码9个[(月03,扌83,亻23,讠33,土43,氵53,艹63),(木35,火45,钅65)]其中百位调控码2个为[3],[5]K=10N=(7+5+9+2)/10=2.3L=4A=1B=1因笔画分子名称均可读,矢量等间隔有序,代码数字有序。得Dh=10x2.3x4=92.
汉字结构分析繁简差异会影响编码的复杂程度。定义S值为编码组成的成份计有部首,笔画,部件,字根,字元,字型,字义等6~7种。每组份当中又包含若干个意义例字型有上下型,左右型等,合计即称为总含义数M,M即为使用代码的总需方(方案不同M有5~800个之差异),若M值小,必促使加大码长L,才能描述并区别众多的汉字,否则重码太多。而码长L加大引起击键次数增多,输入难度增大,若既要降低码长L而又要重码少,则必须增多码元(码符),这就加大记忆量也使输入难度增大。根据编码基本原理可推出静态重码率Pc与编码参数的关系式Pc=HxN/[QcxSxKL] -(2)Qc=HxM/[PcxSxKL+1]-(3)式中H为汉字(库)总数S编码组成的成分数N平均每码元(码符或每键)所代表的含义数,N=M/KK编码所使用的总码元(码符)数L码长(平均每字击键次数)Qc即为各种汉字编码方法的优值系数,反映既定字库量,既定重码率情况下与编码复杂性成反比的参数,Qc越高越好。以相同的H=6763字代入Pc公式,算得下述三种不同的编码八笔码K1= 8码元 N=2S1=2 L1=6 Pc1=0.026/Qc1(实际L=7~9的非等长码)五笔码K2=25码元 N=10 S2=4 L2=4 Pc2=0.043/Qc2(实际为2,3,4位有限元等长码)米字码K3=10码元 N=2.3 S3=3 L3=4 Pc3=0.54/Qc3如代入其实际静态重码率Pc1=0.04 Pc2=0.08 *Pc3=0.4(6763字)*Pc3′=0.25(3755字)则得Qc1=0.65 Qc2=0.54 Qc3=1.35 Qc3′=1.15注(1)Qc公式只对等长码准确,故Q1,Q2仅为近似值。(2)*Pc为未计及软件降重数据。
以下按照中国中文信息研究汉字编码专业委员会1983年"汉字编码评测试行规则"中所列重要指标进行的计算比较编码效率 E=H(汉字)/[LxLOG2K] -(4)式中H(汉字)为汉字平均每一码元的理论比特数(码元理论信息量)约9.6比特L为平均每一汉字编码所用的码元数,即码长。
k为编码总码元(码符)数由公式算出26英文字母的四码的编码效率Ee=9.6/4xlog226=0.5126英文字母的三码(例音形码)的编码效率 Ee′=9.6/3xlog226=0.6810数字的四位码的编码效率 Ed =9.6/4x10g210=0.72故Ed/Ee=1.4得出四位数字等长编码效率优于四键英文码1.4倍,亦优于三键英文码。键入速度S=60/{[a+b log2K]xL}字/分钟 -(5)式中a,b系数由实测得出。若系数a,b相等则[Sd(数字码)/Se(英文码)]>1数字键入快些。静态重码率 Pc=重码数C/W(字库总数)-(6)式中C=重码字数Z-重码组数n -(7)综合Dh,Qc,Pc,Ed,Sd计算分析结果(1)Qc值越高确实反映了编码越趋简单。
(2)米字码以Dh,Qc值先进性定位均居优(相差.>2~3倍)(3)米字码Pc居中偏低(*数据未计及软件降重效果),软件降重后接近优级。
对编码类型的综合评述音码难度低,上手快是优点。缺点是1.重码,重字过多,难于承受。2.受地域方言障碍多,难于推广。尤其在中老年市场小。但多数青年(非专业人员),凭全拼音功底,宁慢试打拼音,也不学难记的现行汉字输入法,此点正说明汉字输入现状不理想。音形码以复体制降低重码,改进音码。代价需增加记忆,然仍未跳出音码的地域,方言障碍。输入速率可高于形码,Dh值约为音码的5~10倍,因是两种体制的混合产物,故Dh,Ds值相形属最高。然而近几年所推出的音形码发明甚多,除表中所列五种之外还有萧码,华码,四角音形码--等。估计在汉字输入无"难度量化"指标的状况下,参照竞争对象又是Dh值本来就很高了的五笔字型码(王码),则还将有更多的音形码面世。如果是以"通用,普及,高速"为目标,适应计算机进入2~3亿家庭的需要,则发明参照对象应是英文。即Dh值应低于200,使之与英文的Dh值143接近,故就此而论音形码相去尚远。
形码体制花样多,难度差异大,然而创新改进潜力极大,又符合东亚汉字文化圈使用汉字国关于振兴汉字,统一常用汉字,的呼声与要求。形码较能符合计算机进入家庭,低难度系数的要求。形码最有可能追赶英文。表1所列十种形码方案,多数有十年以上历史。所知近年形码发明不多。形码的Dh值大小相差20倍。指标性能亦大有差别。由此反映出形码体制的灵活多样性,改进余地潜力很大,发掘中华文化遗产汉字宝库,试与英文比高低,形码希望极大。本发明"米字码"即是一个在Dh值较低(92)情况下获得中低重码率的成果的例证。成果的取得是基于对现有技术,码特点的剖析认识和某些概念的更新,这些特点是(1)推广最多的在大陆是五笔字型,台湾是仓颉字母。均为形码,决非偶然。说明推广音码或音形码的困难大于形码。
(2)过高的重码率(80~90%)不好应用。四角号码除重字多外(有多达40字),取码规则,附则亦繁,属淘汰之列。
(3)五键五笔画也是重字多,拆字繁。故每字击键不宜过四,否则Dh值虽低亦难应用。
(4)非等长码虽可降低平均击键次数,但多键字易出错,纠错亦难,操作不易规范化,不易被接受。应慎用非等长码。最长为9位的汉字笔形编码法(李码Dh=151)及基本笔画笔顺法(芦码Dh=235),属於这类。
(5)现行形码降低重码,简化取码规则采用的办法明显趋向两个绝端多数过份依赖拘泥于汉字的200个偏旁部首,致使Dh值起点很高(王码Dh=1423)。少数则完全抛开部首不用,备受重码困扰,Dh值虽低亦无用。
(6)此外还有采用36键,45键方案,以扩增码元图降重的方案等,也因复杂不够理想。一种汉字"笔画分子"型编码方法--称"分子码",又称"米字码"属计算机汉字输入技术领域的一种全形码。米字码的定义为一种运用笔画分子的新概念对汉字进行剖析,编码的方法。属全形码类,基本笔画法。米字码可使汉字各种笔画归一化,有序化,象形化排序,以达到方便记忆,简化,优化编码,降低重码等多种目的。它包括A.笔画分子概念,B.汉字的米字定律,C.米字码的三组份, D.十个数字,四位码,20码元的设定,E.小键盘米字象形排序法组成代码,F.千位,百位数部首降重码调控,G."数"参与汉字编码, H.半自动选字法,I.中心线取码法。J.米字码引导图。笔画分子概念指任何汉字的各种笔画均可以看成是由一个以上的具有矢量特征的相同的等腰梯形的笔画分子所组成。要点有二(1)任何汉字的笔画均由一个以上相同的等腰梯形的笔画分子所构成。
(2)等腰梯形的长轴或顶边法线均可赋予矢量标记,故笔画分子在平面空间的角度信息可直接由分子的矢量或其代码表示。
汉字的"米"字定律"米"字形态具有上下辐射左右对称,45度六等分园周的特点。全部汉字的笔画分子矢量可以概括为在平面上互差45度的七个不同矢量,可以用米字的七个端点的笔画分子矢量或矢量代码表示,称为汉字的"米字定律"。它使汉字的剖晰,编码,取码科学化,使笔画代码间的关系准确有序,并建立起平面形象,符合大脑记忆条件,故好记。此外为简化和节省码符,令"点"的代码只占用一个码符,提出上述"概念,定律"的目是在于(a)简化汉字的基本成份将其变为归一化的单元即"笔画分子"。
(b)全部汉字可用此归一化的笔画分子(按平面上总共有七种不同的角度矢量),组合拼成。它提供了形象的,有序的,能与小键盘九键位(自呈米字见图3)良好吻合的笔画代码。
(c)象形好记不仅提供了取码时判读笔画码的依据,而且可加快学,用。米字码的三组份有(a)笔画分子码七个即[A]横右,[B]竖上,[C]横左(含独横),[D]撇,[E]竖下(含独竖),[F]捺,[G]点,(b)部件码三个即[H]口,[I]勾,[J]十,X,<,此三含义均称为"交"码,(c)部首码十个即钅,木,艹,氵,火,土,亻,讠,月,扌,十个数字码符,四位码长和22含义符的设定米字码采用十个数字码符,四位码长是基于记忆操作两便为出发点,降低重码方法是立足于科学设计数码分布概率调控及计算机软件辅降重码等措施完成。数字码符的优点(1)比英文字母好记,好编排,易打,简单。(2)码符直观有序,见字出码反应快。
(3)数字码符自身带有"数"的含义,"数"可参与编码,而能起"数码分布概率"重调作用,从而可降低重码,重字。却又不增加码符记忆量负担。
作者所设计的十码符为0~9十个数字可分别用作笔画分子码,部件码,及部首码共20个码的代码。所选定的十个部首均为汉字的大户部首金,木,水,火,土等,约占汉字50%,并保留其习惯顺序配置,得出按米字端点矢量旋转排序法的代码即
小键盘米字象形排序法的代码含义计算机小键盘的键符共三层,为1,2,3 4,5,67,8,9其排列正好与米字各端点一一对应点[7],撇[1],捺[3],竖[52],横[46]。此即小键盘米字象形。当采用米字象形排序法编取代码之后,不仅使得七个笔画代码好记,而且空间概念一目了然,易记不怕忘,有助于提高输入速度。以下即为小键盘米字象形排序法得出的代码
千位数部首降重码调控四位数字码可提供十个千位数码,按汉字200个部首计算,平均每千位数下必须容纳10个部首,由于各部首拥有字数不均,导致代码分布严重不均重码多,故采取部首调控措施,令钅,木,艹,氵,火,土,亻,讠,月,扌,十个部首不按首笔笔画,而是特定码,称"降重码调控",调控前后的汉字分布情况列於表2。由表看出十个特定代码对大大降低千位数重码的贡献,它使米字码进入实用成为可能。
表2.千位降重码部首变更调控表(小键盘象形米字排序法
注1.部首下含字量均为大约数,例亻部(260字),口部(400字),火部(120字),钅部(210字),竹部(150字,木部(150字),艹部(330字)。
2.*号为部件码。由表2.看出经部首调控后,各千位数下拥有汉字量接近平均值(-15%~+10%),对米字码降低重码发生概率,起巨大作用。
百位数降重调控汉字200个部首分配於十个千位码之内,平均每个百位码要接纳两个部首的汉字。而实际情况汉字超过百字大部首很多,百位拥挤需加调控,方法是(a)一般对部首取首尾两码,当部首后续笔画超过4笔时只取首码。(b)选定百位中出现概率较少的"数码3,5"为特定码,性质类似补足码,紧跟特定部首,但非同尾码,不能单独使用。
表3.米字码部首码表(双码仅用于后续笔画少于5画)*兼作部件代码
"数"参与编码是指任一汉字结构中遇到相同的[口],[点],[交]可以用"数"表示其数目,从而实现数参与编码。实践证明这一方法可以简化多笔画汉字的编码,加快编码速度,又不易出错,并有减少重码的优点。这是由于四位码中,码符均等出现的概率增加的缘故,但过多的"数"参入编码其重码反又会增加,仅在[口],[点],[交]此三码元中"数"参与编码后,"数"的成份即已占1/4,故有限参与是合适的。为此规定双口码为00,双点码为77,相连双交为92,分开为99。通过编码的实例即明A."0"—量0643 首7403 里0443 哩0543 富7405 曲5506 曙0749 矗9012 儡2012B."8"—兑7801 部7302 点5074 空7544 谤3776 总7580 意7680 必7389 黑0476C."9"—表9283 东9981 捕8942 替9400 爽9194 妻9593 建9639 廉7397 慧9778例A.项末尾"矗,儡"两字,各有24画及22画之多,米字码用012表述其成共有"口"12个,再加部首得出编码90122012.一目了然,且无重码。
针对米字码的重码组中平均重字低於2.5个的特点,在多种降重方案当中,以软件辅助简化对重字的"二次选择",是米字码的又一特点,以此等效降重,可不增加记忆负担而Dh降低,称"半自动选字"其办法是在屏幕提示重字栏内设置"自动步进方框选择背景",再按任意键即选入背景框中的汉字。WPS汉字系统广泛采用了选择背景如菜单选择,文件选择,窗口选择等。均为手动步进。自动步进又称"滚动"。选字滚动速率应为1HZ左右。太快易漏选。慢则影响打字速率。在重码的字数较多的拼音码等体制当中,这种滚动选字方法用不上。否则有的字要等选10~20秒。但在米字码平均重码字少<2.5的场合下,半自动选字能起简化,方便作用,等效下降重码约50~70%,即可使静态重码率降Pco<15%以下。此值与五笔字型(王码)的Pco=7.4%相距已不远,已初步符合简单,普及,快速,进入家庭的要求。
米字码中心线取码法的基本规则是"中心线,首尾转"取码。即对任一汉字均可设定画一道以上垂直中心线。与中心线相交的分体部件的首尾笔画即为取码对象。不足四码时再顺时针取码(遇右侧向勾则逆时针取码)。中心线可有1~4条以上,编码只取1,2,3,及末线。
汉字字型可分为[1]单体型(占<12%) [2]左右型(占>60%) [3]上下型(占>20%)[4]内外型,通常单体型和部分内外型设一中心线,其余设多条中心线。中心线越多则每线取码数越少,例四中心线字型,则每线取一码。三中心线必有一线取双码。为规范化起见,特定取码规则[1]一线——单体型首,尾,转,取码。补足码为5,合体型与二线取码相似,[2]二线——A.对等每线各取首尾码(2-2型),B.部首后续多于四笔时,部首仅取首码,(部首在左1-3型,在右3-1型两种)[3]三线——A.自左向右顺序1线取码与中心线相交的部件或笔画为首码(遇突出笔画"点""撇"优先),中线首尾双码,尾线尾码(1-2-1型)B.川字型三线取码1-2-1型(中线取双码),品字型三线取码1-2-1型(2居下左)倒品字型三线取码1-2-1型(2居上右)[4]四线及多线——A.1,2,3,线取首码,末线取尾码。
B.多根叠字取"左上,右下"码对照规则编码示例如下[1]一中心线取码示例日0055 点5074 寺4397 世9344 下4275 永7816 事9894 丹7014 先1843 右9105王4435 中5002 率7999
图1970 犬9173 方7461 重1430 夹9217 兑7807 光5847量0643 羊7492 空7544 面4105 天4913 过9783 子6891 太9713 已6827 元4841宝7443 古9055 春9300 康7948 年1925 小8175 与6458 来9217 甩0488 九9815首7103 客7190 妻9593 罗0311 左9144 求9877 肃9427 上5465 良7083 尾0189(首尾码)(首尾右转) (首尾左转)[2]二中心线取码示例钓2517 仙2354 池5368 枫3569 编9702 搜8159 张6583 聘4508 鹤9264 邮5042林3535 鸡6914 抖8379 优2398 跑0108 铣2184 北2481 泥5081 献9799 数7399(A.对等每线各取首尾2-2型)[B.部首后笔>4,只取首码(1-3型)左部首(3-1型)][3]三中心线取码示例辩7339 瓣7189 猴9239 鸿5444 望7034 擎6198 娶4699 聂4699 花6328 众1133成1688 浙5832 绒9918 假2029 华2389 想3038 丛1134 在9234 崭5932 萍6539粥6738 饿1188 域4048 剥6828 塑7034 蟹1694 契9619 筛1212 窿7264 苑6118谢3117 跳0178 鸿5444 渺5031 堡2034 熟7698 盗7110 蠢9544 藐6188 霹4009[取码1-2-1型(2居中)][取码1-2-1型(2居上右)][取码1-2-1型(2居下左)][4]四中心线取码示例输9108 途1023 鳞1719 城4168 感1488减7148 测5628 倒2428 襟7338 毁1269(1,2,3,线取首码,末线取尾码。)缀9699 桑6693 操8003 缨9619 溜5110 骤6492(多根叠字取"左上,右下"码)用笔画分子的矢量特征(或其代码),可以准确描述任一汉字的笔画构成或编码。然而对用户而言却可用简捷好记的"米字码引导图"来掌握米字码。从而省记"笔画分子","矢量"等概念。引导图使概念走向形象化。"米"(7357图1),"口"(6452图2),"克"(9801),三个字图及其编码,和口字少一笔,少两笔的单元码,可快速学用掌握米字码,即称为米字码引导图。所列编码是按小键盘象形代码序和中心线取码法得出,它也是"米字定律"的三个应用实例。
记住"口"字的4个矢量代码为6452,则可同时记住口字少一笔的四个单元,和口字每角所组成的另四个单元,见图2.此八个单元却是大量汉字所拥有,汉字输入取码时所常遇到,记口字引导图可记一知十。引导图帮助了解笔画"处形"与代码的关系,口字有两横其上横处形似"顶,盖",取码为6,例冒,厂,飞,敢,子,刀,司等字的首笔取码即为6,其下横处形似"槽,底",取码为4,例画,巨,汇,彐,区,凶,函等字的尾笔取码即为4,上竖代码5,处形如"插地",下竖代码2,处形如"悬,挂"。从"上,下"两字,一目了然,口字图可帮助识别众多的处形不同的竖的代码例"山"字的左,右竖,可参照口字左右竖即定出山5452,同理出9455,同6405,止5456.米字码与已有技术相比较的有益效果(附重码特点与指标统计)归纳如下1.前文已从理论计算给出米字码的直观难度系数为已知最低(92),约为王码的1/15.
2.前文已从理论计算给出米字码的编码优值系数为已知最高,约为王码的3倍。
3.米字码的升级版本(FZM3.0),着重于进一步发扬易记,好学,不怕忘优点,发明米字象形键盘排序实现了这一点。图3键盘表已展示出其简单,好记,低的软难度系数有关的许多重要特点。也是具有与现有各种汉字输入法可比性的一个重要方面。发明米字象形键盘排序后,分子码又称"米字码"已更为贴切。
4.米字码的发明使有60年历史的汉字"四位等长数字码"面目更新,重码下降约70%,最多重字下降90%(表1),例对国标一级字库(3755字),FZM3.0版的静态重码率PC<25%,重字组中(2字组74%+3字组)>95%,最多重六字(仅一组)。二级字库(3008字)Pc<28%一级加二级约增10个百分点。(指标统计列于表5.)5.组平均重字<3个这一重要特点,使米字码可采用计算机软件辅助完善法(CAI)发掘潜力---半自动选字法即为其一。可使重码等效再降低50~70%。操作者基本上只用右手,如同写字。米字码用软件完善降重,便利操作。这就明显区别于其它输入法采用增加记忆负担来作为克服重码手段。
6.一般计算机机内汉字库目的在于用字,而非当作字典查字。少数需使用1万~5万汉字的文字工作者,宜专门学习相应的,可能是复杂较难的汉字输入法,而让99%以上的其他行业人员,或任何识汉字的PC机享用者学用一种最简便的输入法是天然合理的。米字码发明的目在于普及计算机进入家庭,因此为提高米字码效率,简洁字库,建议采用"简化国标字库"(表5)。即将实际不用的,与重码有关的,古汉字,祭祠,酒器,衣饰物名,古疾病名,迷信鬼魔,等字从二级国标中删去(约800字),可使米字码约6000字库的重码指标与3755字相当(见表5*),这显然更符合实用,并产生有益效果,而对其他种类输入法则无此效果。
权利要求
1.一种汉字"笔画分子"型编码方法--简称"分子码",又称"米字码"属计算机汉字输入技术领域的一种全形码,它包括A.笔画分子概念 B.汉字的米字定律, C.米字码的三组份,D.十个数字,四位码,22含义符设定,E.小键盘米字象形排序法组成代码,F.中心线取码法,G.千位,百位数部首降重码调控,H."数"参与汉字编码, I.半自动选字法,J.米字码引导图,本发明的特征是所述的笔画分子概念是指任何汉字的各种笔画均可以看成是由一个以上的具有矢量特征的,相同的等腰梯形的笔画分子所组成。
2.根据权利要求1所述的汉字的米字定律,其特征是指全部汉字的笔画分子矢量可以概括为在平面上互差45度的七个不同矢量,可以用米字的七个端点的笔画分子矢量表示[A],[B],[C],[D],[E],[F],[G],
3.根据权利要求1所述的三组份22个含义符,其特征是笔画分子码七个即[A]横右,[B]竖上,[C]横左(含独横),[D]撇,[E]竖下及单竖,[F]捺,[G]点,部件码三个即[H]口,[I]勾,[J]十,X,<,此三含义均称为"交"码,及特定部首码十个即钅,木,艹,氵,火,土,亻,讠,月,扌,
4.根据权利要求1所述的十个数字码符,其特征是0~9十个数字可分别用作笔画分子码,部件码,及特定部首码共20个码的代码,代码的配置可以是按米字端点矢量旋转顺序(简称矢量序)即[A]为2,[B]3,[C]4,[D]5,[E]6,[F]7,[G]8,[H]0,[I]1,[J]9,
5.根据权利要求1所述的十个数字码符,其特征是0~9十个数字可分别用作笔画分子码,部件码,及部首码共20个码的代码,代码的配置可以是按计算机小键盘的米字象形排列顺序配置代码(简称象形序)即[A]为6,[B]5,[C]4,[D]1,[E]2,[F]3,[G]7,[H]0,[I]8,[J]9,
6.根据权利要求1所述的中心线取码法,其特征是基本规则按"中心线,首,尾,转"取码。即对任一汉字均可设定画一道以上的垂直中心线。与线相交的分体部件的首尾笔画即为取码对象。不足四码时再顺时针取码(遇右侧向勾则逆时针取码)。取码中心线可有1~4条,以适应各种字型。
7.根据权利要求1所述的降重码千,百位数部首调控,其特征是令十个部首赋予特定的代码,可以是米字矢量序即钅61,木76,艹27,氵37,火48,土47,亻67,讠77,月07,扌17,
8.根据权利要求1所述的降重码千,百位数部首调控,其特征是令十个部首赋予特定的代码,也可以是小键盘米字象形序钅23,木35,艹63,氵53,火45,土43,亻23,讠33,月03,扌83,
9.根据权利要求1所述的"数"参与汉字编码,其特征是对任一汉字结构中相同的"口","点","交"笔画部件的代码可用数字跟后表示其数目,
10.根据权利要求1所述的半自动选字,其特征是在屏幕提示重字栏内"设置自动步进循环的"方框选择背景",再按任意键选字。
11.根据权利要求1所述的米字码引导图,即指"米","口","克"三个字图及其编码,和口字的少一笔,及少两笔的8个单元码,可有效快速学用掌握米字码。
全文摘要
“米字码”属计算机全形码汉字输入法,采用了小键盘“米字笔画象形排序”法,四位数字码,半自动选字法,单手输入,特点(1)每键记符<2.5个,难度系数Dh为常用码的1/10。(2)米字键盘表,“米、口”字引导图,金木水火土等10部首,易记好用停用无妨,适合于老中青少,方言和PC进入家庭,重码比拼音少70%,最多重字少90%,且90~95%以上只重2字或3字,对国标一,二级字库的静态重码率各<25%,半自动选字法,可用软件等效再辅降重码50~70%。
文档编号G06F3/023GK1133450SQ95104620
公开日1996年10月16日 申请日期1995年4月19日 优先权日1994年4月28日
发明者赏宝珩 申请人:赏宝珩