六码数字甲骨文输入法的制作方法

文档序号:6583463阅读:958来源:国知局

专利名称::六码数字甲骨文输入法的制作方法
技术领域
:本发明涉及一种用于电子计算机的甲骨文输入法。
背景技术
:甲骨文是世界上最古老的几种文字之一,也是唯一延续至今的文字。研究甲骨文对文字学、历史学、考古学、语言学等多门学科以及对书法研究和创作都有非常重要的意义。所以创建一种计算机识别的甲骨文信息处理系统很有必要,但是这方面的研究非常有限,远远落后于现代文字的识别处理技术。现代汉字的信息处理技术已经很成熟,仅输入法就有上百种,而甲骨文和其它古文字还没有简单、易记的电脑输入法。因此,当涉及大量引用古代汉字的书籍在出版时,难以实现办公自动化。例如《甲骨文字典》、《西周甲文注》等书和许多研究古文字的杂志,都是手工书写或部分手工书写后再制版的,手工书写难以做到整齐美观,更影响工作效率。现有的一些甲骨文、金文等古文字的输入法没有利用古文字本身的特点,而是套用了现代汉字的编码模式,如采用拼音或字根拼形的方法。这些方法只适用于"标准化"了的甲骨文、金文,不能表达原始写法的甲骨文、金文,只能用于检索某个现代汉字对应的甲骨文(即正向检索),不能用于看到某个甲骨文文字来检索对应的现代汉字或是否有对应的现代汉字(即逆向检索),而且很多甲骨文文字仅有字形,无法知道其读音及字义,看到一个甲骨字,查它的含义,就困难了,先要估计出它是什么字,再按部首检字法查阅,如果估计不准,就得反复试,再说甲骨文中有大量的字根本没有部首;而采用拼音等输入方法也不能实现全部甲骨文文字的输入。另外,有的编码方法只有四位码,即使能表达所有的甲骨文、金文,重码也会很多。
发明内容本发明的目的是提供一种甲骨文输入法,该方法编码简单,使用方便。为了实现上述目的,本发明采取如下的技术解决方案—种六码数字甲骨文输入法,包括以下步骤(1)依据甲骨文文字的结构正确对照码元定义选定码元的步骤将甲骨文文字的各结构部分分成眼码、睫码、蘖码、枝码、飘码、结构码六位码元,所述六位码元分别与计算机键盘上的数字0-9对应形成数字输入的编码码元序列,所述码元序列的格式为从左到右依次排列的〈眼码>〈睫码>〈蘖码>〈枝码>〈飘码>〈结构码>形式,所述各码元定义如下眼码眼码是眼围成的空白的和数,其中,眼是甲骨文文字中的封闭曲线形成的笔画;规则如下a.肥笔记为眼;b.笔画中的圆点计为眼;c.眼中有眼要分别计算;睫码睫码是睫的和数,其中,睫是甲骨文文字中与眼相连的且不与其它笔画交叉的笔画;规则如下a.当睫笔画经过眼要分别计码;b.眼内之睫笔画计为睫;C.眼间之睫笔画计为睫;蘖码蘖码是蘖枝笔画中交叉点的和数,其中,蘖枝笔画为甲骨文文字中不成眼的交叉笔画;枝码是最少用几笔可以描绘完所述蘖枝笔画的笔画数;飘码飘码是飘的和数,其中,飘是甲骨文文字中不构成眼和蘖枝的飘离笔画;结构码结构码是结构块的和数,其中,结构块是甲骨文文字中互不粘连的块;规则如下a.当独立字的眼中有眼、或有睫、或蘖枝、或飘时,结构码取0;b.眼和它所包含的眼相连接,眼以单条睫连接的,或以点接触的为眼内眼,结构码取O,一个眼被几个眼包围的为相邻眼,结构码取1;c.眼内有眼、睫、蘖枝、飘的笔画且只是一个多构件组合字的一部分时,结构码取l,并和其它结构笔画一起计结构码;所述眼码、睫码、蘖码、枝码、飘码及结构码最高为9,超过9仍记为9;(2)输入步骤根据上述步骤选定码元后,在上述的计算机键盘上有序逐键输入6位数字码元;(3)选择步骤根据屏幕上出现的6位码元对应的甲骨文文字框中列出的甲骨文文字,由数字键选择所需要的甲骨文文字。由以上方案可见,本发明按照甲骨文自身的字型特点进行编码,使用六位数字码,重码率较低,即使是一些复杂甚至不知道字音字义的甲骨文文字,只要根据该甲骨文文字的结构分析选定码元,也能在计算机系统中输入、打印甲骨文文字,实现甲骨古文字办公自动化,更重要的是,为破译甲骨古文字提供方便。图1是本发明输入状态示意图。以下结合附图对本发明的具体实施方式作进一步详细地说明。具体实施例方式本发明的说明中所使用的甲骨文文字取自徐中舒主编、四川辞书出版社出版的《甲骨文字典》,出现的类似(859-1-2)这样的说明文字,表示《甲骨文字典》中第859页第1行第2字。分析甲骨文文字,可看出甲骨文文字由三种结构组成一种是封闭曲线结构,一种是交叉线段结构,一种是飘离曲线或点结构。本发明将封闭曲线规定为眼笔画,与眼相连的不分叉笔画规定为睫笔画,由不成眼的交叉笔画规定为蘖枝笔画,其中,蘖枝笔画中的交叉点的和数为蘖码,最少用几笔可以描绘完蘖枝笔画的笔画数为枝码,由飘离笔画编成飘笔画,由甲骨文文字中的结构块编成结构码,这六种码元从左到右依次排列,构成本发明输入法的编码码元序列。本发明据此编成六位码元,将甲骨文文字的各结构部分通过码元与键5盘上的数字0-9对应起来,形成数字输入的编码码元序列。本发明的数字码元序列的格式如下〈眼码X睫码X蘖码X枝码X飘码X结构码>以下对上述各码元作进一步的详细说明1、眼码甲骨文文字中的封闭曲线构成眼(借用围棋术语命名为"眼"),眼码即为眼笔画围成的空白的和数,以y表示眼码。一个字有几个封闭曲线围成的空白,眼码就是几。例如y(口)y=(自)y=2^(专)y二5"l(卜)y二o(没有眼)注意对于t)(口)字,只有CI是组成眼的笔画。口对于g(自)字,只有0是组成眼的笔画。对于f(專)字,只有$是组成眼的笔画。一种笔画在计码时,必须使用一次,而且只用一次,计过后在其它码中不再计算。眼有多种形态,有规则对称图形,例如,'。。0Eg。s〗by^餘囲、…'、有不规则图形,例如知f、、'、、、还有很复杂的图形,由笔画纠缠、穿插形成,例如^人6Y=9Y=4Y=7Y=9对计算眼码有以下规定(1)、眼码最高为9,眼数超过9,眼码仍记为9(其余各码类此)。例Y=3Y=9Y=9Y=9(2)、肥笔(即对应于甲骨片上的缺损)记为眼:(3)、笔画上的圆点计为眼,例Y=3例係Y=6Y=2(4)、眼中有眼要分别计算,例阁Y=2Y=7Y=5Y=62、睫码睫即甲骨文文字中与眼相连的且不与其它笔画交叉的笔画,睫码为睫的和数,以J表示睫码。眼上有几条睫,睫码就是几。本发明中,将两条线的T形连接或十字形交叉定义为交叉,弯折线不定义为交叉。睫笔画依附于眼笔画而存在,一个字中没有眼就没有睫。在上面介绍眼码时所举例子中的d(口)、^(自)中没有列入眼笔画的那些笔画就是睫笔画。例如肖(自)J:5命(宗)J:3ym)j=2^(卜)j二o对计算睫码有以下规定而L(專)字从眼上延伸的笔画已经分了叉,即有交叉结构,不是睫笔画。(1)J=(2)了=(3)笔画经过眼要分别计码,即使是一笔写成也不能计为l,应计为2。2J=5J=2眼内之睫笔画也计为睫。例32J=2J.眼间之睫笔画也计为睫。例4>J=3J=23、蘖码甲骨文文字中不成眼的交叉笔画为蘖枝笔画,似树枝之分叉,像禾穗之分蘖。交叉笔画的交叉点数为蘖码,以N表示蘖码。4、枝码最少用几笔可以描绘完蘖枝笔画(不得重描,笔画先后顺序不限)的笔画数就是枝码,以Z表示枝码。示例如A(冉)N二2Z=3^(宋)N=3t)]^(桑)N二7Z=8y(Q)N=0Z=0特别的,在T形交叉或X形交叉形成的蘖枝笔画中,蘖码和枝码可用以下公式表Z=5Z=N+蘖枝团块数蘖枝团块数就是含有蘖枝笔画且被空白或眼分隔开的块数,例如,上述"冉"字,团块数为l,"宋"字,团块数为2。又g(麓)字,团块数为4,N=6Z=N+410》—'十作文文字'0118]0119:0120:0121:0122:0123]〈飘码0124:0125:0126:0127:0128:0129:0130:0131'g)(炯)G=0J]](祸)G=0《(?)G=0(2)、眼和它所包含的眼相连接,以单条睫连接的,或以点接触的为眼内眼,G=0,G=0G=1G=1这种情况下判断结构码是1还是0的标准,是看这个眼是被一个眼包围,还是被几(3)、眼内有眼、睫、蘖枝、飘的笔画,且只是一个组合字的一部分时,G=l,并和其例齒'■■翁是独立字G=0是组合字的一部分G=3按照上述码元规定,将六位数字码按顺序组合起来,就可以完整地输入一个甲骨十(人)001201(j(口)120001(桑)247803M(麓)206903@(炯)220000以下通过具体的实施例对本发明作说明例如,如要输入f字,。首先根据该甲骨文文字的结构对照码元说明选取〈眼码x睫码x蘖码x枝码>〈结构码>各码元;(喜)字,分析其结构中封闭曲线形成的空白有3,眼码为3;与眼相连且不分叉的睫笔画为4,睫码为4;不成眼的蘖枝笔画的交叉点数有2,蘖码为2;枝码是最少用几笔可以描绘完蘖枝笔画的数目,枝码为3;飘离笔画为l,飘码为1;互不粘连的结构块数有3,结构码为3;根据上述步骤确定码元后,在计算机键盘上有序逐键输入342313;屏幕上出现有2个甲骨文文字的选择框(图l),输入代表所需要的甲骨文文字的数字l,得到f(喜),完成输入。甲骨文像现代汉字一样,也有常用字,例如用干支表示的日期,贞人,先祖名字,方国名字、卜问天气、农事、吉凶祸福、疾病、生育、卜问战争胜负等,特别是名目繁多的祭祀等词汇,大量出现。对常用字和写法清晰的字,用上述编码可以很容易地实现输入。以下以完整的卜辞为例说明例一《T河>j4$亍沮六⑨一f(甲八0六,《甲骨文字典》1538-15)乙亥贞又杓岁于祖乙大牢一牛。输入数码依次为000011002301520001001201001212002301002301320012002301002312000011002301。例二"f卄^"Y《M(京四四〇九,《甲骨文字典》1541-16)辛卯贞从狩丙涉输入数码依次为121201240002520001002402204602220001260013。例三工J1^與S罕拜$X攀(丙三〇二,《甲骨文字典》1544-6)壬寅卜愨贞曰子商?癸敦输入数码为002301121201001201323502500001120012101201462401430001005601322302。此外,由于甲骨文中有很多结构复杂的字,而且刻写时笔划很随意,再加上甲骨文是出土甲骨片上的字,出土的实物上字迹模糊、缺损是很常见的事情,这些字迹模糊且写法复杂的字及残缺字,给计算机输入带来了难题。下面以甲骨文中有字根字、写法复杂的字,局部残缺字、部分模糊字作为特别示例,对码元的选取进行说明。对上述情况,除了可以按照前述方法编码外,还可以结合以下方法更方便、准确地编码1)、字根标准化甲骨文虽然没有印刷体,对每个甲骨文字也不可能制定一个标准写法,但是甲骨文中有字根,对字根制定一个标准写法是可以实现的,而且标准字根数量有限,与金文、小篆、乃至现代汉字都有联系,使用时记住字根没有多大困难,对有字根的甲骨文编码时(尤其是对复杂的字),可以结合标准字根及上述码元说明,对这些字进行编码。甲骨文是比较成熟的文字,很多字都有字根,但同一个字或字根写法多样,即有很多异体字,写法不一样,编码也不一样,由它组合成的字就会有多个编码,不利于准确地使用。例木字,写法为:f时,编码是0023oi;写法为;(r,编码为003401;写法为^时,编码为00M01等,至少可编出四五个不同的码;而由木字组合成的字《个(榆),小、小字旁也有不同的写法,那么榆字就至少要编8个以上的码,这会造成重复率太高,遇到甲骨片字迹很不清楚时,甚至没法编码,而将字根标准化,只要能看出字中含有什么字根,按这个字根的标准化写法编码,编码就快捷、准确得多了。选取标准字根时可选最常出现的写法作为标准字根,其他各标准字根的选取原则同此。甲骨文标准字根、字形表附后,表中共选取了179个标准字根和标准字形,包括这些字的异体写法,共有265个(包括重复的字如虫(它)、才(在)、月(夕)、隹(惟)、且(祖)、帚(妇)、其(箕)、山(火)等共10个字,18个异体写法)。附后的甲骨文标准字根表说明如下第一列是字根所对应的现代汉字的发音,对应的只是现代汉字字头的,以字头第一字标音。如表示虎字头的,标音为hu。本表以拼音字母的顺序排列。字根拼音放在第一列是为了便于利用音序查寻。第二列字根编码,有的字根只有一个码,有的字根写法多,有几个码。第三列甲骨文标准字根或标准字形。第四列标准字根(字形)对应的现代汉字,其对应关系复杂,只选取一个具有代表性的现代汉字,如^,对应的现代汉字有左、右、又、寸等,这里只取又。第五列标准字根所规范的其它几种异体写法,外观上与标准字根相近,但编码不同,合成字中遇到这些异体写法,要规范成标准字根。第六列列举标准字根(字形)组合成的字例,只列个别字示范。使用标准字根编码的举例《甲骨文字典》905-8々^字,字义未破解。可看出该字由四部分组成人、又、用、山(或者类似山字,按山字编码),都是标准字根里的字,只有"用"字与标准字根不同,规范化为粥,该字写成t^'编码492404,实现输入。选取字根的原则①一个字根有多种异体写法,选《甲骨文字典》中出现最多的写法作为标准字根,例如;l:(木),Y(在)、"(丙)、恭(女)、§(臣)等,是各种异体写法中最多的写法。②如果各种异体写法中没有一种有优势,就选码位中字数最少的写法,例如,(鸟),编码391200,在这个码位下只有鸟字一个字,有利于降低重复率。③在标准化字根表中,有些标准字根只取一种写法,例如:(:木、豕女、0行、又4矢々隹、^自、§礼》卩、A爯、A且、n丙々臣、P辰、《启、l妇、奮鱼、i人、戶户、^止、M网、,册、「厂、卞在、w箕、:x五、1^(片)、t羊、卞牛等。这些写法即使完全代替其他异体写法也不会引起误认。有些字有几种写法,例如贝、高、庚、角、鬲、幸、酉、雨、衷等字(见字根表)。这些异体写法差异很大,用一种写法代替其他异体写法写出的甲骨文字和原字也就差异很大,就不是原来的甲骨文了。虽然原则上也可以只用一个写法(这样做,使用时好记),但是重码率太高,打出一个码后,列出大量的同码字,就会很不方便,而且会有大量字的字形和编码不一致,使用起来也不方便。二者相权衡,选择了这些字的字根给定几种写法例如凶Aa(山);^巾(雨)。④选取编码中睫码或蘖枝码为0或9的字,这样在计算组合字的码时省去了计算的麻烦。如^(鱼)900Q01、《(鸟)391200、^(风、凤)239901、^(鸡)329901等字;⑤如果字典中的现有字根(字形)不能满足需要时,则对现有字根作适当的修改,使得形象好记忆,如马、鹿、麋、象、虎等表示兽类的标准字形,在字的象形躯干部有眼时,都不取蘖枝;在虎、麋、兕、兽类动物躯干没有眼时,表示躯干的蘖枝都是蘖4枝5,鹿字编码是306901,而仅躯干部分的蘖枝也是蘖4、枝5,熟字编码是004501,也是蘖4枝5,各个象形动物的字根,编码规律一致,便于记忆;⑥有些字选取了和小篆、金文、现代字相类似的字根,例如^(木)、!f,(水)、[(匚)、巾(巾)、3(爿)、夂(文)等字,类同小篆;奪(京)、g(贝)等字,等同金文(车)像现代汉字平卧,今(来)类似现代汉字,这样规定有利于记忆;此外,虽然很多字根与小篆体有联系,但也有大量的字根是甲骨文特有的,因为从甲骨文形成到小篆形成已有一千多年时间,字形有了很大变化,一些列入《说文解字》部首中的字,在甲骨文中并不从这个部首(或字根),例如^杓,小篆从示,甲骨文不从示,是杓字的原始写法,从示的杓字从金文开始出现;阱,小篆从阜从井,是形声字,甲骨文^(460012),是会意字,既不从阜,也无井作为声符,类似的例子很多;还有一些甲骨文的字根,在小篆中是没有的,例如冉(命名为爯,其实只是爯A字的下半部分,但又不是冉),小篆中没有列为部首,但在甲骨文中有十几个字含有这个字根,因此按甲骨文的自身特点列入字根表,另外,一些字根没有选入标准字根,例如)^(卄),因有爿作字根就可以输入了,所以不取,再如一鬯字也是甲骨文的一个字根,但组成的组合字少,也未取。对标准字根使用的规定1、标准字根只是在输入组合字时,代替其他各种异体写法,单独使用时,不代替其他异体写法。例如《木,在:j:个榆字中,代替了》*》等写法,但单独用木字时,各个木字要按前述规定编码。2、用标准字根代替异体写法输入甲骨文时,输入的还是文字的原形写法,这样可能出现编码和字形不一致的情况,这是允许的。例如》f,按原始字形编码应是582403,按标准编码应是592303,输入时显示的还是原始写法^fr。仅从这个例子看,使用标准字根看起来像是多此一举,实际上,甲骨片上的字很可能是不清晰的,用标准字根才能较好地实现输入。字库中对一个组合成的甲骨文字,既按它的原始写法进行编码,也使用标准字根(或标准化字形)编码,让使用者无论选取哪一种办法都可以实现输入。[OWO]2)字形标准化甲骨文中有一些字,例如车、鹿、鸡、凤等,结构特别复杂,商代占卜人刻写时,本来用刀的随意性很大,再经过三千多年地下掩埋,笔画就更不清楚,如果在输入时,还要拿上放大镜找它有几个眼、几条睫,几个蘖枝,那无异于缘木求鱼。但这些字有一个显著的的特点_高度象形化,虽然字迹模糊,仍可以辨认出是什么字,可以给它规定一个标准字形来代替它的各种异体字,实际运用中,只要认出这些字,就按标准字形编码,输入后,显示出多个异体字,从中选择需要的字即可。标准字形和标准字根一样,也在合成字中代替其他异体写法,不同的是,在作为独立字使用时,标准字根不能代替其他异体字的各种写法,而标准字形可代替异体字的各种写法。标准字形共18个,它们是要、页、凤(风)、鸟、鸡、龟、鼍、秋、鱼、虫(它)、车、虎、兕、马、象、鹿、麋和表示其它兽类的标准字形(命名为兽类),包括各种异体写法共28个。下面分组举例说明标准字形的编码办法12A、夔与页现代字中夔与页明显不同,但在甲骨文中却很像,要字在《甲骨文字典》的622页,页字在991页,标准字根表中夔与页采取同样的字形g,编码为342400,见到类似猴形的字,输入这一字形码即可。这个标准字形有合成字沫字和伐字(992页)。「,"』f沫,编码484703(相当于j《)fr伐,编码482402(相当于^|<)B、鸡、鸟、凤(风)的标准字形这三个字都是鸟形象形字,但区别也是明显的,鸡字(394页)除标准字形列出的外,其他的都含有_|字,见《甲骨文字典》395页,鸡字的标准字形"^,编码329901。鸡字没有合成字。风(1429页)与凤(427页)通假,特点是头上有辛字头,或在辛字头上再加三条睫,例l,或者带凡,例l^(,可以和鸡字区分。据此规定凤(风)字的标准字形为J编码239901。CD凤字的合成字有;J',编码239924。鸟形字没有辛字头,与凤字好区别,而和鸡字的主要区别是表示身体、尾巴的蘖枝笔画少,不含g字,标准字形^,编码391200,可输入426页后所有15个鸟字。类似鸟字的象形字很多,遇到一个鸟形字,到底是鸟字、燕字还是其他字就不好分辨,规定为都使用391200这个标准字形,以方便输入。如果合成字结构简单,直接编码更方便,则不需用标准字形。合成字例,集(426-4):393502。C、龟、鼍、秋字的标准化这三个字都是象形字,比较像,也很复杂。它们的区别是秋字^头上有睫,龟字4|没有,鼍字^^头部的睫上还有眼。据此规定不同的标准字形龟字(1434页)甲骨文中有正面形象的龟字,也有侧面形象的龟字,我们选用902401作侧面形龟字的标准字形,用^504801作为正面形龟字的标准字形。这两个标准字形的眼码不一样,原因是还有一个黽字(1441-4)*和正面形龟字的字形相差不多,在实物中发现这样的字时,就分不清是黽还是龟字,可以选取同一个码,以避免选择的麻烦。1合成字例,^(1438-13),从侧形龟、从皿、从匕,标准码943603c13合成字众j^(I437-3),从正面形龟,从^,编码50690^秋字(1435页)标准字形八,从又,编码933624。鼍字(1441页)标准字形1D、鱼字的标准字形鱼(1255页)象形,标准字形,编码932401。合成字^^j(1441-1-2),从秋,从,编码942401。没有合成字',编码900001。组合字,(,货渔,900056。E、虫字的标准字形虫字(1430页)单独的虫字,有的写法很简单J1、j,不需要用标准字形代表,只列入标准字根,另一些虫字复杂,虫字的标准字形用于代表复杂写法的虫字和字中含有虫形图形的字。标准字形t取自《甲骨文字典》1430-5,编码910001。合成字例(593-1),上部取三眼高字的标准字根,下部取虫字的标准字形,编码960002。F、车字的标准化取现代车字的横写,作为标准化车字,代表各种写法的车字。^标准码402401。G、虎、兕、马、象的标准化兕(1061页)犀牛象形,标准字形^编码704501。甲骨文中兕的写法多样,这个标准字形输入1061页所有兕字。象(1065页)、象形字,以其长鼻为主要特点。标准字形,编码360001。马(1067页)马字以背部有睫笔画(鬃毛)为主要特点。有的身体的躯干有眼,有的躯干无眼(头部都有眼,只区分躯干是否有眼),要分别编码。躯干有眼,,编码470001,输入1067页所有IO个有眼的马字。合成字例-《(1077-10-2)从马、从匕,利用二字的标准字形编码471202(相当于^,字)。躯干无眼,编码304501,输入1067-6、1067-7的两个躯干无眼的马字和其他地方出现的躯干无眼的马字。合成字例^f,(1073-13),从,马,从太立,从》犬,编码429903。虎(527页)以头部形状为主要特点,躯干有眼的标准字形,编码960001合成字例(529-2),从戈、从虎,编码962302。14躯干无眼的标准字形^,编码224501。合成字例H(532-8-5)从虎、从木、从女,编码457903H、表示鹿类动物字的标准化在甲骨文中鹿字好分辨,以其角作为主要标志。躯干有眼时"^,编码442401,躯干无眼时"^,编码306901。麋字以头上有三条睫为主要特点。躯干有眼时$,编码470001,躯干无眼时$,编码334501。1、表示其他动物的字这一类字花样繁多,最不好分辨,一律列入"兽类"标准字形。字形取自原有的麇字,扩展使用范围,代表其他兽类字。躯干有眼、头有耳的编码460001。躯干有眼、头无耳的,编码440001。躯干无眼、头有耳的&编码324501。躯体无眼、头无耳的^:编码304501。合成字例1(1093-5)从口、从不知名之兽,按(兽类)字形编码(躯体有眼、头无耳)560002。合成字例2:^g、(1076-6),从鱼(900001);从不知名动物,以躯干有眼、头无耳兽类处理(440001)。合成字编码940002。这个字是一个写法不清晰的字,又不知道字义和读音,模仿现代汉字的输入法很难编码,用标准字形法很好地解决了输入难题。标准字形法和现代汉字的拼音输入法的原理是一样的,看起来,这18个标准字形统—也可以用拼音输入来代替编码输入,但这样会带来两个问题,一是破坏了数字编码的g性,二是用在合成字时,拼音无法和其它构件联合编码。甲骨文中还有不是标准字根、标准字形的部分,也有可能笔画不清,可以用以下办法解决3)、文字对称化。甲骨文中有大量的字呈上下或左右对称。甲骨文中的对称,有多种形态,如中心对称形O0;轴对称形口p^X^离共轭对称形§g《#;相似相等对称形^;破缺对称,;局部对称形等。局部对称》熟字的两只手臂对称。Hf:三结构部分都是轴对称字。||]:左下部分对称。||^:左半部上下两部分分别是对称字。甲骨文的对称增加了文字的美感,利用这一特点,可以对甲骨字进行规范,使缺损的笔画得以修补,更好地确认甲骨文文字的码元。例一g,对称成》g592303例二卞^i一442404例三德一翁69纖佳59諷-畫「772324、^例四|f|r-《k772324、罢^792324c例五(857-7-1),这是一个结构很杂乱的字,应用对称法可以进行编码先。对上部作左右对称处理,得到眼为l,睫为2;再对下部作对称处理,使之与上部对称,上下两部的眼为2,睫为4;再对中间作处理,中间笔画可看出其中不含蘖枝和飘笔画,它的眼码大于9,睫可能有0、1、2、3、4、5......,合起来,编码有6种940003,950003,960003,970003,980003,990003。使用者按编码原则随便编出上述哪一个码,都可以输入这个字。4)、结构块分离法。甲骨字是刻出来的字,在刻字过程中,有些笔画可能走形,造成结构块之间的粘连,因此,首先将不合理的粘连分开再编码,上节例四也是用了结构块分离法。再例如例一^lj、(204-1-1)分离成K,《甲骨文字典》词条下的字,是按原样描写的,这个字的上部Y与,"册"连在了一起,要分开,再将册字标准化,编码结果是591225。例二|||;(1341-11)分成四个结构块,女字标准化,)|《,编码473604。例三(1490-6)内部结构块粘连,分离,^字对称化处理,J_,编码56()()()()。例四J發(1516-6),分离成匿^.,编码642404。例五f(523-5)对称、分离成f226903或f227903。有些字是刻写者故意将结构块连在一起的,以表示某种会意,但我们在输入时,可能以为是不合理粘连。为防止因理解不同造成失误,我们将结构块分开,并将两种字形都列入字库,无论怎样编码,都可以实现输入。例六《f(531-11)——《浮,编码244502。例七||(1161_12),分离出标准字根"在"字1|6935。4。例八愚(893-5-2)分离出"戌,,并标准化464702。16分离的原则是除特别规定外,凡是组合字中的标准字根、标准字形,或者含有虽未列入字根但也是独立字的甲骨字,都要与其它部分分开。见以上各例。有些特殊情况字根(或字)与其它笔画不分离A:字根表示动物或人身体的一部分,并且与人或动物相连,则不予分离。如表示头饰的T"(辛),-虎字头等。例九fc^耳字字根不与人分离。B:根据字义、结构的要求,无法分离的,不分离。例十f^,按字形会意,Y与)j不应分离。例十一》按字形会意,《与1j不应分离。例十二J^(彘)会意矢射入豕身,不应分离。这些字中有些字不认识,但会意的意思却通过字形可以看出。5)、码值从多法。有些字形模糊不清,分辨不出是几个眼,或几个蘖枝,或几个飘离笔画,就采取数值大的进行编码。这里数值大小的比较,是在同一码位下的比较,而不是不同码位间的比较,即眼的多与少分不清时,取眼多的;睫的多与少分不清时,取睫多的等等。例一(尹)取^260001作标准。合成字霎|。例二疗(兔)眼不清,取3,蘖似二,又似三,取3。编码343501。例三$(桑)247801与248901皆入字库,从蘖多的248901不可忽略。要注意的是,使用码值从多的原则不能背离前面码元说明的规则。6)、一字多码法。在上述各法的例字中,已经讲到了多码法,即对某字的可能的写法都在字库中,打出任何一个码,都可以输入这个字。一字多码法的规定为,对于合成字中的字根,只使用标准字根编码,不对异体写法编码。如果出现符合标准字形的字,只按标准字形编码。例一胡原字编码006701,对称处理頃编码161200。使用者另一种可能的理解辯.编码:180000。例二飞,分离、对称处理&152402,对称处理后的第二种写法114802。—字多码的问题是,一个字占用了多个数码资源,一字多码带来了一码多字,使用时可能会不方便。但实际上,这个问题并不严重。在各码位的低数值区,重码多,例如001201,002301,003502,101201等。主要是不同的字编码相同造成的,一字多码主要发生在写法复杂的字上,占用的多是各码位的高数值区,这些区域重码率很低,甚至有很多空档,对称法的例四、五,都在眼码的高数值区,它们的编码772324、792324、940003、950003、970003只有一个码,960003,990003是三个重码,980003是两个重码。本发明输入法的字库是采用Unicode编码的WindowsTrueType格式甲骨文文字库,甲骨文文字在字库中的编码使用Unicode为造字保留的码位。造字区编码是从0xE000开始,到0xF8FF结束。甲骨文输入法的码表主要包括两个部分表头和编码字典。码表的表头部分用于存储关于输入法和码表的描述信息,例如输入法的名字,最大编码长度,编码字典偏移量,编码字典的大小等等;码表的编码字典部分用于存储甲骨文输入法编码和对应的甲骨文文字在字库中的位置。由于甲骨文文字相对固定,所以编码字典采用甲骨文文字与编码一一对应的方法编制。从编码字典在码表中的偏移位置开始,每12个字节用来存储编码字典的一项,每项的前6个字节以ASCI1码方式存储甲骨文输入法的六位编码。例如000011,在编码字典中是0x30,0x30,0x30,0x30,0x31,0x31。六个字节之后是全零的两个字节作为间隔,之后是两个字节存储甲骨文文字符在字库中的位置,例如AA,A1等等。最后是全零的两个字节作为一项的结束。编码相同的项在编码字典中连续存储。码表是实现输入法不可缺少的数据文件,它规定了甲骨文的编码与字库中甲骨文文字的对应关系,文字的输入实际上就是使用文字的编码对码表文件进行动态检索的过程。采用甲骨文文字与数字编码一一对应的方法,无论是一码多字还是一字多码,输入法软件都能够通过查询码表得到与六位编码对应的甲骨文文字。本发明的甲骨文输入法编码方法类似于四角号码检字法的编码,即都是按字形特点编码,但又不同,四角号码检字法是按照现代汉字是方块字的特点编的码,甲骨文不是方块字,要按甲骨文自身的结构特点编码。在实现输入时,不需要另外设置键盘,只用电脑现有键盘即可,使用的只是数字键,如1、2、3、4、5、6、7、8、9、0,每打出一组六位数字,就输入一个甲骨文文字。但值得注意的是,本发明中提到的字根标准化只是为了计码准确、方便而设定,和现代汉字的五笔字型输入法不同,标准字根并不需要固定在键盘上,和键盘没有关系。本发明按照甲骨文自身的字型特点进行编码,使用六位数字码,重码率较低。根据Windows操作系统提供的I匪-ME结构,设计开发了输入法。实现了在计算机系统中输入、打印甲骨文文字。编码的原理也适用于金文。使用本发明完成甲骨文、金文字库后,可以实现古文字办公自动化。更重要的是,为破译古文字提供方便。甲骨文标准字根/字形表<table>tableseeoriginaldocumentpage19</column></row><table>Chen340001网辰巧ACheng340001爯A軒ft作森说Chi00002214卜Chong910001蟲(它)裕------_齒110001蟲OO函蟲(它)Da002301穴大Dan630001单^毕华转Dao001201々刀Di224501帝审平孕Dong402401荣東条《多,Dou240001豆340001宜豆旦Dui200001《它《《《E121201步A卢Er140001^<耳002312發Fan140001凡,、Fang004501》方亨,Faxig翻OlE匚SI000011u匚Feng239901鳳(風)逸K——-Fu460001洋弗審Fu401201亩甫南龟Fu003401婦(帚)掛Fu320001,阜G加140001高240001禽咼340001咼萬禽260002高同上,360002魯咼同上营20<table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>121201欠5狄Qie320001且且自&丑Qiu932401条秋氣泰j〖------凝Qiu200001丘UJL(Quan131201《犬n,伐003401》犬才树Ren001201々人Ri100010曰曰100001o曰Rou120001肉aRu000011A入人Shan330001必山必AfcsJtil^"M130001山山"*t^l、001201山歪Shen002301》中夕申Sheng002301土生Shi001234示TT^Tff命001201T示T装Shi121201》矢艰淋Shi131201》豕审(Shou)440001(獸類)(体有眼,头无耳),*,r......實460001(獸類)(体剤艮,头有耳)^^^-…'-《304501(獸類)(体无眼,头无耳)*------324501(獣顯(体无眼,头有耳)^A—Shu102301》殳、U賴002301殳、K秀、Shu202401争束.条圣彔Shui000055((「水/,/'7/,'/,///,,'3000011f水印Si704501兕^,唇Q-…-Si110001巳24Sui130001々夂(止)萝Ta910001它(蟲)1100011它t《001201它Tian122301冬天終102301天晨Tian400001田田能敏Tu120001土i厶,001201丄土,Tun111201、屯、糾Tuo942401鼍^—…Wan412401萬Wang122301王宏3Wang002301:)亡Wang740001N網Wei122301&惟"4《mWei1000010□Wei003401主未《t孰Wen150001夂文欠吝Wo132301我-W《遵002301我好煞Wu122301戊003401《戊《Wu240001工五210001午脉220001午他/"、11440001工Xi430001頃西虔Xi120010.》夕CI120001》夕Xiang320001舍富舍舍色含甚食25<table>tableseeoriginaldocumentpage26</column></row><table><table>tableseeoriginaldocumentpage27</column></row><table>权利要求一种六码数字甲骨文输入法,其特征在于,包括以下步骤(1)依据甲骨文文字的结构正确对照码元定义选定码元的步骤将甲骨文文字的各结构部分分成眼码、睫码、蘖码、枝码、飘码、结构码六位码元,所述六位码元分别与计算机键盘上的数字0-9对应形成数字输入的编码码元序列,所述码元序列的格式为从左到右依次排列的<眼码><睫码><蘖码><枝码><飘码><结构码>形式,所述各码元定义如下眼码眼码是眼围成的空白的和数,其中,眼是甲骨文文字中的封闭曲线形成的笔画;规则如下a.肥笔记为眼;b.笔画中的圆点计为眼;c.眼中有眼要分别计算;睫码睫码是睫的和数,其中,睫是甲骨文文字中与眼相连的且不与其它笔画交叉的笔画;规则如下a.当睫笔画经过眼要分别计码;b.眼内之睫笔画计为睫;c.眼间之睫笔画计为睫;蘖码蘖码是蘖枝笔画中交叉点的和数,其中,蘖枝笔画为甲骨文文字中不成眼的交叉笔画;枝码是最少用几笔可以描绘完所述蘖枝笔画的笔画数;飘码飘码是飘的和数,其中,飘是甲骨文文字中不构成眼和蘖枝的飘离笔画;结构码结构码是结构块的和数,其中,结构块是甲骨文文字中互不粘连的块;规则如下a.当独立字的眼中有眼、或有睫、或蘖枝、或飘时,结构码取0;b.眼和它所包含的眼相连接,眼以单条睫连接的,或以点接触的为眼内眼,结构码取0,一个眼被几个眼包围的为相邻眼,结构码取1;c.眼内有眼、睫、蘖枝、飘的笔画且只是一个多构件组合字的一部分时,结构码取1,并和其它结构笔画一起计结构码;所述眼码、睫码、蘖码、枝码、飘码及结构码最高为9,超过9仍记为9;(2)输入步骤根据上述步骤选定码元后,在上述的计算机键盘上有序逐键输入6位数字码元;(3)选择步骤根据屏幕上出现的6位码元对应的甲骨文文字框中列出的甲骨文文字,由数字键选择所需要的甲骨文文字。2.根据权利要求1所述的六码数字甲骨文输入法,其特征在于在由T形交叉或X形交叉形成的蘖枝笔画中,所述蘖码和枝码可用以下公式表示枝码=蘖码+蘖枝团块数;规则如下a.蘖枝团块数是蘖枝团块的和数,其中,蘖枝团块就是含有蘖枝笔画且被空白或眼分隔开的块;b.经过眼的蘖枝笔画为两个蘖枝团块,蘖码和枝码要分别计算;c.经过眼上的笔画,若从眼上一点向眼的同一侧延伸出三条线为蘖枝笔画,若从眼上一点向眼的同一侧延伸出两条线则为睫。3.根据权利要求1所述的六码数字甲骨文输入法,其特征在于对于三条笔画或四条笔画交叉于一点形成的蘖枝笔画,枝码为直接数出来的笔画数。4.根据权利要求1所述的六码数字甲骨文输入法,其特征在于所述飘离笔画与眼相碰时,形成睫或新的眼,按如下规则编码按字形分析,与其它对称的飘笔画对比,对称的为飘笔画时,则计为飘或按形成新的眼计。5.根据权利要求1所述的六码数字甲骨文输入法,其特征在于对于模糊或缺笔画的有字根的甲骨文文字的输入时,所述步骤(1)之前包括字根标准化步骤,即对比甲骨文标准字根/字形表,将甲骨文文字标准化。6.根据权利要求1所述的六码数字甲骨文输入法,其特征在于对于模糊或缺笔画的有对称结构的甲骨文文字的输入时,所述步骤(1)之前包括文字对称化步骤,即将甲骨文文字对称化以修补缺损的笔画。7.根据权利要求1所述的六码数字甲骨文输入法,其特征在于对于模糊或缺笔画的甲骨文文字的输入时,所述步骤(1)之前包括结构块分离步骤,分离的规定如下含有字根的字或者含有独立字的甲骨字,要将这些字根或独立字与其它部分分开,但下述情况除外a.当字根表示动物或人身体的一部分而且与人或动物相连,不予分离;b.根据字义、结构的要求,不予分离。全文摘要本发明公开了一种六码数字甲骨文输入法,将甲骨文文字的各结构部分编成六位码元,由眼码、睫码、蘖码、枝码、飘码、结构码构成码元序列,且分别与计算机键盘上的数字0-9对应,眼码是甲骨文文字中的封闭曲线形成的笔画数;睫码是甲骨文文字中与眼相连的、不分叉的笔画数;蘖码是不成眼的交叉笔画的交叉点数;枝码是最少用几笔可以描绘完的笔画数;飘码是甲骨文文字中不构成眼和蘖、枝的飘离笔画数;结构码是构成一个甲骨文文字的互不粘连的结构块数。根据六位数字码元对甲骨文进行编码及计算机输入,实现古文字办公自动化,结束出版业手工抄写古文字的历史。文档编号G06F3/023GK101702101SQ200910218978公开日2010年5月5日申请日期2009年11月16日优先权日2009年11月16日发明者刘志祥,刘晓戎,尹奎英申请人:刘志祥;尹奎英;刘晓戎
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1