专利名称:一种汉字输入法的制作方法
一、发明创造的提出汉字是世界上最古老的文字之一,有着数千年的历史。由于汉字结构纷繁多样,一直不能用机械式微型打字机打字。由于计算机这种高科技工具的出现,使汉字的信息处理发生了质的飞跃。与此密切相关的汉字输入技术的发展问题,一直深受嘱目。常用的汉字输入法是将汉字的特征部分,如组成汉字的各种字形结构或各拼音成分定义在标准的计算机键盘符号上,用相应键盘符号做汉字形或音的代码,构成汉字的编码。在键盘上输入这些编码后,可以检索到相应的汉字,方便地进行排版、存储、打印、传输等各种中文信息处理。
我国目前,在计算机使用者中最流行的计算机汉字输入方案有两种1、纯音码用汉字的拼音进行编码,如汉语拼音、双拼、简拼等输入法。特点是会汉语拼音就会输入,容易掌握。由于在我国掌握汉语拼音的人很广泛,使这种输入法成为最基本的方案。但由于汉字同音字多,输入音码后,需在计算机屏幕提示行选择输入,因而影响输入速度,无法高速盲打。不常用的字如果拼音读不准,就更难输入。
2、纯形码根据汉字的字形结构进行编码。其中有许多优秀的方案输入速度快,重码率低(国家标准GB-2312-80中的一级字库的3755个常用字中有几十对重码字),可以高速盲打。但目前尚有几个问题对汉字的拆分原则有二义性、在二、三十个键位的每一键定义了许多特征各不相同的字形结构,分布规律难以记忆,实际记忆量很大。适用于专职的微机打字人员。
上述两种汉字输入方案的优、缺点、都是显而易见的。
科技的发展需要不断的探索、创新。本发明认为形码的发展在于消除汉字拆分原则的二义性,将特征相同的、便于联想的字形结构尽量定义在同一键位上,以利于记忆,降低使用难度。而音码可以与其他形式的编码结合,相辅相成。
本发明将汉字的形码与音码结合,构成以形码为主、音码为辅的汉字输入方式。保持和发挥两者的优势,创造了一种将宏观特征相同的字形结构安排在同一键位,易学、易记、易用,能高速盲打,适于更广泛使用的汉字输入法。尤其是目前,随着计算机在各行各业及家庭中的推广应用,越来越多的普通使用者将面临着直接用计算机进行汉字信息处理,更需要新颖的、简单易学、面向大众的、能高速盲打的汉字输入法。二、发明创造的介绍1、保持拆分原则的一致性对汉字的字形结构进行编码,涉及到如何拆分汉字的问题。大部分汉字由于拆分出的字形结构不同,其编码是不同的。但汉字中有一些组成结构相同的字,如按一致的拆分原则,汉字的各字形结构在相应键位上的形码是相同的,如日与曰、未与末、田与由、申与甲、已、己、巳等,会造成重码,导致计算机输入时发生困难。所以结构相同的未与末,一个被拆分为二和小,一个被拆分为一和木,影响了拆分的一致性。一些宏观特征近似的、组成笔划略有不同的基本字形结构为了区分开,在一些输入法中还要继续拆分下去,影响了拆分的严整性。这是形码拆分原则有二义性的原因。
本发明发现相近结构的字一般读音差异很大,所以可以在汉字形码编码的后面附加一个读音码(即汉字拼音的首位字母),构成形音码来区分它们。一些基本字形结构不必再拆分,而做为组成汉字的基本单位,这样便于保证拆分原则的一致性。如目、且、月被定义在“S”键,它们的编码分别为SM、SQ、SY。首位是相同的形码代码,第二位是以各字拼音的首位字母做音码。
2、宏观特征相同的字形结构,定义在同一键由若干笔划交叉、连接而形成的相对不变的基本字形结构,称为字根。本发明将形状相似或意义相近的字根划分为同类型字根,被定义在同一键位上形状相似的众多字根如同一个字根的不同变形,其他的意义相近的字根便于联想。大大降低了字根分布的记忆难度。如金类的单块型字根(块型是封闭的框形结构)形状相似的有“口、凹、凸”等字根,如同“口”字的不同变形。还有意义相近的“金、匕、刀”三个字根,可以联想为它们都是由一整块金属铸造的,也属于单块型字根。
3、注重键盘字根分布规律与标准键盘打字法的配合标准的计算机键盘上有三排英文字母键,按标准打字法,左、右手的击键范围将它们从键盘中部分开,成为六排键。每排键按从键盘中部向左或右侧排列的顺序,一一对应的由食指侧击、食指正击、中指正击、无名指正击、小指正击输入。本法将食指、中指、无名指、小指分称为0、1、2、3、4号击键指,侧向击键的食指视为0号击键指。
这样各指数与每排键上的各型字根的特征对应起来分布于左上排的火类、右上排的水类、左中排的金类、右中排的木类字根,分别按包围数、点笔数、块型结构、竖笔数的多少划分各型,各型字根按顺序分别有0、1、2、3、4的数字特征(见图3);分布于左下排的土类五键的类土、土、田、石、山型按逻辑递进的顺序,可以排号为0、1、2、3、4号;右下排的人类的手、人型按人的整体性有0、1的顺序。敲击各键的击键指数都与分布于该键的顺序型字根的数字特征数或逻辑顺序数一致。以处于左中排的金类字根为例处于左手四指基本位置的F、D、S、A键分别由1、2、3、4号击键指(即正向敲击的食指、中指、无名指、小指)敲击,分布在F、D、S、A键上的单块、双块、三块、四块型字根有1、2、3、4的数字特征。最靠中部的G键是由0号击键指(向右侧击的左手食指)敲击,在该键上的金勾型字根,没有独立的块型结构,数字特征为0。因此在输入这六类顺序字根时,只要将左手或右手置于相应类别的那排字母键上,依据字根所显示的特征数(数字特征数或逻辑顺序数),就可用相应数号的击键指敲击相应的字母健输入。在实际操作中,可以通过使用标准打字法,巩固对字根分布位置的记忆,也有利于高速输入汉字代码,这是与其他的汉字输入法不同的一个创新。
4、重码率低在GB-2312-80基本字符集的一级字库3755个汉字中共有二十几对重码字。
三、汉字输入法结构论述目录第一章 汉字的组成与归类划型第二章 汉字的拆分原则第三章 编码规则第四章 输入操作第一章 汉字的组成与归类划型一、汉字的组成文字是在人类社会历史实践过程中创造的。历史上汉字的发展,在形式上逐渐由图形到笔划,象形交为象征,复杂变为简单,造字原则从表形、表意到形声,展现着古老文明的发展历程。
汉字结构是有机组成的,是由各种表形、表意、形声的字形结构或分散、或交叉、或连接组合而成的。
本法按照各种字形结构在汉字中出现的组字频度和在汉字中的易拆分性,优选出由一个或几个笔划组成的相对不变的基本字形结构,它们做为组成汉字的基本单位,称为字根。它们可以按书写顺序组合成汉字。二、汉字字根的归类划型本发明按宏观的形状或意义的特征,将字根分为火类(包围型)、水类(点笔型)、金类(块型)、木类(竖笔型)、土类(土、田、石、山型)、人类(手、人型)六类。每一类字根中形状相似或意义相近的字根归为同型字根,各型字根按照宏观特征中的数字递增的顺序(火、水、金、木类)或逻辑递进顺序(土、人类)排列。(参见
图1六类顺序型字根分类划型表)表中每一类字根按照其特征的不同而划分各型,同一型字根的特征相同形状相似的字根如同一个字根的不同变形,意义相近的字根,便于联想。为了照顾字根之间的相容关系和近似字根归类原则,有几个特征与该型特征联系不大,但与该型字根近似的字根,近似归类于该型字根。如“弓、羽”其意义与木类两竖型字根(包括两折笔型)“《”相近,都含有两个并列的折笔,所以归为两竖型。三竖型字根包括了一笔三折的“乙”字,也包括了“乙”字类型的其他字根乚、
、フ等。
将表中的类、型按排列顺序分别编以类号和型号,定义分布于各排键位上,每一类字根分布在一排字母键上,每一型字根对应一个字母键。将豕、牛、羊型字根和一到九的十个数字字根及与其形状相近的几个字根做为附加型字根,附加在各类型字根中。(参见图2汉字字根代码总表)对应于键盘,形成了一个如图3的键盘字根分布图。由图中所见,豕、牛、羊型字根附加在键盘中排的左侧三键上,可视为“家畜板块”。各数字字根及其象形字根按组字频率分布于各类字根的边缘键位上。
水、火、金、木、土、人六字及与其象形的字根都分布于各类的型号为1的键位上,但具有独立性的火字旁、金字旁、木字旁、土字旁,与其各类的0号键位字根的特征相同,分布于型号为0的健位上,与其本字的代码相区别。这样减轻了火、金、木、土类1号键上代码的编码压力。本法其他字的偏旁与本字都在同一键位。第二章汉字的拆分原则本发明的拆分原则是以基本字根为单位,对汉字进行拆分。一、书写顺序按照书写顺序,先左后右,先上后下,先外后内的逐一拆分汉字字根。
如“照”拆分为日、刀、口、灬 “原”拆分为厂、白、小为了照顾字根的完整性,封闭结构的字根包围或与其他字根交叉时,先取封闭式字根的所有笔划,与书写顺序略有不同。
如“回”不拆为冂、口、一,而拆为囗、口“曲”拆为日、
二、取大优先当有多种拆法时1.按书写顺序选择拆出的字根最少的拆法。如“酋”拆为丷、西、一而不拆为、口、儿、一。
2.拆出的字根数目相同时,前面的字根取最多的笔划效。如“隶”拆为
,而不拆为、水。三、三种特殊字形结构的拆分1.连笔结构(由单笔与字根组成的,笔顺相连的结构)拆成单笔和字根。在式IVa中A,B,D,E,L,m和n是如在式I中所确定的含义,
在式VII中A,B,D,E,L,m和n是如在式I中所确定的含义,卤素是氯,溴或碘。
式VII所示的化合物可用类似于a)和b)的酯化或酰胺化由式VIII所示的化合物制备Hal-CH2-CH2-(CH2-CH2)m-CO-G(VIII),在式VIII中m是如正在式I中所确定的含义,G是羟基或卤素,优选氯或溴,Hal是氯,溴或碘。
式VIII所示的化合物是已知的或可用类似于已知的方法制备。
第四章输入操作本法对汉字编码进行输入时,不足四码的编码,输入全部编码后,再按空格键结束输入。四个编码的汉字,输入编码后,直接由计算机输入,不需按空格键。
词汇的输入两字词各取各字的前两个汉字编码,依次输入。如“数”编码为IQHS,“学”为OWNX,“数学”的编码为IQOW。
三字词取第一、第二字的首位编码,第三字的前两位编码,依次输入。“操”的编码为NFFJ,“作”为MEJT,“员”为FUY,“操作员”的编码为NMFU。四字词只取四个字的首位编码,依次输入。如“汉字编码”四字的第一个编码分别为O、R、V、X,即该词的编码。
五个字以上的汉字组成的词汇,其编码为第一、二、三和最末一个汉字的首位编码组成。
如“中华人民共和国”只取“中、华、人、国”四个字的首位编码F、M、M、C,做为该词编码。
在输入单字时,需特别记忆的是“一、上、明”三个高频汉字的编码中不附加音码,只输入其形码编码。
输入编码时,用“{”键做为辅助键,代替操作者一时不清楚的字根的字母代码或音码,只键入可确定的编码,在屏幕提示行中选择所需汉字,同时系统显示出该汉字的正确编码。
全部字库中有大量的无须输入全部编码,就可以被确定的字。本法对这些字设置了一、二、三级简码,使用频率高的字优先设置最短的简码。如“的”字编码为“DAUD”,简码为其第一个编码“D”。操作者通过熟练的记忆和操作,可以简码输入汉字。
输入有重码字的编码时,各重码字按使用频度的高低排序,同时显示于提示行,如果需要使用频率较高的第一个字(序号为1),只需继续输入下文,此字会自动显示到光标位置上。若需其他字,则输入提示行上该字的序号,所需汉字就显示到光标位置上。当输入码为重码时,计算机会发出声音做为提示。
本发明设置了国家标准GB-2312-80基本汉字中全部的6768个汉字及基本词汇的编码。在本发明的模式下适当增减各键位上的字根,可用来设置繁体字或各国家、地区使用的个别汉字的形码代码,可采用适于各地方使用的汉字的不同拼音做音码,形成繁体字或适于各国家、地区使用的不同汉字的该输入法的不同版本。也可设置用户自定义的字词编码。
本法可用于一切大、中、小、微型中文信息处理电脑系统、汉字电传机、汉字电脑打字机、汉字终端机及通讯系统中。
附图1六类顺序型字根分类划型表附图2汉字字根代码总表附图3键盘字根分布图
权利要求
1.一种汉字输入法,其特征在于将组成汉字的基本字形结构——字根,按照宏观的、便于联想的形状或意义上的特征,分为火、水、金、木、土、人六类字根包围型结构的字根归为火类;点笔型结构的字根归为水类;块型结构(封闭的框形结构)的字根归为金类;竖笔型结构的字根归为木类;土、田、石、山型的字根归为土类;手、人型的字根归为人类。
2.按权力要求1所述的输入法,其特征在于各类字根按其宏观特征中的数字递增的顺序(火、水、金、木类)或逻辑递进的顺序(土、人类)依次划分各型火类字根分为隔火型、单包围型、两包围型、三包围型、四包围型;水类字根分为用水型、一点水型、两点水型、三点水型、四点水型;金类字根分为金勾型、单块型、双块型、三块型、四块型;木类字根分为木件型、一竖型、两竖型、三竖型;土类字根分为类土型、犁土型、耕田型、开石型、翻山型;人类字根分为人附型、人型。(图1)。
3.按权利要求2所述的输入法,一、二、三、四、五、六、七、八、九这十个数字字根及与其象形的字根和豕、牛、羊型字根做为附加型字根,附加在各类型字根中。(图2)。
4.按权利要求1、2和3所述的输入法,其特征是将汉字字根定义在由左、右手击键范围分成的6排计算机键盘的26个字母键位上,形成一种用于本输入法的汉字字根键盘分布谱系。(图3)。
5.按权利要求4所述的输入法,其特征是同一类字根分布在同一排键位上,同一型字根分布在同一个字母健位上,各键各设置一个代表性字根,同一键上的其他字根与其形状相似或意义相近(附加型字根除外)。
6.按权利要求4所述的输入法,对汉字按书写顺序依形取码由四个或四个以上字根组成的汉字,取其第一、第二、第三及最末一个字根的相应键盘字母代码做编码;不足四个字根的汉字,依次取其所有字根的字母代码,并在其字根代码后附加一个该字的首位拼音字母做编码。
7.按权利要求4所述的输入法,对GB-2312(80)中全部6763个汉字进行编码输入,其中含有汉字全码、简码和通用词汇的编码。
8.按权利要求6所述的输入法,用“{”键或予留的其他键来代替不明确的键入字根的代码或该字的首位拼音字母输入,在提示行中选择所需汉字,并给出正确编码。
9.按权利要求4所述的输入法,重码的处理方法是在屏幕正常编辑位置上,首先显示频度较高的汉字,若需此字,不需做任何处理,正常继续键入。
10.按照前述权利要求1-9中的任何一条,对汉字和中文词组进行编码输入的方法,可以用在大、中、小、微型中文信息处理电脑系统、汉字电传机、汉字电脑打字机、汉字终端机及通讯系统中。
全文摘要
一种汉字输入法,是一种以形码为主,以音码为辅的汉字编码输入法按宏观的、便于联想的形状或意义上的特征,把组成汉字的基本字形结构——字根,归结为火(包围型)、水(点笔型)、金(块型)、木(竖笔型)、土(山、石、田、土型)、人(手、人型)六类字根。每类字根按数字递增或逻辑递进顺序划分各型,并分布于各排英文字母键位上。同一型字根形状相似或意义相近,分布在同一键上。记忆量少,拆分原则统一,新颖易用。
文档编号G06F3/023GK1160880SQ9610158
公开日1997年10月1日 申请日期1996年3月27日 优先权日1996年3月27日
发明者邵成滨 申请人:邵成滨