汉语字词声数编码方案及其配套键盘的制作方法

文档序号:6410139阅读:316来源:国知局
专利名称:汉语字词声数编码方案及其配套键盘的制作方法
计算机在我国生产生活中,已经得到广泛应用。汉字的计算机输入问题,得到各方面的关注,并取得很大进展。其中尤以王永民的“优化五笔字型编码法”和拼音输入法比较著名,得到普遍推广。但是,它们在实践过程中存在很大缺点。优化五笔字型编码法特别适用于单字输入,但是它是对字形的拆分后,重新定义,然后再组合,很大程度是人为规定,不符合中国人的汉语文化的普遍心理,相当于重新又编组了一套近7000个汉字。在操作熟练后,人们只是主观地记忆住了所需要打的字的五种笔划或字根拼形,逐渐淡漠了原有汉字的概念。特别是小学教育过程,它的使用会人为地破坏了小学生对汉语字词的记忆,破坏了对字词的整体联想和对传统文化习惯的培养。对于现成字词的检索,例如图书馆书目检索,需要专职的操作员,一般人如果不懂得五笔字型编码法,无法操作。拼音输入速度慢,各地方言的韵母发言不同,容易出现错误,且重码率高。
适应于计算机普及的编码方法,必须符合普遍性、直观性、单纯性,在维持汉字自然状况的基础上,尽量少定义规则,使用者才容易上手。
汉语字词声数编码方案及其锥盘正是基于以上目的,对汉字进行了统计。各地方言中,发音差异较大,但首字母发音基本相同,同时统计结果表明,汉字为方块字,字的每一边的形状稳定,尤以字首的形状均衡,如果我们在汉字的一边假想一条直线,那么汉字四边的笔画与假想的直线机构两种关系一相交、二平行。相交可以用点来表示,每个点代表数字1;平行用线表示,代表数字5,这样汉字四边笔画可视为点、线或点线组合,即数的相加,从而整个词字就有了一个数码。将汉字发音的首位字母与该字数码结合,就构成了汉字的声数编码。数码可以只取0至9十个数,就需要规定字边笔划与假想直线的关系中,四点以上均为四,两线以上均为零,不再考虑点的多少。这样就构成了230个复合码元。汉字拼音首位共计二十三个,与计算机键盘上的英文键位一一对应。
该汉语字词声数编码方案及其配套键盘,具有符合中国人对汉字的认知习惯,单纯、直观、标准,容易上手,适应于计算机排版,以及图书馆计算机管理、档案管理、微机联网、汉字电脑通讯和一切大、中、小型汉字信息电脑处理系统。
下面,我们对该汉语字词声数编码方案和配套键盘的具体特点作进一步说明。
我们在任一汉字的一边假想一条直线,汉字字边笔画与假想的直线构成两种关系,一相交,二平行。规定,相交取“点”,数码为“1”;平行取“线”,数码为“5”。这样,每一汉字可视为点、线或点线组合,即数的相加,从而每一汉字就有了一个字边数码。经过对汉字规律统计,可以看出,尤以字头的数码分布均衡。因此,我们可以仅取字头作为数码的取码位置。每一个汉字的第一个汉语拼音字母与该字字头数码组合成复合码元。
取码细则如下1、点画取“点”六戈2、斜画取“点”厶X3、竖画取“点”十L
4、横画取“线” 日间断不取 十5、藏尾撇取“点”,不取“线”自 白 反 斤 鸟6、露尾撇“点”、“线”皆取 父 夕7、折角取点 也8、左右结构,笔画互不遮掩取 绸其中四点以上的点数码均为四,两线为零,不再考虑点数码。见附图2。
十个数码与现行计算机键盘上的十个数字键形成一一对应关系,并付与新的含义,即汉字的边形数。
汉字发音的首位字母一共有二十三个,即ABCDEFGHJKLMNOPQRSTWXYZ。分别与计算机键盘上的英文键位一一对应(如附

图1)这样10个数码与二十三个声码就构成了230个复合码元。任意汉字都可以分别归结到这230个复合码之范围内,例如人民 教师 学习R1 M5 J8 S7 X3 X5其配套键盘就不少于10个数码键和23个首字母键组成。
以常用6000个汉字为准,每个复合码元平均占有汉字26个。汉语的表述都是由句子构成,句子由词构成。词又可分为①单音节词,即由一个字组成;②双音节词,即由两个字组成;③多音节词。即由叁个字以上组成。这种以词作为突破口,考虑汉语言的编码方案,就更接近于汉语语句的构成。即比由字到词,再由词到句前进了一步。以双音节词为例,230个复合码元可以构成52900个组合可能,经统计通用4000个常用双音节词,重码率低于2%,三个以上双音节词重码率低于0.2%。那么多音节词的重码率就更低。
我们可以很方便地建立汉字声数码字库和声数码词库,无论是对操作员还是词字库建立者几乎没有死记因素。但汉语言在应用时变化多样,有时需要输入某一字,例如“建立者”的“者”,则可以先联想一个包括该字的多音节词(最好是双音节词),如“记者”,并将该词输入通过键盘输入计算机,然后敲该字的序数键2,即得该字。有些单字不能构成为大众所知的多音节词,则另建特殊字数据库,用该字发音的首字母,尾字母和字头数作为代码,如“哉”字,代码是“ZI3”,如果有重码字,则用该字排列序数区别之,这类字一般是虚词和不常用字。
上段中提到汉字发音的尾字母,汉语汉字发音的尾字母一共有8个,即AOENGIN,其中前七个字母与计算机键盘上的英文键位一一对应,尾字母U可以与“V”键位对应。一旦增加了标别码——尾字母,码元就增加为230×8=1840(个),就基本满足了解决此类特殊字的重码的问题。当然所谓“特殊字”并不单指虚词和不常用字,也可以包括一些常用字。
基于上两段分析,一旦增加了尾字母码,词字的重码问题,就可以大大减弱,因此我们可以同样建立以首字母、尾字母、数码组成的字和词的数据库。例如林海雪源LN2 HI7 XE5 YN6。
对于多音阶词,如“中华人民共和国”,我们可以取“中”“华”“国”三个字的声数码“ZIH3G5”,即前两个字和最后一个字的声数码。如果出现重码,我们可以加入声校,提醒操作者观察显示器。这时优先级在前的词出现在第一位,如果我们继续键入另一词的声数码,第一优先级词就自动上屏。如要选择,可键入序数码。
如“海南”和“湖南”两词,当键入“H7N1”时,出现两种选择。继续键入“D6”,“海南岛”就自动上屏。直接键“2”,“湖南”就上屏。
该汉字声数编码方案与其它编码法具有兼容性,并且可方便地利用原有数据库进行检索,不必需重新人工建立新数据库。
由于极其简单易学,更适合于中小学计算机普及。对于小学生对汉语言习惯培养,组成造句的练习和对汉字声、形的整体联想都有极大的辅助作用。
附图1表示配套键盘示意图,附图2表示取数码表。
权利要求
1.一种汉语字词声数编码方案及其配套键盘,其特征是将汉字发音的23个首字母与键盘上其中的23个字母键位形成对应,取汉字的边形数码10个与键盘上从0—9,10个键位形成对应,形成拼声数组字,拼声数组词的汉字词取码法及其输入键盘;
2.按权利要求1,汉字的边形数码取的是汉字字头数码,数码取法为在汉字字头上虚设一条直线,字头笔画与这条直线形成交叉和平行两种关系,交叉取点为1,平行取线为5,数码值为两种关系总和;
3.如权利要求1和2,数码值为两种关系总和,其中四点以上的点数码均为四,两线为零,不再考虑点数码;
4.如权利要求1、2,拼声数组字,拼声数组词的取码法,其中声码增加了汉语发音尾字母,一共有AOENGIU,其中前七个字母与键盘的英文键位形成对应,与V键对应;
5.如权利要求1和2,单字的输入采用先输入一个包括该字的双音节以上的词,再键入序数码取得;
6.如权利要求1、2多音节词汇的编码为前两个字和最后一个字的声数码;
7.如权利要求1、2、3,数码的取码法为点画取点、斜画取点、竖画取点、横画取线、间断不取、藏尾撇取点,不取线、露尾撇点线皆取、折角取点、左右结构、笔画互不遮掩;
8.如权利要求1、2、3和7,语言的编码和输入方法以词为段落,由词取字,由词组句。
9.如权利要求1、2和8、3,重码时加入声校,操作人员可以从提示行中选取所需字或词,最常用的字、词显示在提示行的最前边;
10.如权利要求1-9中的任一条,对汉语字、词进行输入的方法,可用于一切汉字信息检索,照排系统中文电传,电脑打字机,汉字终端和汉字电脑通词设备中。
全文摘要
本发明汉语字词声数编码方案及其配套键盘属于计算机汉字输入研究领域,它的主要特点是将任一汉字识为由发音的首字母与字头形数码组成,使用不少于23个英文字母键和10个数字键的键盘进行汉字输入,由词取字,由词组句,设计规律性强,无死记因素,极易上手,码长短,重码少,便于盲打,特别适用于对现有数据库的检索,并可为中小学语言教育起到辅助作用。取码方法符合中国的传统文化习惯。可广泛用于计算机汉字系统及有关设备中。
文档编号G06F3/023GK1159621SQ9610217
公开日1997年9月17日 申请日期1996年3月11日 优先权日1996年3月11日
发明者韩连武, 符君健, 符一欧, 赵霆, 韩迪, 韩斝 申请人:韩连武
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1