专利名称:简易音部码汉语输入法的制作方法
技术领域:
本发明涉及一种用于计算机、电子打字机等电脑设备上的键盘式汉语输入方法。
汉语的键盘式输入是在我国普及计算机应用要解决的关键技术之一。近十年来我国大陆、台湾、香港等地都研制了许多汉语输入法,但能被广大用户普遍接受的很少。目前我国市场上覆盖率最高的汉语输入法有两种,一种是拼音码,它本身又包括多种不同的输入系统;另一种是五笔字型。这两种输入法有各自的优点与缺点。
拼音码的显著优点是易学性好,主要缺点是重码率高,且对用户的发音要求较高。
为了解决拼音码重码率高的缺点,拼音码近年来先后发展出三代产品。以单字输入为主的音码,如CCDOS简拼;以字词统一处理为特征的音码,如周志农先生的自然码;以语句级处理为特征的音码,如哈尔滨工业大学计算机系研制的‘音声汉字语句输入系统’。第二、三代产品与第一代产品相比,在理论和技术的某些方面有相当的进步,但作为产业化的实用输入系统,它们都未能妥善地解决汉语同音字词的重码问题。例如,哈工大的音声汉字语句输入系统,是国家863高技术计划和国家自然科学基金资助的项目。代表了音码输入技术的最高水准,但它亦未能解决好字词重码问题。在该系统中,语句级输入特有的整句滞后音词转换方式使操作员无法实时处理消除重码,只能在每句话的音码输入完之后再回复校验,搜索重码并重新做更正输入。这就使系统的输入效率大打折扣,一些音码输入系统还尝试采用以音码为主,以形码为辅的音形结合编码方式解决重码问题,但都不够成功。需要指出的是,如果词级和语句级音码在解决重码问题方面有综合性和实用性的提高和进步,那么可以预料它们应取代第一代音码产品,甚至取代五笔字型,在市场上有较高的覆盖率。可是迄今为止音码的第二、三代产品在市场上的占有率一直很低,甚至未能取代第一代产品的主导地位。从科技产业化商品化的观点看,用户的检验胜过任何级别的鉴定或理论学术论文。所以,至少在最近的将来单纯依靠音码彻底解决重码,实现汉语高速输入的前景不容乐观。
音码的第二个缺点是对用户发音的要求过高过严。汉语存在八大方言体系,普通话是以其中一种为基础设立推广的。在广大方言地区,有相当比例用户达不到标准发音的水准,例如前后鼻韵母之间的区分,平翘舌音之间的区分等。为了解决这个问题,有些音码设置了“南方方式”输入状态如自然码。在这种状态下用户可不区分前后鼻韵母或平翘舌音。但这种输入方式使原已过高的重码率又大辐上升。这不是一种较好的解决办法。此外,受过中等教育的中国公民的识字量在4,500以内,国标码一二级字库所收六千多汉字中,有三分之一左右或以上对普通用户是不能正确识读的生字。音码在处理这部分汉字的输入上,效率更低。
王永民先生发明的五笔字型输入法,是形码的优秀代表之一,已获美英等国专利。迄今为止,它仍是实用输入系统中效率最高的,是专业操作员首选的输入法。但五笔字形存在两个主要弱点。第一是易学性差。非操作员专业的普通用户普遍反映五笔字型难学、难记、易忘。五笔字型的字根系统,是建立在五种基本笔划的双笔组合基础上的。这种字根系统与人们在小学阶段已掌握熟悉的汉字形态系统-部首偏旁系统-之间缺乏内在的一致性,从教育与学习心理分析,它与人们先期学习已形成的汉字形态的心理认知图式不一致,学习难度高是不可避免的。普通用户使用五笔以较高的效率输入汉字是可以做到的,但必须有一段较长时间的训练熟悉过程。换言之,五笔字型输入的高效率技术指标,是建立在用户掌握它时低效率的学习基础上的。五笔字型高效但难学,这是计算界较普遍的看法。用户学习的低效率性,客观上不利于计算机应用的普及与推广。
五笔字型的第二个弱点是词处理功能较低。五笔字型词库词条量约为5,000条,这个数量远远达不到高效实用的水准。权威度较高的《现代汉语词典》共收词56,000条,它的简化压缩版本《现代汉语小词典》共收词35,000条。专家普遍认为实用输入系统的词库词条量应当在10,000以上。五笔字型的词条覆盖率低,漏词率高,用户在使用时,如果采用词输入法,会经常遇到废码,即有码无词或虽有词但不是目标词,必须更正后再输入。这就限制了系统的输入效率,并造成使用上的不便。在实际运用中,因漏词率高,废码率高,许多用户干脆不采用词输入法,只用字输入法,这样可避免经常重打。但这更加减弱了五笔的词处理功能。
在具有词处理功能的音码或形码输入法中,一般都存在词处理功能不理想的弱点。这主要表现在以下几个方面。第一,词重码率偏高,如各种音码。第二,词库词条量偏低,漏词率高而覆盖率低,如五笔字型。第三,有些输入系统采用静态链表结构的联想方式实现词输入,这种方法对提高输入效率作用有限,且屏蔽了数字键原有的功能而造成使用不便;又很累眼睛,极易引起操作疲劳。第四,词简码功能较差。五笔字型有字简码,但无词简码。自然码有词简码,但存在外码流中简码与原码不统一而产生的缺点。自然码的双字词外码的统一形式是“声韵声韵”,简码的形式则是“声声”加指定切换键。由于简码与原码不统一,引起以下几方面的缺点。首先是简码的有效编码空间太小,“声声”形式编码的最大容量为26X26=676,这就把简码的容量限制在很小的范围内。其次是动态废码率高,如果不能够记住简码的全部目标词,操作员在用简码输入时就经常会遇到废码。尽管简码的目标词量只有几百,要全部记住也是很困难的。再次是指定单键切换的击键方式在心理与指法操作上不很方便。在字简码与词简码技术之间作一对比是富于启发的。注意字简码的实现方法一般是采用原码的截尾式空格盲打法。这种方法的优点是与原码统一,输入时不易产生废码,简码的有效空间较大且指法操作方便,因而潜在的实用效率较高。但盲打法同样需要用户强记简码目标字,使用很不方便,影响了系统潜在效率的发挥。
从算法分析理论考查,对元素使用频度不同的信息集合进行编码时,效率最高的编码必定是某种形式的前缀码。这一前缀码的设定,必须以元素的使用频度排序为依据。设编码的基本键位数是N,则此前缀码应该相当于一棵权数最小的N元最优树。单纯从算法理论出发,设计一个技术效率最高的汉语编码方案实际并不困难,只要采用前缀码最优树算法就能实现。但迄今为此,还没有一种汉语输入系统能够较全面地采用前缀码最优树算法。这是近年来汉语输入系统的效率踏步不前,出现高原现象的原因之一,是汉语编码需要解决的问题。
在实用的输入系统中,编码的实际效率不完全取决于它的理论效率,它还与人脑学习与操作该编码的效率有密切关系。前缀码最优树算法的编码是不等长编码,而不等长编码会显著增加心理加工的复杂度,从而限制它理论效率的发挥。不解决这一难题,就难以全面实现前缀码最优树的设计方案。在汉语输入实践中,我国编码与软件工作者创造了截尾式空格盲打输入法、尾码切换法等简码输入法,这些方法在解决上述难题方面有所进展。实际上,简码输入法已经部分地实现了前缀码最优树算法。但它仍然存在一些重要缺陷。首先,到目前为此,简码技术主要局限于汉语输入的某些部分,缺乏统一化的设计实施方案。例如空格盲打法局限于字输入范围,尾码切换法局限于小部分词输入范围等。其次,每种简码输入法都有各自的弱点。例如,原码的截尾式盲打输入是潜在技术效率较高的简码输入法,但盲打法也需要用户熟记简码的目标字或词,这又大大增加了人脑操作负担,限制了技术效率的发挥。
本发明的目的是提供一种自成体系的汉语输入法,它建立在汉字汉语悠久传统的基础上,又融汇了现代汉语的特点;它既有很好的易学性,又有极高的输入效率;在易学性指标上,它与音码相近,比五笔字型容易很多,在输入效率的主要技术指标上,它比五笔字型有较显著的提高;它适用于各种领域,各种层次的用户;它既能处理简化字,又能处理繁体字,包括用户不能正确识读的汉字;特别是,它与汉语书面语的启蒙教育能够很好统一,这就使小学低年级儿童不用增加学习负担,也能迅速掌握本输入法,使中国儿童像西语儿童那样,从小就能十分方便地用电脑或电子打字机处理自己的母语;这对计算机普及,对教育和科技普及,对整个中华民族文化素质的提高,都会产生良好的重大的社会效益。
本发明的目的是通过设计一种音形义一体化,字词统一的编码方案,同时实施输入系统全面优化的手段来实现的。这需要在理论与工程技术两个层面进行透彻的因素分析与系统综合,分析与综合与语言处理相关的各种有关理论与技术,筛选生成出一套与部首偏旁系统具有内在一致性的形码字根系统,这套形码系统能与音码实现自由结合,同时采用字词分流合成简码技术全面实现前缀码最优树算法,从而优化组合成一种易学高效的汉语输入系统,使该系统的各项技术指标,达到或接近达到算法理论的极限水平。
以下详细介绍具体实施方案。
一.形码系统设计1.一般原则首先,通过语言学、心理学和教育学的分析确定,形码系统应当尽可能地与汉字传统的部首偏旁系统具有一致性。然后,对汉语的基本单元进行统计,了解它们的分布状态,主要包括字和词相对于部首、音节、声母韵母的分布,以及词相对于字的分布。在获得的分布状态的基础上,将认知心理学模型和概率论模型相结合,实施部首归类的模拟实验,筛选生成了本输入系统中的关键部分-形码字根系统。
2.字根系统将约200个汉字传统部首以及汉字中其他常见的形态单元归为27个大类,取名为“科”。将此27个科分别对应于键盘上27个键,其中26个是字母键,另一个是分号键。采用音形义多线索集成方法,在部首科与键位之间建立对应关系,方便记忆操作。27个科的概括如表1.所示。
本字根系统的归类具有两个重要原则。第一是强调与部首偏旁系统的一致性,所以大部分字根本身就是规范的部首偏旁,其他的非规范部首偏旁的字根也与已有的某个部首偏旁具有形态特征上的相似性。第二是强调字根整体的大轮廓的知觉特征,这种轮廓形态的知觉特征一般与一个或几个主干笔划相关,但与笔划的具体种类、数量、或笔划组合顺序等方面的
表4作为温度函数的由交换耦合引起的较小回线矫顽磁力偏移温度实施例7实施例8实施例9(℃)Hc△HcHc△HcHc△Hc201.250.55~1.2~21.50.351200.650.15--0.900.101500.550.10~0.8~1.20.750.052000.280.03~0.3~0.70.400.03实施例10第一多层该第一层的制造过程如实施例4中所述。样品从真空室中取出并进行下述过程的热处理
(A)长度24个氨基酸(B)类型氨基酸(C)链单链(D)拓扑线性(ⅱ)分子类型肽(ⅹⅰ)序列描述SEQ ID NO1
(2)SEQ ID NO2的资料(ⅰ)序列特征(A)长度23个氨基酸(B)类型氨基酸(C)链单链(D)拓扑线性(ⅱ)分子类型肽(ⅹⅰ)序列描述SEQ ID NO2
(2)SEQ ID NO3的资料(ⅰ)序列特征
17.大耳刀科.本科包括三个部分大部,耳部,刀部。
大部大,夫, ,央。
耳部耳, ,阝,卩。
刀部刀, ,力。
18.小计算科.本科包括三个部分小字部,言字旁讠,竹字头。其中小字部有几种变形 。
19.水叉火科.本科包括三个部分水字部,火字部,叉形部。前两者是规范部首。叉形部又可分为四个子类单叉,复叉,上叉,下叉。
单叉十,乂,。
复叉 ,丰。
上叉 。
下叉干, 。
20.白里黑科.属于本科的字根大多是规范部首,它们的共同特点是不论具体形态上有多少差别,都无一例外的包含有方形的封闭型结构,但又不是单纯的口字或国字框。属于本科的部首或字根有日,白,田,里,黑,西,酉,臼等等。但“目”字形封闭结构不属于本科(参见22.盼月盈科)。
21.又妇多科.本科字根的特点是它们都包含有交叉的封闭或近似封闭的结构,且封闭形状是三角形等非方形结构,可以把这些字根归为以下三类文部文,攵,夂。
又女部又,女,又。
夕歹部夕, ,歹。
22.盼月盈科.除了月字旁以外,本科的字根都具有或包含有典型的“目”字形结构,可以如目字是垂直的,也可以如皿字等是水平的。月字本身在形态上与目字也很相近,容易记忆。属于本科的部首或字根有月,目,且,自,直,血,皿,身,自等等。注意“耳”字与本科字根较相近,但不属于本科,属于大耳刀科。
表4作为温度函数的由交换耦合引起的较小回线矫顽磁力偏移温度实施例7实施例8实施例9(℃)Hc△HcHc△HcHc△Hc201.250.55~1.2~21.50.351200.650.15--0.900.101500.550.10~0.8~1.20.750.052000.280.03~0.3~0.70.400.03实施例10第一多层该第一层的制造过程如实施例4中所述。样品从真空室中取出并进行下述过程的热处理
二.音形组合编码从理论和实用两个方面分析,汉语编码应当走音形结合的道路,这样既可以提高外码的有效信息量和区分度,又能适用于不同类型的用户;而且,音形结合的方式,应当具有一定的自由度,以方便用户选择。
在实用输入系统中,本形码可以与音码以多种方式自由结合,生成形式上不同的编码。以下列举几种主要的组合方式。音节+形码组合输入方式1.简拼音形码-CCDOS简拼+形码的组合输入方式CCDOS简拼用一到三个字母键输入一个汉语音节,然后根据提示行提示的重码字集用数字锁定方式选择目标字,并经常要做换页搜索。如果纳入本形码系统,在音码之后输入一到两个形码,则可消除95%以上的重码(国标一级字库,下同),不需做任何换页处理。
2.双拼音形码-双拼+形码的组合输入方式双拼是用两个字母输入一个汉语音节。在字输入状态下,它的重码率与简拼相同。基于同样的方式,将双拼码与本形码系统结合,在双拼音码之后输入一到两个形码,可削除95%以上的重码。这种编码方式效率较高,且为等长编码。.声母+形码组合输入方式在拼音声母键之后直接输入本形码系统的一到三个形码,构成码长为四的声形码。这种编码的效率很高,可使字输入方式的静态重码率降到百分之一以下。结合词编码等输入技术,可使动态重码率降到十万分之一以下。.独立输入方式本形码单独使用,构成码长为四的纯形码,同样是效率很高的编码输入方式。它的字输入方式的静态重码率在5%以下。它还可以悬挂在上述任一种音形结合的系统下作为辅助输入方式,用于输入处理不能正确识读的生僻字。
三.字词统一的编码系统现代汉语在语用交际中的基本单位是词而不是字。各种汉语输入系统中普遍采用某种词输入技术。本编码方案是以字输入为基础,以词输入为主导的编码系统,在模型建构的过程中充分考虑了词分布的编码空间,特别适用于词输入处理。
表2.声部码复音词编码方式第一字第二字第三字末尾字合计双字词前二码前二码四码三字词前一码前一码前二码四码多字词前一码前一码前一码前一码四码注多字词系指四字或四字以上的复音词在前节所述的三种字输入方式的基础上,都可以采用字词统一编码的方式,使系统具备词输入功能。下面以声母+形码组合输入方式为例,介绍词编码原理。为方便叙述,将这种编码系统简称为声部码。其词码的编码方式如表2所示。
声部码词库可容纳40,000个以上词条,没有必要再采用联想式输入。
四.字词分流合成简码技术从键盘键位的功能、分布与指法操作分析,一个良好的输入方案不应当把数字键作为编码系统内的基本键位或分离的选择键位而频繁使用,也不应当像联想式输入那样,排除了数字键本身的功能。本编码方案基本键位27个,不包括数字键。本编码系统的重码率很低,极少用数字键作选择键。此外,由于本编码系统的无理码比例低,有效编码空间大,它的词库词条数可达40,000以上,完全淘汰了联想式输入方案,数字键本身的功能不受任何影响。在此基础之上,本编码方案以独特的方式设计了字词分流合成简码技术,既完全保留数字键原有功能,又开发了它的新功能,使数字键成为编码体系中的有机构成部分。使效率最高的前缀码最优树的算法能够在汉语输入中较全面的实现。
字词分流合成简码技术,是在字词原码的基础上,采用原码的截尾式明打法实现的。它包括结构上统一平行,操作上尾键分离的字与词双重简码。以声部码为例说明这一方法。声部码的码长为四。字简码是原码的截尾式空格明打法,即一键/二键/三键加空格键的明打法。空格键截尾式输入法是许多系统中普遍采用的字简码输入方法,但通常是盲打法,如五笔字型输入系统。盲打的缺点前文已述及。本系统采用明打法。所谓明打法,是系统根据编码输入的第一键/前二键/前三键,在检索时将对应的高频首位简码字和词在提示行以显著方式预先提示,用户根据提示行的预提示,用空格键将目标字顶送至光标处。这种方法不需用户记忆简码的目标字词,比盲打法更优越实用。词简码也采用与字简码结构统一平行的原码截尾式明打法,明打键为任一数字键,即一键/二键/三键加任意数字键明打。特别要指出的是这里数字键之间不需作任何区分,可用八个手指中的任一指随意打十个数字键中的任一键,在心理加工与指法操作上十分方便,比特定单键切换的词简码输入方式优越实用。而且,这种词简码不会与字简码产生任何混淆、竞争或冲突,它的理论有效空间很大,对提高系统的整体输入效率作用明显。高频简码词与高频简码字一样,必须根据输入键位系列检索,在提示行预提示。用户根据提示,用任意数字键将简码目标词顶送至光标处。
还可以采用另一种方式实施词简码。原码截尾式明打法的基本原理不变,将通用键盘做一微小的改造把空格键区分为左右两空格键。在通常状态下两空格键功能相同,都是空格键,但对应的内码不同。在中文编码输入检索状态下,指定其中一键为字简码尾键,另一键为词简码尾键,例如,可以指定左空格键为字简码键,右空格键为词码键。输入检索时,在提示行也按照左字右词的方式显示对应的高频字和高频词。这样显示方式与指法方位方式完全对应,用户用左空格键将左边的简码字顶送至光标处,用右空格键将右边的简码词顶送至光标处。
在实用的输入系统中,字词简码技术必须与字词使用度排序技术相结合,后者在算法理论与数据结构实现方面都已很成熟,不难实现。
五.方言容错处理本发明采用音形结合的编码方案,且音形结合有多重方式,这样可适用于不同的用户。发音标准的用户可选用音节加形码的输入方式;发音稍差的用户可选用声母加形码的输入方式,这种方式的编码中不包括韵母,减轻了识记拼音的负担;此外还有全形码输入方式,可供不懂拼音的用户选用。为了进一步方便用户,系统还设计了方言容错技术。对汉语拼音中较难区分的声母和韵母,系统分别采用主从对偶检索和混合检索两种工作方式,实现容错。对容易混淆的平翘舌音实施主从对偶检索方式。例如,如果用户输入了平舌音码,系统则进行以平舌音字词集为主,以翘舌音字词集为辅的检索操作。检索出的平舌音字词集的显示与到位方式不变;检索出对应的翘舌音的字词集中,将高频首位字与高频首位词这两项在提示行末尾显示,或者用专设窗口另外显示,该字与词可分别用数字键0与1顶送至光标处。若用户输入无误,则操作如常进行;若错将翘舌音当作平舌音输入,则可启用数字键0或1将另外显示的翘舌音字词顶送至光标处。反之亦然。这样就避免了因平翘舌音混淆错误而引起的重打操作。对容易混淆的前后鼻韵母实施混合检索操作。即系统可不加区分,将前后鼻韵母对应的候选字词集统一检索,统一按使用度排序显示。由于本发明在音形结合的编码设计中已充分考虑了前后鼻韵母对应字词的分布状态,编码的区分度极高,统一检索不会增加重码率。在方言容错输入状态下,词简码操作需作微小改动。由于数字键0与1被启用为容错选择键,词简码的截尾明打键将不包括0与1,但仍可以是2-9这八个键中的任一键,几乎不影响词简码操作的方便性。
考查测评一个汉语输入方案或实用系统的性能。有两大方面的指标。一个是系统本身的输入效率的纯技术极限指标,我们称之为客体效标。一个是用户掌握该输入系统过程中的学习效率指标,我们称之为主体效标。以下从这两个方面分析对比,说明本发明的优点。我们以本编码方案中的声部码子系统为主,结合其他部分进行对比分析。
客体效标主要是重码率,平均击键次数以及复音词的覆盖率与漏词率。重码率又可分为字重码率与词重码率,静态重码率与动态重码率,综合重码率。平均击键次数可分为静态平均击键次数与动态平均击键次数。
根据声部码方案,并结合采用字词分流合成简码技术,对国标一、二级字库全部6763个汉字进行编码;对《现代汉语频率词典》中所列全部16,000个高频词条进行编码,在数据库上进行统计,结果如表3.4所示。
由于本输入系统采用按使用度排序的字词分流合成简码,大部分高频段字词都是用简码方式输入。其中一级字库中2,500个以上的常用字在三键以内输入,超过8,000个常用词在三键以内输入,简码的字词动态覆盖率已达95%以上。所以系统的动态平均击键次数要显著低于静态值。系统的动态重码率更是低到几乎为零。
表3. 声部码静态重码率统计
根据《现代汉语频率词典》按使用度排序的前8,500个词条的动态覆表4. 声部码静态平均击键次数统计
盖率已达95%以上。上述声部码的数据库摸拟统计中,将该词典中按使用度排序的前16,000个词条全部收入,漏词率为零,动态覆盖率大于98%。实际上,根据系统设计的理论模型测算,词库的词条数还可以增长至少一倍,同时保持静态重码率在5%以下。
从以上数据库统计结果考查,本发明的各项主要技术指标,都比五笔字型有显著的实质性的提高,比各种音码则有成倍提高。
不难从数学上证明,本发明的各项主要技术指标,特别是平均击键次数和重码率,已达到或接近达到字词级输入的理论最佳极限值。这主要是因为系统的设计全面采纳了概率论模型和前缀码最优树算法。
主体的效标主要是易学性优劣。一个汉语输入系统,无论它的各项技术指标多么好,如果易学性差,那就难以被广大用户迅速接受,难以产生良好的社会效益。我们以下运用信息加工心理学的认知操作分析方法,将本发明与五笔字型作易学性指标的分析对比。
一般说来,形码比音码难学。形码的难度来自于它的心理操作的复杂度。这主要包括三个方面。第一是对形码归类的学习记忆操作。第二是在输入操作时,对汉字进行形态拆分操作。第三是拆分到具体码元后,在码元与键盘键位之间的联系反应操作。
由学习与教育心理学原理可知,新知识的学习获得,必需在学习者已有的认知图式中找到适当的同化点、同化网或其他形式的同化构造。新知识与原有知识之间同构性越高,学习新知识的效率就越高。汉字的偏旁部首系统,是几千年来人们从事汉字书写实践中逐步总结概括出来的,反映了人们对汉字的形态系统的认识规律,是汉字客体的形态结构与人类主体反映它的认知结构之间的高度统一的产物。每一个人从小学起就学习运用部首偏旁系统,形成了牢固的认知结构。任何形码编码系统的设计和推广使用,如果不把偏旁部首系统作为基本的同构目标或框架,势必造成人类主体知识资源的巨大浪费,造成用户学习上的低效率性,也就难以把编码的技术效率提升到整体社会效益的层次。
总之,由于汉字形态部件非常庞杂,除了部首偏旁系统的归类法外,其他的归类方法与人们先期学习已形成的认知结构不一致,难学难记是不可避免的。非操作员专业的普通用户普遍反映五笔字型难,主要原因正在于此。
本发明中的形码字根归类设计,以最大限度地与部首偏旁系统一致为目标,以认知心理学感知记忆原理、认知操作的组织性与整体性的完形原理为指导,以小学低年级学生写字错误归类分析的大量实验为客观依据,并结合概率论模型与模糊数学模型,实施系统筛选模拟实验;同时将筛选出的字根归类系统在小学生中进行教学实验,搜集反馈信息;通过多次反复,获得了这一形码字根系统。它达到了系统设计的目标-与部首偏旁系统具有最大限度的一致性和相容性。易于被中国人已有的汉字的心理认知图式同化。这就从文化传统和汉语语文教学的基础环节上确立了本形码系统具有很好的易学性。
在实时输入时对汉字进行拆分需要耗费心理操作时间,这是形码难度高的第二个主要原因。拆分操作的复杂度,与形码归类的难度成正比,与拆分次数成正比。如前两段所述,本发明已显著降低了形码字根的归类难度。在本输入系统中,还采用了以下几个方面的综合性措施减少汉语输入时形码拆分次数。第一,音形结合的编码方案,声母+形码的编码系统和音节+形码的编码系统都能有效降低形码拆分次数。与五笔字型相比,在字输入状态时,可使形码拆分次数减少25%-50%。第二,截尾式空格明打字简码技术,不仅可使形码拆分次数减少35%以上,而且不需熟悉记忆简码目标字。五笔字型中也使用截尾式字简码技术,但它采用的是空格盲打法,心理操作的复杂性明显高于明打法技术。第三,字词统一编码方案。声部码双字词的编码形式为“声形声形”,形码拆分次数比五笔字型双字词码减少50%;而且本方案词库词条量是五笔字型词条量的四倍以上,这就是说,在本系统词库中,有四分之三以上的多音词在五笔字型中只能以字方式输入。这些词的形码拆分次数,比五笔字型减少70%以上。在音节加形的输入系统中,词输入时形码拆分次数减少的百分比更高。第四,字词分流合成简码技术,即截尾式数字明打法词简码技术,使形码拆分次数比五笔字型减少70%以上,这进一步强化了本输入系统的易学性与易用性。从整体上看,在本输入系统中,形码拆分次数比五笔字型减少60%以上。在易学性指标方面,这是第二点重大的实质性的提高。
拆分到具体码元之后,与键盘之间的联系反应是形码难度的第三个来源。本发明采用音形义多线索集成方式,在形码归类与键盘键位之间建立联结关系。这种方法不仅易学易记易用,而且使中文与英文之间、汉字与拼音之间在键盘键位和指法操作上趋于统一,相互兼容。
音形结合的编码方案和方言容错技术,使拼音程度较差的用户,也能在不增加重码率的情况下,方便地使用本系统的任一种音形结合的编码输入汉语,不仅不降低输入效率,而且还能使用户在使用过程中逐步提高拼音水平。
特别需要指出的是,由于本发明采用了音形结合的编码方案,它的形码又与规范部首统一,用户只需将他们在小学阶段已经掌握的汉字部首偏旁知识简化归类,就能迅速掌握本输入法。这不仅有利于中文计算机事业的普及,而且有利于汉语文字信息处理的标准化和规范化。更重要的是,本输入法能够与小学汉语书面语教育紧密结合统一,小学低年级学生都能在很短时间内掌握它,这就可以彻底改变汉语儿童难于用电脑学习使用母语的状况,使小学一二年级学生都能够十分方便地用计算机输入处理汉语汉字,这对提高汉语儿童在世界各民族教育竞争中的竞争力,对提高整个中华民族的文化素质,都会产生重大的效益。
下面介绍一个实现方案-简易音部码汉语输入系统。
本输入系统包括两种基本输入检索方式和一种辅助输入检索方式。
一、第一种输入方式是音节加形码输入方式,简称为音形码。
音码采用CCDOS简拼方案,这是考虑到迄今为止该简拼方案仍是音码中覆盖面最广的。
1.字输入编码方式,CCDOS简拼加一到两个形码。形码取码方式为首尾方式,即先按简拼音码输入一个字的音节,然后输入此字的第一个形码和最后一个形码。由于CCDOS简拼是不等长编码,码长最少为一,最多为三,加上两个形码之后,仍为不等长编码,码长最少为三,最多为五。当一个字的编码数不足五个时,以空格键结束。
2.词输入编码方式,复音词一律打五码,编码方式如表5.所示。
表5. 音形码复音词编码方式
注多字词指四字或四字以上的复音词复音词的编码方式可简称为前二后三排列法,即词的首字一律打两码其余三码在后续字之间分配。
二.第二种输入方式是声部码1.字输入方式.一般是由该字拼音的首字母加三个形码组成,即声母+形码+形码+形码。为了与CCDOS简拼和上述音形码相容,声母zh、ch、sh仍分别用a、i、u代替,零声母音节仍用该音节的首字母,但拼音中以字母a为首的音节则以o代替。此外,音节yu、yuan、yue、yun的首键打v。这几个音节可以分别表示成ü,üan,üe,ün,取它们的首字母ü的替代键v。拼音的替代键位可概括如表6.
表6. 声部码拼音替代键位表
形码的取码顺序为第一码,第二码和最后一码。若不足三码则将最后一字根形码按笔划拆分入码。举例如下。
想xmvd.声母是x,三个字根分别是木,目,心,对应于木科,月科,点科,取码分别为m,v,d,合成全码为xmvd。
相xmvu.该字只有两个字根,形码不足三码,取其最后一字根“目”的笔划,目的第一笔是竖,竖科键位是u,合成全码为xmvu。
八bbpn.该字仅有一个字根,取此字根的笔划“撇”,“捺”入码合成全码为bbpn。
2.词输入方式.声部码复音词编码方式见表2。双字词的编码方式可概括为“声形声形”。现举例如下。
时机,诗集,实际,世纪,事迹,师级,试剂,这些词在各种音码中都是重码词。在声部码中,它们的外码如下词拆分解释外码时机sh十里科十j十木科uljm诗集sh十计科十j十人科ujjr实际sh十捺盖科十j十耳科unje世纪sh十草科十j十丝科ucjs事迹sh十横科十j十衣科uhjy师级sh十撇科十j十丝科upjs试剂sh十计科十j十妇科ujjf在声部码中,这些词都不是重码。
三字和三字以上的复音词编码更加简单,不再举例。
三.辅助输入检索方式辅助输入检索方式就是全形码输入方式。在本输入系统中,全形码输入方式是作为一种辅助的输入方式,用于处理输入那些用户不能正确识读的生僻字。为保证高效率输入,系统不应当在不同输入方式之间频繁转换。所以,系统把它作为辅助而非独立的输入方式,悬挂在上述两种基本输入方式之下。全形码共取四码,对字根不足四码的字,取其最后一个字根的笔划入码。从键盘指法操作方便快速考虑,只需在输入第一个形码之后,再输入一个非编码键位,但仍是基本指法范围内的键位,系统就知道应转入全形码检索。可将此键设为逗号键或句号键。这样用户在输入时,一旦遇到不认识的生字,即可方便地用全形码检索输入,而基本输入状态没有改变,不需要在不同输入状态之间频繁转换。注意,逗号键和句号键原有的功能并不受影响。全形码编码方式第一形码+逗号/句号+第二形码+第三形码+第四形码例偾r,xck或r.xck
胤p,svw或p.svw兀h,wpw或h.wpw在全形码检索方式中,同样应当采用原码的截尾式明打简码技术。尾键可以是空格键,也可以是任意数字键。它们不会与主输入方式中的字词简码产生任何冲突。
全形码检索的范围,没有必要包括全体字库,它只处理那些可能的生僻字。可在一级字库中选1,000个次常用字和易读错字,再加上二级字库的全部汉字,共约4,000余字,作为全形码的检索范围。
四.字词分流合成简码的设定.字简码和词简码的设定,需要将统计语言学与工程心理学相结合,主要用三个指标确定一个字或词的综合权值使用度,形码拆分难度,重码状态。各级简码字词就是各级前缀码对应的所有候选字词集中综合权值最大者。由于系统采用的是明打法简码,一个字或词若已设定为K级简码字或词,该字或词就不需要再设K+1级简码或全码。
五.将输入系统设计成能与各种流行的汉字操作系统兼容,能够自由悬挂在这些操作系统下运行。
权利要求
1.一种用于计算机、电子打字机等电脑设备上的键盘式汉语输入系统,其特征在于使用与汉语部首偏旁系统统一的形码字根系统,将此形码系统与汉语拼音自由组合编码,再根据前缀码最优树算法将原码优化为用截尾式明打法实现的字词简码。
2.根据权利要求1所述的汉语输入法,其特征在于它的形码系统将汉字的部首偏旁以及汉字中其他常见的字根形态归纳为27个大类。
3.根据权利要求1.2所述的输入系统,其特征是它的27个形码字根类的取名及其对应键位分别如下点心科-d,横科-h,竖科-u,撇科-p,折科-a,捺盖科-n,双折科-z,正反弯科-w,正反提手科-t,草帽草鞋科-c,衣头衣脚科-y,人科-r,口科-o,厂科-i,木米科-m,八病科-b,大耳刀科-e,小计算科-j,水叉火科-x,白里黑科-l,牛欠钱科-q,又妇多科-f,盼月盈科-v,土工上科-g,贝匡舟科-k,印丝车科-s,石足虫科-;。
4.根据权利要求1所述的输入系统,其特征是它的形码系统可以独立使用,也可以与音码组合使用。
5.根据权利要求1.4所述的输入系统,其特征是它的形码系统可以与简拼、双拼等不同的音码系统组合,也可以单独与声母或韵母组合。
6.根据权利要求1所述的输入系统,其特征在于使用原码的截尾式明打法实现的词简码,词简码的尾键可以是任意数字键,也可以将英文键盘的空格键改造为左右两空格键,指定其中任一键为词简码尾键,保留另一键为字简码尾键。
全文摘要
一种电脑键盘式汉语输入系统,使用拼音与部首相结合的编码,字词统一处理。易学易用,易于与小学汉语语文教学统一。能够输入简体字和繁体字。使用效率最高的前缀码最优树算法设计的字词分流合成简码。各项技术指标接近达到算法理论的极限水平,优于目前市场上流行的各种汉语输入法国标一级字库静态重码率=0,平均击键次数每字两键,词库词条量四万以上。
文档编号G06F3/023GK1081772SQ9210871
公开日1994年2月9日 申请日期1992年7月29日 优先权日1992年7月29日
发明者徐火辉, 王璐 申请人:王璐, 徐火辉