全信息计算机汉字处理系统和实现方法

文档序号:6416811阅读:2066来源:国知局
专利名称:全信息计算机汉字处理系统和实现方法
“全信息计算机汉字处理系统”,亦称“F系统”或“F系统规范”(F-spec)。是由“中文字母字信息交换码(CACII)”、“全信息汉字计算机表达式”、“中文字母字组字技术”和“中文字母字输入技术”共四部分组成。它是我们研究多年的对中文计算机提出重新设计新思路的文字处理系统的总体设计思想和实现方法。是一系列分项发明的总体构思和总体实现的途径。
本说明书根据“全信息计算机汉字处理系统”地总体思想和实现方法,从分析高位置“1”的双字节中文计算机设计思路给中文信息计算机数字化处理带来的缺陷入手,给出解决这些缺陷的方法,提出对我国的中文计算机重新设计的新思路,阐述实现全信息计算机汉字处理系统的技术核心和展望由于F系统规范下的全信息汉字表达式的实现对今后计算机中文信息数字化处理领域的深刻影响。
一、双字节汉字处理系统的缺陷分析和全信息汉字表达式的提出
1998年年底在南京召开的信息产业发展国际研讨会上,世界计算机“三巨头”的代表一针见血地指出,中国信息产业严重受阻的原因是中国计算机的不普及,而不能普及的原因又是计算机的操作复杂和汉字输入难!99年6月28日,在专家云集的北京“21世纪的计算”学术研讨会上,“计算机数字处理汉字难”的问题,成为会议讨论的议题之一,并呼吁要花气力解决“计算机数字处理汉字难”问题。究竟现行双字节汉字处理系统的局限性在何处?请看如下事实
为什么会出现“计算机数字信息处理汉字难”这个难题?主要原因是由于中文计算机在设计初期的“高位置1”造成的。大家知道,计算机开始进入中国时,计算机的软硬件是专门为西文设计的,当时根本无法处理中文。后来人们从西文计算机的高位置“0”的信息交换码原理得到启发,得出以高位置“1”的双字节来表示汉字和设计中文计算机的思路,并且一直应用于整个中文计算机的设计过程。现行中文计算机的软硬件设计均是西文计算机软硬件的二次开发,是西文计算机软硬件的附属品和嫁接物,总算解决了“计算机处理中文问题”。殊不知在庆幸汉字在计算机中有了立脚之地时,又为计算机中文处理的发展带来了众多缺陷和灾难。纵观二十年来计算机中文信息处理的发展历程,人们喜忧兼有。由于高位置“1”思路和“双字节”概念的错误引导,把人们的设计思想长期固化在一个设计模式上。
为了方便叙述,我们把“高位置1”的中文操作系统或中文平台(或称外挂平台)统称为"双字节汉字处理系统"。以双字节汉字处理系统为技术核心的电脑称为“双字节汉字电脑”,以区别于本文提出的新概念“全信息计算机汉字表达式”、“全信息计算机汉字处理系统”和“单字节汉字电脑”。
高位置“1”的双字节原理所设计的中文计算机的思路给中文计算机的发展带来的局限和灾难与计算机“千年虫”一样,其危害性是显而易见的;
(一)东西方文字结构关系的长期被颠倒
高位置“1”的双字节设计思路,把英文的“字母”与汉字的“字”等同看侍。大家知道,计算机在处理英文时,只处理52个大小写字母,但计算机在处理中文时,则要处理成千上万个汉字。计算机处理英文52个大小写字母非常容易,处理成千上万个汉字就难了。为了解决汉字的计算机输入和处理问题,竟把汉字的“字”等同于英文的“字母”,人为地拉开计算机处理西文与中文的技术差距,造成了汉字在内部表达上的混乱。这种设计思路也违反了汉字的造字规律。
汉字的造字规律完全类似拉丁文字字母组单词规律,所不同的是汉字在二维方向(平面)组字,而拉丁文在一维方向组字。95%以上的汉字都是形声字,都由形旁和声旁组成的。一个形声字的形旁,可以和无数个声旁组合成无数个汉字。如提手旁“扌”与“用”、“发”、“旨”、“旦”“困”、“罢”、“国”、“婴”、“恩”、“门”、“台”、“查”……等,组成“拥”、“拨”、“指”、“担”、“捆”、“摆”、“掴”、“撄”、“摁”、“扪”、“抬”、“揸”等汉字。反之,一个声旁,如“可”,也可以和“亻”、“阝”、“车”、“艹”、“钅”、“”、“讠”、“王”、“木”
、“氵”、“山”、“口”、“大”、“疴”、“月”、“”等形旁,组成“何”、“阿”、“轲”、“苛”、“钶”、“坷”、“诃”、“珂”、“柯”、“河”、“岢”、“呵”、“奇”、“疴”、“胢”、“笴”等无数个汉字。显然,大部份中国汉字是以形旁定义,以声旁定音的。它们具有象形文字的优点,也具有拉丁文字母组字的特性和功能。在联合国使用的五种语种中,中文是最简练的文字。同样一篇发言稿,中文的篇幅比其它语种少三分之一。这就足以说明中文的简练和内涵的丰富。无疑,有着五千多年文化历史的中文是世界上最优秀的文字。但是,在计算机处理中文时却变成最难处理的文字。这说明,目前计算机中文处理系统存在很大技术问题和缺陷,它不能真实反映中文的文字特点,也没有发挥中文文字结构优势。其中最主要的原因是在中文计算机的设计上,以中文的“字”长期对应英文的“字母”,以汉字的“词”(或句)对应英文的“单词”,由于文字结构关系长期错位,造成了计算机内部设计没有一个统一的全信息表达式,因而就存在着无法克服的缺陷。
(二)多极化的中文字符集和中文操作平台
高位置1的设计思路,导致了中文字符集和中文平台的多极化发展,出现了几十种中文字符集和中文平台,造成了人们在选择上的无所适从和混乱,同时也造成了大量的重复开发和人力物力的极大浪费。大家知道,西文在计算机内部被表示成单字节内码串,通常单字节的高位为0,西文字母及符号的内码被安排在0-127的范围内,这是因为拉丁文字的字母(包括大小写)加上常用符号总数往往不大于100个,而早期的计算机通讯是以单字节7个比特位加高位较验位的方式进行的。故拉丁文字符通常以0-127的码集出现,这就使得早期无法用单字节表达超过256码的大字集而又要同时兼容西文字符集。设计者们很自然地想到利用高位置1的方式表示双字节的汉字(台湾的BIG5码与GB码的较大差别在于第二字节高位不置1)。由此而得到的双字节表达空间是足够包容当时认为的常用汉字空间。两个字节的内码来识别每个汉字与符号(我们称之为双字节内码),即把几千(或上万)个汉字定义成一个大字符集。高位置“1”的双字节规定了汉字字集的最大数量和系统提供访问汉字地址的最大数是128×256=32768。在这个数目范围内,中国制定了包括6763个汉字的国标字符集(GB2312),台湾也制定了包括13659个汉字的大五码字符集(Big-5),日本制定了包括5801个汉字的日本文信息交换码字符集,美国微软公司制定了包括24288个汉字的联合码字符集(UNICODE)。形成画地为牢,各自为政,互相不往来的混乱局面。于是,不同字数、不同字体的东方大小字符集相继产生,这些字符集包含了成千上万个汉字字型信息,根据不同的字符集又设计出了不同的中文操作平台或中文操作系统。如用GB码作为内码集的PWINDOWS和PDOS和用BIG5为内码集的CWINDOWS和CDOS等。很显然,中国制定6763个汉字的国标字符集是最小字符集,它远远不能适应用户的需要。然而,在中国又开发了十多个超过6763个汉字的中文平台或中文操作系统,比较有名的有北大方正包括16300个汉字的中文操作系统。不同的中文操作平台有不同的中文操作系统、不同的汉字内码和基於不同汉字内码的应用软件。这些不同的中文操作系统,由于汉字内码的不一致,造成了各自系统的文本文件互相间不能读出,所造新字更不能互相支持读出和打印出来。在计算机领域又出现了所谓“跨平台”的技术术语。其实,跨平台的含义也是局部的,并不存在真正的跨平台概念。它们的解决办法是表面和不彻底的,只不过是提供了不同操作平台的汉字内码转换表而已,因为这种汉字内码转换表并不能包括所有操作平台的汉字内码表。所谓跨简繁体操作平台,它的技术难度是在一个简体汉字等於若干个繁体汉字时,其内外码关系不是一一对应关系。
(三)万“码”奔腾的混乱局面
西文只有一个操作平台,一种英文输入法。而在东方就有几十种中文操作平台和几百种汉字输入法出现,这就足以说明计算机汉字内码表达是如此之混乱。据了解,至今平均每一周就有一个汉字输入法问世。他们千篇一律把汉字的“字”与西文的“字母”相对应,多数以英文字母串对每一个汉字进行编码,形成一张张英文字母串和双字节汉字内码映照码表,呈现出似乎已经解决了“汉字的输入问题”。但在众多的汉字输入法中,至今没有一种能够普及到中国人和寻常百姓人家的。可以这样说,汉字输入法的大规模出现不是一个兴兴向荣的好事,而是一个更加混乱的、使人们在众多输入法面前无所适从的局面,是汉字输入还没有真正解决的标志。20多年来,泱泱的计算机世界,汉字的信息处理,持续至今近20年而停滞徘徊。相反,英文计算机软硬件系统只有一个ASCII信息交换码和英文操作平台,只有一种与ASCII信息交换码一一对应的英文键盘输入法。英文没有必要再发展另外的英文操作平台和英文输入法。到目前为此,我们仍然需要投入大量资全去研究西文早已解决了的输入法和计算机文字处理系统,去解决中文输入难和计算机处理中文难的问题。由此可见,高位置“1”的双字节设计思路所开发的中文计算机,让我们付出了多么昂贵的代价。“万码奔腾”局面何时了?
(四)中西文软件互不兼容
高位置“1”的双字节设计思路使计算机处理中文与西文有着本质的区别。原因有二(1)西文系统软件和应用软件在设计时是用ASCII码字符集作为计算机的内部交换码,没有考虑高位置“1”的双字节汉字内码和安排访问汉字的地址;(2)英文的TRUE TYPE字母字库所占内存字节数在100K字节以下,可以直接把几百种字体调入内存处理,而中文TRUE TYPE中文字库所占内存字节数在2000K字节以上,不可能把很多种汉字字体一次直接调入内存处理。
由於西方的大部分软件在制作时没有考虑支持汉字,因此,大多数英文软件都不能直接用于汉字处理。于是,能正常使用汉字的基本条件就变为“中文操作系统+汉化版软件”。也就是说,西方开发商在开发一种新的软件时,必须同时考虑开发两种版本,一种适应于西文计算机使用,另一种则适应双字节中文系统使用。以应用最广泛的微机领域为例,几乎所有的开发商都开发了两种版本的应用软件。总之,不管是开发一种版本的还是开发两种版本的软件,运用于西文视窗上的,只能运行英文软件;应用于双字节系统上的,也只能是双字节的中文软件,从而使东西方软件的开发和应用,人为地形成中西文两种版本的区别和互不兼容,造成了巨大的人力物力浪费。
(五)中文信息数字化处理能力明显弱於西文
首先请看“拉丁文系统与当前中文系统综合性能比较表”
拉丁文系统与当前中文系统综合性能比较表
从上面的论述中我们可以得出这样的结论一种语言文字在计算机中处理的效率及扩展性和它的表达方式有着密切的关系。我们从上表可以看出,英文系统和当前中文系统的内码表示是英文系统的内码为ASCII信息交换码;当前市场上流行的中文系统是双字节0-32767内码。
西文系统的输入码是键盘键位英文字符本身,是1=1单一对应,不须进行任何形式的所谓“编码”;当前流行的各种中文系统的输入法是数百种用键盘字母串(或拼音字母串)对应双字节汉字和符号地址,千篇一律地对各自系统的字符集进行各种形式的代码编码。
从字集的信息量看,西文每套字型只包含256个(一个单字节)以下的字母字型(含符号),而当前流行的中文系统的字型容量很大,有5801-24288不等的各种大字符集,占用存储空间很大。
从字型的种类看,西文超过二千种,而当前中文系统的字型种类则不足100种。
从内码与外码的关系来看,当前中文系统的内码与外码是无关的,需建立映照关系;西文系统的内码与外码相同。
从内码的扩充性和易交换性可以看出,西文由于字母的简捷性和灵活性,极易扩充和交换,但目前中文系统的内码扩充性已经固定不能扩充,且不易交换。
从以上比较中得出,目前流行的中文系统的文字处理功能明显弱于西文。其表现还在于英文字母组单词是无限的,而安排在各种字符集中的汉字是有限的。然而这些固定在字符集中的很多汉字,其利用率是相当低的,有很多字的使用频度几乎为“零”。但在各个领域又出现了永远造不完的缺字和僻字,而且各自系统(平台)之间互相不能“读出”,造成了许多尴尬和遗憾。
(六)高位置“1”的设计思路严重阻碍中文信息数字化处理技术的发展
从上面的分析中得出高位置“1”的设计思路严重阻碍中文信息数字化处理技术的发展。双字节设计绝对不是中文系统的发展方向,它的进一步发展,将导致中文系统技术的发展受到更加严重阻碍。二十年前中文计算机的设计者们采用高位置“1”的双字节内码安排汉字的数量和地址,人为地给汉字规定了一个有限的字符集和有限的汉字地址。从理论上来讲人类文字的进步和发展是无限的。如英文“牛津字典”的英文单词就收集了四十一万四千八百二十五个。中国的“康熙字典”是目前收集汉最多的字典,也只不过有四万二千多个汉字。然而,按照汉字的声旁和形旁造字法,又可造出是无限个中国汉字。现行的这种有限的字符集来定义无限个发展的字符集是不符合人类文明进步和发展的规律的。
高位置“1”设计的第一个难题是字符集大小和汉字数量的限定。计算机发展初期,其内存是非常宝贵和有限的,处理速度非常慢。字符集太大,计算机处理更困难,字符集太小,所规定的汉字又不能满足需要。在中国,经过大量的统计工作,制定了国家标准(GB-2312),收集了6763个汉字。台湾采用13659个汉字的大五码字符集。在当时6763个汉字是合理的,小字符集使中文系统的设计、中文输入法的设计和中文字库的制作变为简单容易。计算机发展到今天,已经渗透到各个领域,特别是在印刷出版领域,6763个汉字是不适应其发展需要的。一个最简单例子是中国总理朱镕基的“镕”字,没有收集到6763个汉字内。每天的新闻和出版物要处理这个缺字不是一个简单的事。象以上情况何只“镕”一个字,在我们的报刊杂上不泛其数,也经常出现同样的笑话。99年7月28日,《扬子晚报》第12版(A)刊登一篇短文,题目叫《出门早看天》,文中开头第三行对天空的描写有这样一句话“早上还是晴空万里,不久便见乌云云爱云逮”,使人百思不知其解。后来才发现,原来是报纸在排版时,计算机字库里没有“叆叇”二字,只好用“云爱云逮”四个字代替“叆叇”二字了。
美国微软公司为了解决计算机中文处理的多字集、多平台的混乱局面,制定了联合码字符集(UNICODE),提供计算机访问24288个汉字地址,它收集了包括中国国标6763个汉字、台湾13250个汉字和日本5801个汉字,字数总数达到二万多个,在WINDOWS 95得到运用,希望一统东方市埸。
联合码字符集的解决方案是否是汉字计算机处理的最终解决方案?答案是否定的。因为《康熙字典》的字仍然有半数以上的汉字没有收集进去,韩文中有二万多个汉字没有收集。高位置“1”的双字节规定了汉字最大数量和系统提供访问汉字地址的最大数是128×256=32768,如果要把这些字完全收集进去,很显然要定义高位置“1”的三字节地址,这显然是不现实的。因为字符集愈大,使用频度为零的汉字愈多,计算机处理中文的效率就愈底。正是由于这个原因,使用联合码字符集的用户是不多的。这是美国微软公司利用系统优势,强行制定的系统标准。到目前为止,没有一种输入法能很好地访问联合码字符集。联合码字符集解决方案的设计思想仍然是高位置“1”的有限字符集,它不能从根本上解决因设计思想带来的缺陷和限制。尽管联合码字符集包括中国、中国台湾和日本的汉字,但由於政冶原因美国微软公司不得不搞三个版本的联合码字符集,而这三个版本的汉字内码表示又是不相同的。
以上六点足以说明,现行的计算机中文处理的缺陷和问题是因为当初计算机中文处理设计者的疏忽,只考虑简单易行,没有认真思考将来的发展。这一情况类似于计算机“千年虫”问题,由於当初设计者的疏忽,为了节省内存,没有给年份足够的字节位表示,到了2000年,给人类带来巨大的经济捐失。在十五年前,就已经有人对高位置“1”的设计思想提出质疑,并提出了以汉字的部件组字的方案,但没有得到应有的重视。设想一下,英文计算机的设计者采用了高位置“1”的办法来给英文41万个单词划一个有限的字符集空间,处理英文与处理中文一样,对每一个单词进行编码,字库占据了庞大的内存。几乎所有的人都会同时认为将是一个降低计算机处理英文效率的最愚蠢的设计方案。
在计算机处理英文时,这样一个人人都认为愚蠢的设计方案却伴随计算机中文处理系统走了二十年。世界上最大的、技术实力最强的软件公司——美国微软公司也采用这样一个愚蠢的设计方案,提出和实施了“联合码字符集”方案。中国人最了解中文,他们是在中文环境中长大的,可是,中文计算机要依赖美国人来设计,这就有点不可思议了。到目前为止,还没有人用计算机的方法去揭示我们祖先创造汉字的规律,也没有人在理论和实践上证明中国的象形文字在计算机上同样可以用52个中文母字组成无穷尽个汉字,组字规律和方法完全相同於英文,输入中文与输入英文一样简单和容易。能否寻找一种有效的方法,解决以上缺陷而使得中文信息的计算机处理起死回生呢?回答当然是肯定的。
本文提出了“全信息计算机汉字处理系统的实现方法”,是针对目前计算机领域出现的以上问题,采用数学公式推理、汉字的计算机的“树”表示法和软件制作,提出了解决方案,从理论和实践上揭示汉字的组字规律和提出全新的计算机汉字处理设计思想、观点、规范、标准和实现这些设计思想、规范和标准的方法和途径。本发明技术可以制作成系统软件或系统芯片安装到电脑里组成“尖端单字节汉字电脑”。本发明也是前九个发明(八个是分项发明)的总结、总体构思和总体实现方法。1998年10月12日我们申请了“尖端单字节汉字电脑”(申请号98111533.0,1999年10月20日公布)。为了解决“单字节汉字电脑”的实施技术问题,我们又分别申请了若干分项发明,它们分别是“尖端码汉字字母字键盘”(1998.10.12日申请,申请号98111531.4);“中文字母字组字技术”(1999.6.28日申请,申请号;99114284.5);“中文字母字编码法”(1999.6.28日申请,申请号99114283.7);和“一字到位检字法”(1999.6.28日申请,申请号99114285.3)。与本发明一起申请的另外四个分项发明,它们分别是“无编码概念的中文字母字输入法”、“全信息汉字表达式和实现方法”、“同舟自动造字法”、“九宫汉字输入法”。本发明是一个总体构思,并提出新的系统规范或标准。
下面是全信息计算机汉字处理系统(亦称“F系统规范”)实现方法的全面论述。为论述方便,下面我们把全信息计算机汉字处理系统简称为“F系统”。
二、全信息汉字计算机表达式的提出
何谓全信息汉字表达式?我们可以认为表达方式的含义是汉字在计算机中的信息表示,即汉字输入代码、汉字的中文字母字组成方式、中文字母字的存放形式、提取方式、中文字母字在计算机内部的交换方式和这些中文字母字之间的相互关系。它用数学表示的方法揭示汉字形声字的组字规律。这是F系统实现的理论基础。见分项发明申请专利《全信息汉字表达式和实现方法》。
(一)拉丁体系文字与象形文字的比较
下表对两大体系文字在基本元素、语义单位、意群、独立概念、完整阐述等作如下比较,然后逐一剖述。
拉丁文体系文字与象形文字的结构对照表
从上表可以看出两种文字体系的对应关系西文的“字母”对应中文的“字母字”(即汉字的笔画、部件、偏旁、部首);西文的单词(如Home、You、Study)对应中文的“字”和“词”(如家、你、学习等);其余的文字结构基本上是一样的。西文的字母所对应的是汉字的笔画、部件、偏旁、部首等。我们经过精心筛选后,把这些汉字的基本组字单元定义为“中文字母字”。中文字母字具有独立的汉字的语义,同时具有拉丁字母的组字特性和功能。它们可以互相组合成所有的象形方块文字。而英文字母只是一种符号,没有任何的意思和含义,两种文字之间的区别就在于此。英文的单词是由拉丁文的基本元素——字母构成的,而中文则由字母字在二维的平面关系上叠拼而成(也可以用某种一维的字符串来表示),从而产生了中文的“字”与西文的“单词”有着表达上的相似性和共同点。
(二)五十二个中文字母字的确定
在计算机内部处理上,要理顺中文与英文的文字结构对应关系,就是寻找汉字和拼音文字的共同点,细心挖掘象形文字的造字规律以及它们也具有的简捷性和灵活性,满足F系统实现的必需条件。提出汉字是由52个中文字母字组成的,中文字母字对应英文字母的新观点和新理论,就是基於绝大部份汉字的构成都是形旁和声旁的左右拼合(完全相同英文组单词)和上下叠加(类似英文组单词,不同的是汉字是在纵方向(即Y方向)组字的。所有汉字均可用五种笔划横(一)、竖(丨)、撇(丿)、捺()、点(丶)组成。这是汉字构字的两个基本规律。52个中文字母字相当於英文52个大小写字母。我们用计算机统计挑选出35个形旁、5种单笔划和12种复合笔划构成52个中文母字,解决了全信息汉字计算机表达式的关键技术。
在52个中文字母字中,26个对应26个英文小写字母,另外26个对应26个英文大写字母。它们的对应关系如下a/冂;b/
;c/扌;d/;e/;f/丶;g/一;h/丨I/亠;j/丿;k/宀;l/;m/;n/;o/;p/二;q/日;r/犭;s/衤;t/阝;u/;v/艹;w/亻;x/乛;y/ナ;z/
A/月;B/门;C/车;D/木;E/鱼;F/白;G/酉;H/山 I/广;J/禾
;K/石;L/口;M/尸;N/马;O/饣;P/王;Q/目;R/;S/火;T/十;U/讠;V/革;W/人;X/钅;Y/虫;Z/女。
(三)全信息汉字数学表达式
要了解全信息汉字的数学表达方式,首先必须了解汉字结构的树表示法。不同的汉字有不同的结构树,如果对树的计算机表达搞清楚了,全信息汉字的数学表示也就不难理解了。我们把每一个汉字理解为一棵树,汉字的集合(段落和篇章)就构成“森林”,每棵树都有自己的不同的结构(分枝),不同的叶子(笔划和部件)和不同的深度(分枝数)。(如附

图1所示)
定义树是一个或多个结点的有限集合。
1、有一个特殊标记的结点,称为根。
2、剩下的结点构成几个不相同的集合,
F1、F2、F3、……,Fn N≥0
每一个Fi,i=1、2、3……,N是根的分枝
3、层次;指树的深度和分枝层次。
有许多名词是与树有关的,列举如下
“结点”,通常被用耒表示某个信息以及由其出发而指向其它信息的所有分枝。如结点“覆”是指汉字“覆”加上它的三个分枝。树可以有不同的画法,是与日常生活植物“树”相反的。如我们将树的根画在最上面的,一个结点的分枝数目,被称为该结点的“度”或者“级”,而“覆”是一个四度结点。而结点“西”、“丿”、“亻”、“”、“日”、“女”和“攵”是0度结点,0度结点称为叶子或者终端结点,“西、丿、亻、、日、攵”是根为“覆”所有叶子的集合。相应地其它结点称为非终端结点(覆、復、彳、复、)是根为“覆”的所有非终端结点的集合。
结点的层次可以递归地定义,即先定义根的层次为1,然后再定义分枝为第二层结点、第三层结点,直到第N层结点。一棵树的深度或高度定义为该树上所有结点具有的层次数的最大值。因此,以“覆”为根的树是三层次树,或称其深度为“3”的树。
N根不相交的树(N≥0)的集合称为森林。如果我们把汉字转换成一棵树,所有不能分割的汉字部件和笔画(中文字母字)称为叶子。显然对一棵树而言,叶子的集合越小,生成的树的深度愈大,反之,叶子的集合越大,则生成的树深度越小。在实际应用中,为了用52个中文字母字来表示无限个汉字,“覆”字中的“西”和“夂”还可以进一步往下分为“西”=一、冂、丿、;“夂”=
、;
在计算机科学中,有许多树的表达方法,本文采用“表结构”表示法。表结构的记号为Fi{T1(A、B、C、D、)、T2(A、B、C、D)......Tn(A、B、C、D)}
其中Fi表示表的名称,而T1、T2、……Tn表示该表的元素。A、B、C、D分别表示每个元素的结构信息、定位信息、尺寸信息和其它信息。i=1~∽N≥1
按照树的结构表达式,我们可以得到全信息汉字的数学表达式F=∑fi{T1(a、b、c)、T2(a、b、c)……Tn(a、b、c)}
i=1-∽
n≤256
F定义为汉字的集合,集合的数量由i定义,可以是无限的。
Tn表示中文字母字元素。n≤256表示组成汉字的中文字母字元素小于256。在实际应用中,n=52;
a表示中文字母字所处结点的结构信息;
b表示中文字母字的定位信息;
c表示中文字母字尺寸信息。
我们分折汉字的树表示法,目的是寻找一种能够表达每个具体汉字全部信息的结构单元和组字单元,也就是说找出语言文字的计算机处理要素和全信息汉字表达式。
(四)全信息汉字数学表达式的实现方法
根据以上的全信息汉字数学表达式,可以得到52个中文字母字组成汉字的实际表达式。在得到实际表达式之前,我们定义如下参数
缺省值表示中文字母字;
“1”表示汉字的左右结构;
“2”表示汉字的上下结构;
“3”表示汉字的左中右结构;
“4”表示汉字的上中下结构;
“5”表示汉字的独体结构;
“6”为汉字的递归定义符,它表示该汉字的全信息表达式。是采用递归调用方法实现的
a(x,y)表示中文字母字的尺寸参数;
b(x,y)表示中文字母字的位移参数;
下面是“覆”字在实际应用中的表达式
覆=2[5一门丿-1(2
亻3(日5(
)]
以上“覆”字的表达式中共有11个中文字母字,每个中文字母字都有一个中文字母字的二维尺寸参数和一个中文字母字的二维位移参数,总数是55个字节字符串,再加上结构符,总数是65个字节字符串。很显然,每个汉字的平均字节字符串大约在60个字节左右。英文每个单词的平均字节字符串在7个字节左右,再加上一维尺寸参数和一维位移参数,每个英文单词的平均字节字符串大约在20个字节左右。汉字的平均字节字符串是英文单词的三倍。但是,从汉字“覆”的结构中,我们看到“覆”字是一个由汉字“西”和“復”组成的上下结构汉字,而“復”字又是由字母字“彳”和汉字“复”组成的左右型汉字,而“复”字还可以进一步分为由“”、“日”和“夂”组成的上中下结构汉字。汉字“夂”又可分为由中文字母字
和“”组成的独体字。汉字的组构形式是字组字,字中有字,而字又是由偏旁部首和笔划组成的。我们对所有汉字进行了详细的拆分和组合,发现以形声字为主体的中国汉字,其结构和组字规律相当明显。据统计,在汉字中使用频度最高的是“口”字,使用次数在1000次以上,其余的算是“氵”、“艹”、“木”、“日”、“扌”、“亻”、“月”、“钅”等,它们的使用频度都在200-500次之间,还有为数不少的独体字、形旁、声旁、部首、部件和汉字笔画,都有不同数目的使用频度。这就给我们一个新的算法95%以上的汉字可以采用数学中的“递归定义算法”加以定义,只有5%使用频度高的独体汉字,偏旁部首需要全信息汉字表达式定义,而且只需要定义一次,不用理会它们出现的频度。采用“递归定义算法”同样达到用全信息汉字表达式定义每一个汉字的目的。
按照“递归定义算法”,汉字“覆”的全信息汉字表达式就变为如下表达式
覆=2[6西6復]
西=5一门丿-
復=1[6彳6复]
复=3[日6夂]
夂=5

“6”表示汉字的递归定义符,是表示该汉字的全信息表达式。采用递归调用方法,其字节占用数明显下降。a(x,y)的二维尺寸参数和b(x,y)的二维位移参数中的x值就变为0,这就告诉我们二维方向的汉字组字技术也可在一维方向上组字。从此,汉字组字与英文字母组单词一样简单和容易。汉字“覆”的字符串所占用的字节总数就变为11个字节(包括递归定义符,结构定义符,尺寸参数和位移参数)。由于考虑到5%汉字的全信息汉字表达式增加的字节数为65×5%近似等於4个字节,“覆”字的字符串所占用的字节总数就增加到11+4=15个字节。采用递归定义算法,“覆”的字符串所占用的字节总数由65个字节变为15个字节,信息量压缩了4倍,比英文单词的平均字符串所占用的字节数(20个)减少了5个字节数。
采用递归定义算法,国标字符集(GB-2312)中的6763个汉字的全信息表达式总的字节数大约可下降至100K左右,这个数加上52个TRUE TYPE中文字母字字库的字节数30K,总字节数等於130K。目前,在双字节中文操作系统和视窗(如Windows95和Windows98)中使用的TRUE TYPE中文字库,每一种字型占用的字节总数大约在2000K(2M)字节,这个数是130K的近16倍。可以肯定,递归定义算法的全信息汉字表达式大幅度压缩了汉字的信息量,使东方的象形文字的信息量相同於拉丁体系文字的信息量。
下面是国标(GB2312)字符集16区(94个汉字)采用递归定义算法得出的全信息汉字表达式啊=1[口6阿]阿=1[阝6可]埃=1[6矣]挨=1[扌6矣]哎=1[口6艾]唉=1[口6矣]哀=5[亠口6
]皑=1[白6岂]岂=2[山6已]癌=2[疒6喦]蔼=2[艹6謁]矮=1[6
6委]艾=5艹丿碍=1[6石6
]爱=2[爫冖6友]隘=1[阝6益]鞍=1[革6安]氨=2[气6安]安=1宀女俺=1[亻6奄]按=1[扌6安]暗=1[日6音]岸=4[山厂6干]胺=1[月6安]案=2[6安木]肮=1[月6亢]昂=2[日6印]盎=2[6央6皿]凹=5凹丨-丨-敖=1[6
6攵]熬=2[6敖6灬]翱=1[6皋6羽]袄=1[衤6天]傲=1[亻6敖]奥=2[6
6大]懊=1[忄6奥]澳=1[氵6奥]芭=2[艹6巴]捌=3[扌6另6刂]扒=1[扌6八]叭=1[口八]吧=1[口6巴]笆=2[6巴]八=5丿疤=2[疒6巴]巴=5丨一拔=1[扌6
]跋=1[6
]靶=1[革6巴]把=1[扌6巴]耙=1[6
6巴]坝=1[6贝]霸=2[6
6
]罢=2[罒6去]爸=2[6父6巴]白=白柏=1[木白]百=5一白摆=1[扌6罢]佰=1[亻6百]败=1[6贝6攵]拜=1[5
二丿5二二丨]稗=1[禾6卑]斑=3[王6文6王]班=3[王丶丿6王]搬=1[扌6般]扳=1[扌6反]般=1[6舟6殳]颁=1[6分6页]板=1[木6反]版=1[6片6反]扮=1[扌6分]拌=1[扌6半]伴=1[亻6半]瓣=3[6
瓜6辛]半=5丷二丨办=5[6力
丶]绊=1[纟6半]邦=1[5二一丿阝]帮=2[6邦6巾]梆=1[木6邦]榜=1[木6旁]膀=1[月6旁]绑=2[纟6邦]棒=1[木6奉]磅=1[石6旁]蚌=1[虫6丰]镑=1[钅6旁]傍=1[亻6旁]谤=1[讠6旁]苞=2[艹6包]胞=1[月6包]包=5勹-褒=4[亠6保6
]剥=1[6录6刂]
采用递归定义后,国标(GB-2312)16区94个汉字全信息表达式90%的汉字可以用左右型、上下型结构像英文一样在一维方向(X方向或Y方向)组汉字。5%的汉字是左中右和上中下型结构,也可以像英文一样在一维方向组汉字。仅有5%的汉字需要全信息表达式,这些字绝大部份是音旁汉字或称独体汉字。这就足以证明用52个中文字母字可以组成所有汉字。
全信息计算机汉字表达式真实地反映了汉字是由形旁和声旁组成形声字的结构规律。设想一下,如果每一个形旁和声旁都可以组成一个形音结合的汉字,那么这种组字方法的原理是可以组成无穷尽个汉字,表现在计算机领域的概念,就是汉字的计算机中文信息数字化处理是没有任何字符集概念的。
三、中文字母字信息交换码(CACII)的制定
信息是记录整个人类文明史的形式,人类一时一刻也离不开信息。信息必须在人类社会中不断交换、比较和更新,孤立的信息是没有意义的。因此,电子计算机和电讯科学的发展都要求世界上有一个统一的信息交换用的标准代码,这是创立全球信息通讯网的必要条件。一九六三年美国标准学会率先制定了美国信息交换标准代码(USA Standard Code for Information Interchange),简称为ASCII代码,一九六八年作为美国联邦信息处理标准而颁布。一九六七年,国际标准化组织ISO(The International Organization for Standardization)制定了ISO建议书R646-1967,一九六八年十月国际电报电话咨询委员会CCITT通过了国际字母表5号(CCITT RV3,International Alphabet No.5),均与ASCII代码大致相同。
目前的各大计算机公司一般均以ASCII代码为内部码来设计电子计算机系统,但也有例外的,例如IBM公司的内部码是EBCDIC码(Extended Binary-Coded-Decimal Interchange Code)。因此,当IBM系统的电子计算机与以ASCII码作为内部码的电子计算机进行通讯时,还必须换码。
在东方,所有的中文操作系统、中文视窗、各种各样的应用软件和工具软件均是英文软件的二次开发和嫁接。并不能独立于英文系统之外而自行开发,也没有基於中文的计算机信息交换码。由于52个中文字母字的全信息表达式的实现,制定一个基於中文的计算机信息交换码标准作为F系统的内码已成为可能。我们称它为“中文字母字信息交换码”,英文缩写为CACII(Chinese AlphabetCodefor Information Interchange)。一个最简单的方法是用52个中文字母字和中文的标点符号替换ASCII交换码的52个大小写英文字母和英文的标点符号而成为CACII交换码,也可以独立於ASCII代码自行定义,成为中国的CACII交换码标准。
四、F系统规范下的中文字母字键盘
计算机键盘在计算机的应用中有着重要的作用,它是人与计算机沟通的桥梁和工具。用户的各种命令的输入,主要靠键盘完善的成。如我们要查看磁盘、光盘中的各类文件,通常是通过键盘输入显字文件目录的命令,当我们击一下<ENTER>键,屏幕上立即显示出当前目录下的所有文件名称、长度和建立日期等。用下划线标出的“DIR”即从键盘输入的“显字文件目录”键入命令。键盘上的“ENTER”用于表示命令输入结束、开始执行。称之为“回车键”。
通过键盘,人们就可以输入包括文字、数字、各种符号在内的各种信息,也可以完成各种信息的编辑和信息的保存。输入信息是文字处理工作最常见、最基本的工作。通过键盘实施输入,以达到对计算机某种功能的控制。在键盘的键位中,不是所有的键位都是用来输入具体内容的,如<F1>、<PAUSE-暂停>、<CTRL-控制>等,这些键位是被赋予某种控制功能,或者与其它键位组合,起着某种控制作用的。如<PAUSE-暂停>键是暂停运行控制键,在显示目录的操作中,如按下此键,各种目录将被暂停显示,当再按任意键时,又会被继续暂停目录显示。在操作运行其它程序时,如按此键,同样起着“暂停运行”的作用。
又如组合键<CTRL-控制>+<ALT-转换>+<DEL-删除>的使用,完成“系统热起动”(重新起动)的功能,但键盘上有些键位功能是视不同的软件而定的,因此,有的键位功能的使用,要结合各软件具体赋予该键的功能而定。
人类当前在计算机文字处理工作中的各编辑控制要求,多数是通过键盘来控制的,现代人的文字处理工作,除输入信息外,还有很多的愿望和要求,如要查看自己输入内容、效果,修改、增加、删除自己的文本文件,确定修改部位等,这一系列操作称为编辑控制。键盘上的编辑控制操作键,通常处在键盘右侧的编辑区域内。要特别注意的是,在使用编辑时必须是编辑环境下(即允许进行编辑操作的环境)才能使用,这是使用编辑键的首要条件。
长期以来,计算机键盘都是以英文为主体和以英文为符号标记而设计的,因此,不懂英文和拼音的大部分文化水平较低的普通老百姓,在初学键盘输入时,根本无法辩认繁杂的功能键如何操作,初上战场两眼一般黑,造成了学习的压力和不便。目前仍没有一个纯中文的计算机键盘问世。
由于全信息汉字表达式的发明和中文字母字信息交换码(CACII)的制定,一个纯中文用户介面的、F系统规范下的中文字母字计算机用户键盘的制作已成为现实。(见分项发明专利、申请号98111531.4)
五、F系统规范下的中文字母字组字技术
要了解中文字母字组字技术,首先要了解中文字库的生成技术。中文字库的生成技术有两种流派。一种流派认为;由偏旁部首组成的字呆板,不美观,因而必须使用人工画字的方法来保证每套字的风格。另一种流派则认为,人工写字花费的时间太多,而且字型的随意性太大,一次性差,不规范。在实际的造字实践中,我们按照汉字的结构规律,以汉字字母字距离参数来完成字型的设计。遵循这些规律和数据,就可以用计算机进行计算,这样,生产出来的字型必然优于人工画出来的字。我们根据这一造字技术,用计算机计算一套中文字母字的相关距离参数、尺寸大小参数(简体、繁体各一套),然后根据不同的字体、字型的风格,用计算机调整数据库的各个字母字的参数来制成新的中文字母字的数据库。这样,可以大大节省制作一套新字体所需的时间。如要制作一套国标GB-2312(80)字符集的6763个汉字的简体字,原来需要造6763个汉字,现在只造52个中文字母字就可以了,借助“同舟计算机自动造字”程序自动完成,能节省十倍以上的造字时间。
(一)中文字库的生成原理
Postscript页描述语言是美国ADOBE公司在1986年研究开发的。全世界生产的打印设备、激光打印设备、图形描述设计软件、排版软件等都使用该语言来设计软件包和打印程序。Postscript中文字库是采用该语言来描述汉字的边缘或轮廓。
在该字库出现之前,中国北大方正的王选先生发明了用矢量来描述字的轮廓,用矢量来逼近字的轮廓边缘部分,这种字库称之为“矢量字库”。在这之前,上海印刷技术研究所采用Bitmap字库,也就是“点阵字库”。该字库最大点阵做到1024×1024,所占的信息量大,北大方正的“矢量字库”,用矢量来描述,大大提高了字的质量,减少了字库的信息量,其基本原理如附图形2所示。
Postscript中文字库的曲线部分是采用贝氏函数二次方程式来描述字轮廓的曲线部分,其基本原理如图形2所示图示的一段曲线,A点是起始点,B点是终点。在二维座标上知道A(X1、Y1)、B(X2、Y2)、C(X3、Y3)、D(X4、Y4)这四点的位置就可以通过贝氏函数二次近似方程式来计算该曲线的轨迹,大大提高了汉字的质量和精度。通过这样处理的字无限放大后不会出现任何拐点和失真,比“矢量字库”的字的精度提高了六倍以上。目前尖端单字节汉字计算机的中文字母字库,全部采用Postscript页描述字的轮廓,用贝氏函数二次近似方程式来描述字的轮廓曲线,因此,大大提高了字库的质量和精度。(见附图3)
(二)中文字母字字库的生成原理和过程
大家知道,英文字母是由A、B、C、D等52大小写字母通过输入计算机,便可组成成千上万个单词。中国汉字数量超过英文字母几百倍,要把它们全部放入计算内存,象英文字母一样的地输入和处理,不减少汉字的信息量是不可能完成的。全信息汉字处理系统,采用中文字母字组字原理,把汉字的信息量减少到只有52个中文字母字的信息量,形成与英文字母一样的一个0-255单字节字库,放到系统的软件中,供计算机输入、输出调用。经过深入的探索,科学的论证,我们认为是非常可行的。采用新颖的汉字字库的生成技术,为计算机自动组拼汉字提供了可靠的技术保障,使汉字在计算机的深层次应用以及汉字输入与英文字母的输入达到真正的统一,一样简单和容易。
要了解中文字母字字库的生成原理,首先要了解计算机是如何将英文字母组成英文单词的。由于有了美国ADOBE公司发明的Postscript页描述语言,使得英文字母组拼单词非常简单。因为英文字母是由直线段和曲线段组成的,曲线段是由起始点、终点,起始点切线控制点和终点、切线控制点共四点组成的。通过这四点的二维座标数据,就可以组成一条曲线方程式,并通过该曲线、直线等线段就可以组成一个闭合面积。单字节英文字母字库就是存储这样一个描述英文字母的直线段和曲线段数据。如当你在键入一个由四个英文字母组成的英文单词“Word”时,ADOBE公司开发的ATM字库管理软件,能读出Postscript的字库描述信息,当ATM软件接到你键入的W、o、r、d这四个英文字母时,首先要根据各个字母的宽度表参数来安排这四个英文字母的相应位置。然后,根据你所给出的各个字母的大小参数(印刷术语称磅数,英文称POINT)来计算出各个字母的大小。如果您还给出压偏、拉长、空心等操作,ATM根据您给出的指令来控制从字库读出的信息进行您所需要的操作和计算,最后在计算机的屏幕上按照您的要求显示出W、o、r、d这四个字母组成的单词“Word”,并且打印出这个词。
在这里,ATM字库管理软件发挥了重要作用。由于ADOBE公司发明的这套技术,使得屏幕上显示的字母可以无限放大而无任何的拐点和失真,打印出来的字与屏幕上显示的字的信息源完全相同,真正做到了What you see is what youget,意思是“所见即所得”,它在西方排版软件技术领域是一个很重要的指标,也是一句非常流行的技术术语,其意思是“您在屏幕上见到的显示和打印出来的输出完全吻合,没有任何失真”。当然,这也完全归功于美国ADOBE公司发明的Postscript页描述语言。这个重要的特性在西方排版软件技术领域是非常熟悉的。(请见附图4——“递归组字示意图”)
根据英文组成单词的操作,我们用这个操作模拟执行中文字母字的组字和输入操作。由于ADOBE有计算机页描述语言,使得中文字母字组字与英文字母组单词的原理完全一样。首先我们根据全信息计算机汉字处理系统提供内部码表达的中文字母字串,采用Postscript来描述中文字母字的直线段和曲线段,用该语言描述生成一个Postscript单字节中文字母字数据库,排列方式和各种组字数据格式与英文字母字库一样,并把它们安排在系统的软件中。例如我们输入国际字符集16区第一个字“啊”,计算机首先读到的信息是“啊”的递归定义表达式“1[口6阿],口字是字母字,计算机则到中文字母字库读到“口”的Postscript描述数据,根据1表示的左右结构信息对字母字“口”进行宽度压缩处理,压缩处理后的数据放到内存等待“阿”字的数据。“阿”字前面的6表示调用“阿”的递归定义式为“1[阝6可]”,阝是字母字,计算机则到中文字母字库读到“阝”的Postscript描述数据,根据1表示的左右结构信息对字母字“阝”进行宽度压缩处理,压缩处理后的数据放到内存等待“可”字的数据。“可”字前面的6表示调用“可”的全信息表达式为“5一口”,计算机读到“可”的全信息表达式为“5一口”时,认定它是一个独体字,根据全息表达式,计算机自动组成“可”的Postscript描述数据,并进行宽度压缩处理,压缩处理后的数据与“阝”组成“阿”字。“阿”字在进行宽度压压缩处理后的数据与“口”组成“啊”。如果对“啊”字还有压偏、拉长、空心等操作,计算机会根据这些指令进行,最后,在计算机的屏幕上按照您的要求显示出“啊”字,并打印出该字。从上面的论述可看出,一个复杂的汉字借助全信息汉字表达式变为52个中文字母字在一维方向的组拼汉字技术,完全正实了汉字在52个中文字母字的确定之后,其组字的原理和难度是一样的。找到了两种文字在表达上的共同点,计算机自动造字就成为现实了。
六、计算机自动造字法的实现
只有在F系统规范下才能实现计算机自动造字过程。实现的条件是(1)系统内生成52个中文字母字库;(2)必需具有访问中文字母字库的中文字母字内部交换码;(3)必需建立全信息计算机汉字的表达式知识库;(4)必需具备“中文字母字组字拼字技术”。只有具备了以上四个条件,计算机自动造字才能真正实现。
全信息汉字表达式提供了计算机组成每一个汉字的所有信息,它们分别是中文字母字信息、结构信息、尺寸信息和移位信息。通过递归定义算法和借用全信息汉字表达式知识库,计算机可以造出无穷无尽的、风格完全一致的汉字,也可以造出风格完全不同的无数种字型。下面介绍三种方法
(一)借用全信息汉字表达式知识库
设定我们巳经定义了一套字体的全信息汉字表达式知识库,则新增加的汉字仅仅用递归定义算法加以定义。以下这些新增加汉字的全信息表达式可简化为如下形式翈=1[6甲6羽]眆=1[目6方]睧=1[目6昏]睴=1[目6軍]矃=1[目6寧]瞚=1[目6寅]眗=1[目6句]朇=1[6會6卑]鵂=1[6休6鳥]儬=1[亻6靚]儭=1[亻6親]欤=1[6与6欠]
=2[6穴6出]冞=2[冖6米]
计算机根据递归定义算法自动生成这些汉字。在面向用户的实际造字操作比以上还要简单,详见下节。
(二)定义新的全信息汉字表达式
如果我们新增加的汉字在全信息汉字表达式知识库里找不到该字的定义,必须增加新的全汉信息汉字表达式补充给知识库。举例如下
设定“綗”字是我们需要新增加的一个左右型汉字,但在目前知识库里并没有右边部件字
的全信息表达式定义,所以需要增加新的定义;
=5冂
丶口
綗=1[
6
]
计算机根据这些新的定义自动生成“綗”这个左右型结构的汉字。
这个声旁字,又可以与形旁字造出无数个新的形声字。
(三)创造新的全信息汉字表达式知识库
用传统的造字方法生产一套汉字字库是一件相当费工费时的繁重任务。完成一套6763个汉字字库的制作要花掉一人一年的时间。如果借助全信息汉字表达式和递归定义算法,只需精心制作52个中文字母字字库和调整修正尺寸参数库和移位参数库,创造新的全信息汉字表达式知识库,这样,一套6763个汉字制作大概一人半个月的时间便可完成。通过改变52个中文字母字的型状和风格,很容易产生系列新的字型字体,也可以是无限扩大的字数,即由一个只有6763个汉字字符集变为一个无字符集概念的无限个汉字概念的中文世界。然而,这样一个腾空跨越,完全归功于中文字母字的确定和全信息汉字表达式的实现。
“全信息汉字表达式知识库”这个概念的提法是借助计算机能理解汉字的结构和组成,并能写出这个汉字,计算机具有写汉字的智能。计算机全信息汉字表达式知识库应包括以下几个内容(1)汉字独体字和音旁字的全信息汉字表达式;(2)所有收入到52个中文字母字的形旁字的全信息汉字表达式;(3)部份特殊复合字的递归定义表达式式;(4)形旁字与声旁字互相组拼形声字的宽度表。如果计算机全信息汉字表达式知识库具有以上几方面的信息,计算机就能造出无穷无尽的形声字,这是造字领域的又一技术跨越,无疑将给出版印刷领域、计算机传统文化的挖掘和整理带来福音。(详见发明专利《同舟自动造字法》)
七、F系统规范下的中文字母字输入法
(一)目前双字节汉字输入法的主要缺陷
F系统规范下的中文字母字输入法与现行英文输入法完全相同。但与现行的中文输入法有着本质区别。这是因为现行的中文输入法有着以下几个不可克服的缺陷
1、汉字输入编码带来的缺陷
现行的数百种中文输入法都是在高位置“1”的双字节中文系统下开发的。众多的中文输入法利用ASCII信息交换码字符集中的英文字母和数字对汉字字符集中的每一个汉字进行编码,生成英文字母和数字串对应汉字字符集中汉字的码表。如果某一个汉字没有进行编码,用户是绝对无法访问这个汉字的。如仅对国标6763个汉字编码的输入法是无法调用大五码字符集的汉字,更不可能调用联合码字符集中的二万多个汉字。到目前为止,在高位置1设计思路指导下的数百种汉字输入法,仍然没有一种汉字输入法能调用联合码字符集中的二万多个汉字的,这个字库目前仍形同虚设。调用某个汉字的前提条件是具有该汉字的编码。因此,在现行的双字节中文系统中,无论在任何一个平台上造出某一个新字,到其它系统和平台上永远是读不出和打印不出这个新汉字的。西文输入系统没有这个缺点,其原因就是西文输入无需编码,直接输入字母本身。汉字输入需要编码这个缺陷在计算机文字处理领域的影响不可低估。
2、无法克服的重码现象
由於高位置1下的各种输入法,都要对每一汉字进行编码,其编码的工作量和复杂性是显而易见的。“重码”是几百种中文输入法设计者最难解决的问题。在对相对小的字符集6763个汉字进行编码时,可能只有几十个到百把个重码,但扩大到对联合码二万个以上汉字进行编码,重码率将以几十倍的数量增加而导致输入法不能使用。事实证明,在高位置1的思路下设计的任何一种汉字输入法,都不可避免重码的产生。这就是目前双胞胎字节中文输入法的一个致命的弱点。
3、违反汉字结构和书写规律,误导汉字文化教学
众多的输入法为了追求某些指标,避免重码,在设计汉字输入法的过程中,无一例外不同程度地都违反汉字的结构规律和笔画书写顺序。为了降低重码率,人为地造出很多生造字,或把汉字毫无规律地拆分成几百个字根,既难学又难记,操作复杂。有些输入法在编码时,东西南北四角取码,有的取首笔为码,有的取尾笔为码,造成汉字结构和书写笔顺混乱,书写和输入脱节,长此下去,几百种输入法继续普及,中国汉字就有分为多门多派的可能。二十多年来,难怪没有一种输入法能普及到普通老百姓中去的。
(二)无编码概念的中文字母字输入法的特点和优势
目前,我们提供的尖端国际通用汉字输入法试用版还不是在F系统规范下的中文字母字输入法,它仅是模似试用版本,仍然保留很多双字节输入法的缺陷。一但F系统开发完成,在F系统规范下的“无编码概念的中文字母字输入法”将具有与目前双字节中输入法截然不同的特点和优势。
1、无编码概念
无编码概念就是中文字母字输入法的主要特点和技术优势。我们所说的无编码,并不意味着计算机在内部处理时完全不依赖“码”进行搜索、转移和映照处理,而是指文字输入不须其它诸如字母、阿拉伯数字、拼音字母或者除本文字之外的其它符号作为代码的一种直接输入本文字的字母、组字符号的无编码输入过程。拉丁文字体系的计算机输入就是典型的无编码概念的输入形式。无编码概念主要表现在中文字母字输入法输入的是有限的中文字母字,而得到无限的汉字数目。不需要人为地、事先编一个对应无限个汉字数目的码表。而计算机是根据输入的中文字母字自动组成汉字的。绝大部份汉字不存放在计算机中,汉字的输入完全取决中文字母字的形状。这里举一个简单例子汉字大约有230个形旁,500个声旁,形旁和声旁可组成的汉字数是230×500=115000,现行的中文输入法是无法对它们进行编码和调用的而我们设计的中文字母字输入法就非常简单和应用自如。如以下汉字“晭、睭、晍、曎、瞯、瞯、瞤、眑、瞷、晽、睄、眫、
、眻、睅”等,都是一些偏僻汉字,中文字母字输入法仅仅输入形旁字和声旁字即可。如晭=1日周瞷=1目間睭=1目周晽=1日林晍=1日同睄=1目肖曎=1日睪眫=1目半瞯=1目閒
=1目委瞤=1目閏眻=1目羊眑=1日幼睅=1目旱
按照以上汉字的右部的表达式顺序输入计算机,左部汉字就由计算机自动组合完成。用编码概念的现行中文输入法是无法调用这些没有编码的汉字。正如前面所谈,99年7月28曰,《扬子晚报》第12版出现的“云爱云逮”笑话就不存在了,这四个字就自动变为“叆叇”二个字。这充分显示了无编码概念的中文字母字输入法的技术特点和优势。
2、无字集概念
这是由无编码概念引伸出来的另一个特点和优势。中文字母字输入法可调用的汉字是无限的,不受任何字符集的限制,可访问汉字的多少仅受形旁字和声旁字的多少限制,即每增加一个形旁和声旁字,就可以几百倍数量增加汉字的字数。可以这样说,中文字母字输入法没有您找不到的汉字。但可造出和访问无穷无尽的、浩瀚的汉字海洋。
3、无重码概念
无重码概念是中文字母字输入法又一特点和技术优势,全信息汉字表达式是众多中文输入法无法解决的技术难题的克星。目前在汉字输入法的编码过程中产生重码的根本原因是中文输入法的设计者想用最少的英文字母串对大字符集进行编码。现行中国的大部份中文输入法都采用四个等长码来对国标(GB2312)个6763个汉进行编码。重码率是各输入法成功的重要指标,到目前为止,还没有一种输入法能克服重码的。原因之一是在大多数中文输入法编码中,每一个英文字母都平均承担近8个以上不同编码字素,它不像英文字母那样是一一对应关系,而是1∶8不等的非等同关系,这样就非常容易产生重码。原因之二是字符集太大。6763个汉字中每一个汉字必须编码,用四个等长码来编码已经很吃力,如果改用五个等长码就可以消灭重码,但又增加了击键数,影响输入速度。中文输入法的设计者又不愿意为了消灭重码而增加击键数。这与一个仅能承担100公斤担子的人,却要他承担150公斤担子的道理是一样的。
中文字母字输入法为什么能达到无重码概念 这是因为中文字母字输入法是直接输入中文字母字,无须对6763个汉字进行编码。据我们对汉字结构的长期分析和研究,汉字的95%以上都是由形旁字、声旁字组成形声字或者单独形成独体字。每一个形声字按结构分为左右型(3%的汉字是左中右)和上下型(3%的汉字是上中下)。如采用递归算法,简体汉字是由大约230个形旁字和500个声旁字组成。这些形、声字又可以由52个中文字母字定义组成。在汉字输入时,面对用户的是如何用52个中文字母字来区别这700多个形旁字和声旁字。在实际输入中,按汉字结构从左到右,从上到下,先输入形旁字(形旁字共有230个),其中33个已安排在键盘上,只需要在对应的中文字母字键盘上击打一键。其余的形旁字按笔顺和组字的先后次序输入两个中文字母字。输入完形旁字后应输入声旁字。声旁字共有500个左右,用52个中文字母字按声旁字的笔顺笔顺和组字的先后次序,一键一个中文字母字输入。大部份声旁字只输入二个中文字母字即可,少部份输入三个字母字,组字拼字由计算机完成。在不等长的取码原则中,如遇重复(重码)可多取一码,仅影响个别字,并不影响全局。这些设计思路确保中文字母字输入法绝无重码。这就像输入英文单词一样,英文单词是不等长字母串,使用频度最高的代词、介词、副词和动词都用最少的英文字母串来表示的。每一个英文单词都有唯一的字母串。
4、无简繁体概念
由于历史的原因,中国汉字的输入长期存在简体和繁体之分。台湾、香港、澳门和日本以及海外华人,仍使用繁体输入,而国内用户则使用简体汉字输入。两种输入方法互不来往,交流甚少,造成很多信息交流的不便。简繁体输入不统一的原因也是由於“编码”的设计思路造成的。简体汉字有三千多个是与繁体不同的。不同之处是由几个形旁字、声旁字和部份独体字引起的。如简体形旁“饣”、“马”、“讠”、“贝”、“钅”、“门”、“车”等,又如简体声旁和独体字“电”、“韦”、“页”、“邦”、“办”、“丰”、“录”、“笔”、“采”、“仓”、“只”、“个”、“带”、“当”、“寿”、“东”、“风”、“粪”、“干”、“龟”、“归”、“癸”、“夯”、“耗”、“坏”、“画”等。如把字符集扩大到所有汉字,简繁体差别要达到上万个。现有的输入法是无法对这些简繁体差别进行编码区分的。如要区分开来,所付出的代价是相当昂贵的,同时也是不适用的。长期以来,海峡两岸和海外华人都盼望有一种统一的汉字输入法。F系统的规范,把简繁体汉字输入统一在一个平台上,简繁体字的区别仅仅限制在形旁、声旁和部份独体字的区别,数量只有几百个字,且很容易区分。在F系统上的简繁体汉字的“外码字母字”的提取原则是一致的,同样是直接输入简繁体的中文字母字,组字由计算机自动完成。这就从根本上解决了长期以来汉字的简繁体输入不统一的状况。
八、F系统规范对未来计算机技术发展的影响
目前,所有的中文操作系统、中文视窗、各种各样的应用软件和工具软件均是在英文软件的基础上进行的二次开发和嫁接。根本不能独立于英文系统之外而自行开发。F系统规范的实现,使独立于英文系统之外的全信息计算机汉字处理系统的自行开发成为可能。F系统的实现,是我们经多年思考和研究的“尖端字库”、动态单字节中文系统和视窗、“中文字母字组字技术”、“尖端单字节汉字电脑”研究的继续、延伸和统一,该系统有自己的中文字母字信息交换码(CACII)、52个中文字母字字库、52个中文字母字键盘、无编码概念的中文字母字输入法、全信息汉字表达式知识库、中文字母字组字技术和计算机汉字自动生成技术。该系统在设计思想上完全不同於现行的双字节中文系统或平台。F系统规范的问世将逐浙取代现行的双字节中文系统。一旦F系统规范被愈来愈多的人接受,它将逐渐成为F系统标准(F-Standard)。今后世界上的文字处理可望达到只有两大系统,即“F系统”和“非F系统”。F系统等相关技术的应用,对人类未来的影响是相当深远的。它的影响将表现在以下几个方面
(一)F系统的技术特点(优势)
本文一开始就已经指出了现行高位置“1”的双字节中文系统(包括美国微软公司的中文WINDOWS 95和WINDOWS 98)的缺陷和不足。我们用一句话来总结它们的缺陷和不足,那就是;多平台、多字集、多编码、多输入法、无扩充性、无兼容性、互不往来和处理效率极低的双字节中文系统。而F系统具有的鲜明特点和超前的优势,能使我国的中文信息数字化处理技术接近和超过世界先进水平。
1、无限的扩展性
人们一直盼望着能在计算机上读取到包括“康熙字典》在内的所有简繁体汉字,特别是在印刷、出版、高层次的文字、考古等领域,解除计算机大量的缺字和所造新字互相不能读出的尴尬和困憾,其反应尤为强烈。人们不忍心看到庞大的字集占据着宝贵的内存空间。由于F系统固有的开放性,已完全建立在非F系统的“超集定义”之上,而并非只是“扩展”的概念。F系统能表达无限个汉字的信息,起到统一中西文平台的效果。同时,F系统是操作系统内核的一部分,可以内嵌在系统中,或者放在任何一台计算机或非F系统上。这样,在目前的各个领域中的那些永远造不完的缺字、僻字将不再是计算机文字处理的难题了。
2、“六无概念”的计算机文字处理系统
由于F系统规范是文字信息处理操作系统的内部核心部分(注意所指的“文字”包括中文和拉丁文体系文字),是一种“无平台、无字集、无编码、无重码、无简繁体、无单双字节概念”的文字处理系统系统。对于不同的操作系统(平台)一但被F系统所规范,所规范后的系统也就成“无平台、无字集、无编码、无重码、无简繁体、无单双字节”概念的系统。下面的例子足以说明“六无概念”之深刻内涵一个用户的计算机只有英文的操作系统(或平台)和各种英文的应用软件、工具软件和网络软件。因此,这个用户不能输入、运行、处理中文和输出中文。该用户的计算机英文操作系统(或平台),一但被F系统所规范(即安装和运行F系统软件),该用户的英文操作系统和各种英文的应用软件、工具软件和网络软件的英文菜单、下拉式菜单、各种英文说明和英文帮助文件自动变为中文菜单和中文说明和帮助文件,各种软件得到汉化。这些软件均能输入、运行、处理和输出中文。这套系统也就变为具有高性能的中英文文字处理系统。也可以同时进行简繁体汉字输入,所访问的汉字是无限的,并具有无编码、无重码、无简繁体区别的中文字母字输入法。彻底解决东西方两种版本软件的兼容问题,改变了以往存在的运用于西文视窗上的,只能运行英文软件;应用于双字节中文系统上的,也只能是经过汉化的软件的状况。F系统规范下的计算机为何具有如此神奇的效果和功能呢?(请见附图5——“计算机系统的三种界面”)
从附图5计算机的三种界面的层次可看出,一个完善的计算机系统是由三层组成的,它们分别是裸机、系统软件和应用软件。系统软件是包在裸机外面的软件,也称底层软件,是计算机的指挥系统和指挥中心,由很多功能软件和功能模块组成,直接与裸机硬件打交道,执行裸机硬件和各种外设的管理、文件的管理、内存的分配、存取方式、存储方式等一系列操作。如DOS操作系统和视窗系统(WINDOWS 95和WINDOWS 98)。应用软件是外层软件,它直接与系统软件打交道并面向用户,并不理会裸机硬件和各种外设,它是由系统软件提供的开发环境和功能而发展的软件。如MS-WORD、PAGEMAKER、PHOTOSHOP、3CAD、COELDRAW等。英文系统软件不能处理中文的原因正如前面所述,西文系统软件和应用软件在设计时是用ASCII码字符集作为计算机的内部交换码,没有考虑高位置“1”的双字节汉字内码和安排访问汉字的地址。西文系统软件和应用软件要能直接处理中文就必需解决深层次软件汉化问题。
所谓“深层次汉化”是指对设计时没有考虑支持中文的西文系统软件的目标代码文件(目标代码文件是源代码文件经编译后的文件)的再加工,用反汇编的方法插入“中文输入模块”和能访问双字节汉字地址的内存管理模块。深层次汉化的难度是相当大的。四通利方公司开发的中文视窗和系统就是一个典型的软件汉化例子。相反,F系统规范不存在深层次汉化的问题,原因很简单,中文字母字的内部交换码实际上是ASCII码英文字母和英文标点符号与中文母字和标点符号的替换。我们仅仅要插入的是“中文字母字组字”模块。系统软件的开发环境已提供字库管理模块的功能调用入口,不存在用反汇编方法的插入问题。“中文字母字组字”模块的插入类似美国ADOBE公司开发的POSTSCRIPT字库管理ATM的插入。在F系统规范下的英文应用软件无需开发汉化版本。中文字母字的输入和内部处理是完全相同英文字母的输入和处理。
3、“世纪难题”的终结
20多年来,汉字的计算机处理由于文字的差异和双字节概念的长期误导,使汉字的文字结构中“字母”与“字”的关系的长期颠倒,因而出现了在文字处理效率上明显弱于西文的局限。表现为中西文的文字处理长期处于单双字节的分离,文字结构的颠倒,字集信息量的大小,各种中文平台之间的兼容,内外码的不等同,字形种类的悬殊,内码的扩展性,文字的简捷性、灵活性,以及易交换性等方面的弱点,而这些并不是中文在信息处理过程的缺点,出现这种状况是人为的因素造成的,中国的中文信息数字化处理,阴差阳错地沿着高位置1的路走了20多年,造成所谓的“世纪难题”,成了阻碍我国信息产业和软件业发展的“瓶颈”。这就是所谓“汉字输入普及难”的真正原因。F系统的实现,使中文能与英文一样在同一平台上用同一方式直接输入和处理中文,再无“平台”和“系统”之差异。至此,“世纪难题”得以终结。
(二)改变传统的教学方法
中国的汉字教育,在汉语拼音方案和汉字简体字的改革之后,呈现了前所未有的良好局面,成绩是有目共睹的。但是,中国的汉字教学,在教学年限、教材的创意和教学方法上,没有太大的进步。正象计算机的汉字表达方式那样,双字节的问题长期阻碍人们的设计思路,造成了计算机的操作和表达上没有太大的进步一样。特别是各种输入法的编码,根本没有考虑汉字的书写笔画顺序,不考虑学生学习汉文化的需要,一味强调计算机输入的特殊性,人为造成计算机的输入与汉文学教学的不协调,对传统文化是一种破坏,也是对汉文化教育的一种误导。
中国的汉字教育是从小学生一年级真正开始的。就是说,中国儿童满七岁之后,进入学校开始,老师经过日常生活中的事物和一些简单的道理,通过汉语拼音和汉字书写和释义,教会学生认字、读音、理解汉字的字词句和文章的,指导学生写作的技能和技巧。而学生则通过死背硬记,硬是把老师教过的字、词、句、文章强行记忆而逐渐认识和理解汉字的。这种教学方法,在中国沿袭了几千年,至今仍一代接一代继承下来。从小学至大学,汉字课程有增无减,浪费了大量的学习时间,加上中国汉字素有“三难”、“三多”之“美称”,整个教学成就还是不尽人意,成人教育比较落后,中国老百姓的科学文化素质得不到应有的提高。在即将进入21世纪之际,改革汉字教学,缩短汉字教学年限,使学生(除专门从事文字专业的学生外)腾出更多的时间,学习高新科技,加速知识经济时代的进程,将具有极其重要的意义。
全信息计算机汉字表达式的实现以及计算机汉字表达式知识库的不断充实,汉字结构的全信息概念以及中文字母字组字技术的实现,揭示了汉字可由52个中文字母字(35个形旁,5种单笔划和12种复合笔划)组成形旁和声旁字(部份独体字),并通过形旁字和声旁字又可组成无数个汉字的造字规律,给我国目前汉字的信息表达得到完善和更新。因而将对我国的汉字教学提出了新的课题,对传统的教学方法提出了有力的挑战。
该系统还提供了所有中国汉字的电子字典,把汉字的全部表达形式,如内、外码、字的结构、汉字拼音、汉字同音字、外码字母字串、汉字的含义以及每个汉字所从的部首等。今后还逐渐增加汉字的各朝代的字形、含义的演变以及文字改革后汉字的变化特征、词组规范化和文章结构的分析等信息,输入计算机的知识库,计算机汉字全信息表达式把汉字的所有信息完整表达出来,既能与英文一样的输入计算机,也使学习汉字提供了规范化的汉字的形、音、意表达的传统解释和先进快速的查检方法,将深刻地影响着我国的文字教学领域。
运用计算机全信息汉字表达式,偿试一种汉字教学的新途经,将使得具有悠久历史的汉字和汉文学教育更加易学、易记、易读、将为减轻学生的学习负担、提高教学质量,改变传统的教学习惯,缩短教育年限,造就有用人才,普及计算机,促进人类文明进步,将产生深远的影响,将是另一个伟大的希望工程。
(三)印刷出版领域的文字处理效率
印刷出版领域是一个专业性很强的行业。该领域的文字处理要求有高效率的文字录入,尽可能具有扩展性的造字补字功能(如排版专业字典的排版、与古文化相关的书籍等),需要造出目前字集未收入的汉字以及高品质、多样化的输出字型。但是,长期以来由于在该领域内使用的中文输入系统和排版软件的字集都是国标GB2312的6763个汉字,使这些领域的那些已成为他们无法解决的难题的永远造不完的缺字、僻字感到困惑和遗憾。F系统具有无限的扩展性,所造出的字的内外码完全一致,并且可直接交换。此外,F系统还具有专用的中文字母字数据库方便快捷的同舟造字软件,可以造出无穷尽的汉字。F系统含概了所有这些方面的专业要求,无疑将是印刷出版领域的最佳选择。F系统的实现,给该领域带来了福音。
(四)汉语的计算机自然语言理解
计算机的自然语言理解是当今人工智能科学的一个重要组成部分。自然语言的“构字法”和“构词法”对计算机的自然语言理解是极其重要的。汉字是目前世界上唯一的象形表意文字,它除具有一般文字的构字和构词属性外,本身就具有拼音文字所没有的丰富内涵,尤其是繁体字更为突出。遵循汉字的构字构词规律,借助汉语特有的最为精炼的语法,再辅助于浩瀚的语义字典,也许汉语将是世界上最理想的自然语言与计算机语言之间沟通的桥梁。
当今的计算机,不管它的速度和存储量的提高多么迅猛,硬件如何高速发展,仍属于冯·诺依曼型体系结构的第四代产品时期,距离真正基于人工智能第五代计算机还有相当一段距离。这其中关键的因素是人工智能技术的发展问题。而人工智能的核心环节又是计算机对语言文字的理解问题。中文的语法精练,汉字的内涵丰富,选择汉语及经过形式化处理后的类汉语(类似计算机的高级语言),与计算机架起一座沟通的桥梁,从理论上讲汉语应比拼音类语言具有更大的优势和潜力。因为F系统首先解决了挤身进入智能计算机行列的首要条件——“输入”和“全信息表达”和“构字”问题。
计算机自1946年问世以来,至今已在人类各个领域发挥巨大的作用,已经充分显示了它的伟大生命力。计算机如此有效地以远远超出人的能力去计算一个几十位数与另一个几十位数的乘法,以及超出我们想象之外的许多奇迹,使人类情不自禁地想到计算机的聪明程度是否已经超过了人类?事实证明,比起先进的计算机来,人脑具有极为复杂的机制。人脑不适应做复杂的数值运算。这是因为会做几十位数乘法的能力对人类适应环境并没有多大的好处。而人类的真正本能是要听别人讲话,看到别人写字,辨别食物和躲避危险。而今天的计算机却非常难以模拟人类做这些本能的活动,但人类有没有可能教会计算机具有视觉、听觉、感觉、理解和推理?使计算机也有思维活动和在某种精神思维功能方面获得成功呢?这种智能是人赋予计算机的,这种“机器”的智能,毕竟是与人的智能完全不同。如果“机器”具有智能的前提是掌握知识,那么人工智能系统又可以称为基于知识的系统,如果是基于中文知识的系统,我们称之为“基于中文概念的知识系统”,而存储中文信息知识的仓库称为“中文知识库”。
几十年来,人们正为此竭尽全力,但几经兴衰沉浮,效果甚微。随着21世纪的到来,以及全信息计算机汉字处理系统的实現和计算机技术的飞速发展,人工智能又开始展现美好的前景。从理论上讲凡是可以使用计算机的领域,凡是可以用计算机代替人的体力和脑力劳动的场合,都有人工智能的用武之地。但是,过去中文计算机的设计者,往往搞设计的不搞编码和字库,搞编码的又不搞设计。有的搞化学的也搞字库和编码的。因而出现了很多设计和实现上脱节和不协调。如长期以来,人们在文字的字词结构长期颠倒,包括所有的中文计算机设计者和计算机书籍,都千篇一律地认为每个由内码加以编码的方块汉字相当于英语中的“字母”,即Character,所以方块字的英文译名为(Chinese Character),认为汉语中的字(Word)就是英语中的字母(Character),都是字母对应汉字的“字”。由于目前中文计算机内部表达是以“字”为最小单元的,故在几十年来计算机内部表达上长期处于混乱状。
象形文字的每个字,一般都有独立的含义,因而它的文字结构不应等同于西文的字母,而正确的关系应该是“字母”相同于汉字的“部件”。汉字全信息的内部表达的字形信息,也不一定只限在部件一级,也可以包括笔画,笔顺,包括构成成分,也包括构成成分的意义,也可以是使用频度很高的独立汉字和形旁声旁。可惜,这些文字结构的颠倒和中文计算机的设计一开始的误入歧途,使计算机数字化处理埋下隐患,导致中文处理技术长期徘徊不前,操作和输入难度很大,以致几百万上网用户是清一色“文化人”的严重局面。设想,如果在文字结构关系能理顺,把有限的字母字集,还以它与有限的“中文字母字”字集的同等地位;把英语的庞大的字集对等于汉字的“字集”;把英语的“词”对应中文的“字”;把组成英文单词的一个个“字母串”,等同于一个个“中文字母字串”;把在计算机内部表达中被长期颠倒的文字关系理顺过来,即每个由内部码加以编码的方块字不应再视为相当于英语中的“字母”了。其理由很简单,汉字的字素是部件(包括笔画和组合笔画),是以字部件或笔画组成字的,这些组成汉字的字素大都有独立的含义,它们只是一部分组字的方向不甚相同而已,其实构字构词的原理是完全相同的。由于字词关系的长期错位,表现在汉字计算机表达上也处于长期混乱状态。“万码奔腾”就是这一错位的最好说明。因此,在目前的中文系统上,是不可能让计算机真正理解汉字的。
要完成计算机理解汉语文字,是一项艰巨的“计算机文化”工程。完成了全信息计算机汉字表达式,只是完成了计算机“知识库”的中文“构字”知识的第一步工作。我们还要通过教会计算机中文“构词”知识、写作技能、医学知识、绘画知识、诗词创作知识等人类知识,下来的工作更加艰巨。第二步我们要教会计算机中文语言学知识、结构语言学知识、句法分析知识、文法生成知识等。目前当务之急是在计算机系统的句法平面、词汇平面、语义平面和语音平面上,教会计算机有分析语法的能力,增加计算机的人类知识广度和深度,使计算机理解汉语文字。要做到这一点,困难是显而易见的。我们愿意为创造一门新文化——计算机文化而竭尽全力。
(五)传统文化的计算机辅助整理
在当今高科技的信息时代,对我国传统文化的挖掘与整理,用计算机手段将是莫大的便利。然而,其困难也是显而易见的。因为目前的中文计算机处理效率还是弱于西文。传统文化的计算机辅助整理的关键问题还是要为众多的传统汉字“落实政策”,注册户口。解决各方面的协调以及汉字的处理标准。对于浩瀚的中华民族的古典书籍,用最现代化的工具一计算机进行前无古人地整理、分析和研究,其意义之深远是不言而喻的。要运用现代化工具进行传统文化的辅助整理,必须首先解决一个完整的汉字信息输入问题。F系统对这类场合可谓是生正逢时,当仁不让。只有将最基本的信息,准确无误地输入计算机,才能充分发挥计算机的最大潜力,这种场合也同样遵循这一规律。
(六)完全基于中文概念的智能计算机
“中文计算机”、“中文系统”已经讲了几十年了。然而,当今的计算机发展水平仍处于基于冯·诺伊曼型体系结构的第四代时期,距真正基于人工智能的第五代计算机水平仍有一段相当距离。除了存储和运算的原因之外,人工智能技术的发展是一个重要的因素。中文的语法精炼,汉字的内涵丰富,在人与计算机之间架起一座构通的桥梁,选择汉语及经形式化处理后的类汉语的形式语言(类似计算机的高级语言),从理论上讲应该比拼音类语言更有优势和潜力。其前提条件是必须首先突破自身的“瓶颈”——输入和内部表达问题。F系统正是以上答案之所在。我们认为如果计算机具备如下几个特征,就是真正意义上的中文智能计算机了。
(1)具备F系统规范。
(2)使用类汉语的形式语言作为计算机的指令系统,供人类向其发号施令。
(3)使用类汉语的形式语言(高级语言)开发各类智能化软件。因为F系统规范本身函概了西文处理,所以无须担心西文的处理。更确切一点,我们应将该类计算机定义为“F型智能计算机”。
(七)对电子化造成文化“退化”现象的遏制作用
古代人热于书面沟通,通过文字书信、书籍表达情感,沟通思想,赋诗绘画,联络情感。因此,勤于笔下功夫,编篆不朽之作。但现代由于信息传递工具的现代化,使现代人疏于书面沟通,出现文字功力退化现象,人们对传统文化的理解和兴趣逐渐减弱。究其原因是计算机的操作难和不普及,在计算机上经常使用汉字输入、输出的人不普遍,由于汉字计算机输入难、操作难,学习兴趣不大,中老年人更甚,造成了看多“写”少现象。如何让更多的人能多“写”、多输入汉字?如何防止汉文化功力“退化”现象?普及计算机的汉字输入,加强“书写”、输入意识显得尤为重要。由于键盘输入仍然是今后汉字输入的主流,因此,F系统环境下产生的中文字母字输入法愿担起提升中华民族文化的重任。
(八)F型计算机的诞生
从以上的分析中得出了目前双字节中文系统的一系列缺陷。在我们的全信息汉字处理系统实现之后,这些缺陷和难题已经园满解决。一种真正中文概念的F型计算机(亦称“尖端单字节汉字电脑”)正在设计和开发之中。从附图6中得出,单字节中文计算机的核心是由“尖端单字节中英文系统和视窗”、“全信息计算机汉字表达式”、“尖端国际通用汉字输入系统”共三部分组成。它以崭新的观念组成了F型计算机的心脏。它的四周方框标示着一系列优秀的英文软件的用户层,在F系统规范下出现的全新的用户界面——纯中文的用户界面。所有优秀的西方软件可以在该系统上不加任何修改即可极方便地直接处理中文。
全信息表达方式的实现,打破了计算机的双字节或多字节的概念,使计算机的信息表达以无限扩充为绝对优势,将使汉字信息处理朝无限级和无字集方向迈进,在未来的计算机中文信息处理技术上,不仅是《康熙字典》,就是十万、几十万个汉字,也能在该系统上得以实现。这完全归功于中文字母字概念的提出和字母字数量的合理确定。
单字节中文计算机与其它双字节中文系统在西文计算机上的二次开发不同,它具有独立的、有F系统规范(标准)的中文操作系统。同时还具有独立的纯中文字母字键盘。在单字节中文计算机上运行的所有系统软件、应用软件和工具类软件都有一个纯中文、亲切友好的用户界面。计算机内部的信息交换码是以中文字母字为标准的内部全信息交换码,是一种完全独立于现行的西文计算机ASCII信息交换码的中文字母字信息交换码。它的开发成功将把中文信息数字化处理技术走在世界前列,使象形文字在国际上的地位的提高,作出重要贡献。
九、两种新颖的汉字检索方法——“一字到位检字法”和“九宫汉字输入(检索)法的问世
“一字到位检字法”是继“中文字母字输入法”之后,采用中文键名字母字在键盘上排列的26个中文键名字母字循环组字的原理,再次创造发明的一种汉字检索新技术。(该技术已申请了发明专利,专利号是991142853)。
这种检字技术,第一次突破了中国汉字传统的部首、拼音、笔画、四角号码等检字方法的老框框,首次采用中文字母字输入法的26组中文键名字母字为部首,把国标GB-2312(80)字符集的6763个汉字,以26个中文键名字母字为部首两次循环排序。经第一次排序后,每个大部平均只有260个汉字,然后,在26个大部下,每个大部又按照第一次排序方法,进行第二次排序,将每个大部分解为26个小部,每个小部只有平均不到10个汉字。检字的方法是首先在仅有一页的检字目录“部首”栏中,找出需要查找汉字的起笔字母字是属于哪个大部和该大部所处正文中的页码,再根据需要查找汉字的第二个外码字母字,在检字目录“部首”栏中找到该字母字所处大部序号(大部与小部的序号相同)。掌握了页码和序号后,首先直接查页码,然后再查在目录中得到的“序号”。由于每个大部下的小部只有平均不到10个汉字,因此很容易查到所需的汉字和该汉字的外码字母字。无论查找任何一个汉字,只要您能按照汉字笔画顺序迅速确定想要查找的汉字的首个字母字和第二个字母字,就能在几秒钟内,查到所要查的汉字和该字的外码字母字。这种检索汉字的方法,一字到位,一查即得,高效神速,神奇无比。
一字到位检字技术,打破了我国辞书领域查检汉字方法长期停滞不前的局面。该技术可广泛应用于辞书、字典、词典、资料、档案、文书、史料、图书、情报等多种领域进行检索、索引、分类、排序和查检,也可以应用于手提式电话机和寻呼机中文信息的发送以及无键盘输入的电子硬件设备等。
中文字母字输入系统,运用该检字法检索国标字符集的所有汉字。在该电子字典中,将同时显示出每一个汉字的汉语拼音、同音字、结构、外码字母字串以及每个汉字的释义等内容,把汉字的各种信息表达得淋漓尽致,达到帮助识字,通过识字学会汉字的计算机输入,促进学计算机和学汉字一体化,推进汉字的教学改革,适应造就跨世纪人才的需要,具有实用价值。
九宫汉字输入法是利用象形文字“九宫”造字法的九个方格,以52个中文字母字二次循环组字的原理,经F系统规范的一种汉字检索新技术,同时也是汉字键盘输入的辅助输入手段。它广泛应用于无线电话、有线电话和无键盘设备的汉字输入和汉字信息传输等。(详见“一字到位检字法”和“九宫汉字输入法”专利申请说明书)
十、说明书附面说明
附图1图面说明此图是以汉字“覆”字为例的汉字结构的“树表示法”的示意图。通过对树的结点“根”、“枝”、“叶”的形象逻辑性联想,以树的不同层次结点为汉字结构的象征,找出与汉字相类似的结构层次,使计算机设计者寻找汉字的结构规律,得出与英文相同的文字结构关系,为中文字母字数量的确定提供依据。树可以有不同的画法,该图的树是与日常生活植物“树”相反的,是将根画在最上面的。通过树表达式得出“覆”字组字的最小单元为“西、丿、亻、、日、攵”。所有的汉字都可用树表示法找出每个汉字的组字单元,为汉字全信息表达式的实现提供依据。
附图2图面说明此图是用矢量来描述曲线段和逼近曲线段轮廓的方法来描述字的边缘轮廓的一种造字方法的描述平面。
附图3图面说明此图是用贝氏函数二次方程式来描述曲线和逼近曲线的轮廓的一种造字方法的描述平面图。
附图4图面说明该图是以“递归定义算法”和“全信息汉字表达式”显示中文字母字组成汉字(以“啊”字为例)的递归组字示意图。以此种方法可以造出无穷尽个汉字,与英文字母造词一样简单和容易。
附图5图面说明此图是计算机系统的三种界面分析图。用户界面是计算机第一层界面,在用户界面下面是系统界面,是系统软件提供的开发环境。在系统界面下面是机器界面。完善的计算机系统是由这三层组成的。所谓深层次的软件汉化,不是只在用户界面的汉化,而是指包在裸机外面的西文系统软件的汉化。
附图6图面说明该附面为一幅“F型计算机的方框图”,是由“尖端单字节中英文系统和视窗”、“全信息汉字处理系统”、“尖端国际通用汉字输入系统”共三部分组成成了F型计算机的心脏。在其外围的是一系列优秀的西方英文软件不经修改就可以在F型计算机上运行,并能直接处理中文。
权利要求
1、全信息计算机汉字处理系统中的“全信息汉字表达式”是该系统的核心技术之一,其特征是按照“树排列法”寻找汉字的最小组字元素,并将其组成“全信息汉字表达式”。它是实现全信息计算机汉字处理系统的重要部分,是实现“中文字母字信息交换码”、“中文字母字信息交换码”、“递归定义算法汉字造字原理”的关键。
2、全信息计算机汉字处理系统中的“递归定义算法汉字造字原理”所生成的计算机笔画造字法,是该系统的重要组成部分,该造字技术是专为尖端单字节汉字电脑而设计的。
3、该系统中的“中文字母字”、“递归定义算法”等造字技术,已应用于F系统计算机的造字程序,组成中文字母字直接输入法和文字处理软件等。
全文摘要
“全信息计算机汉字处理系统”,亦称:“F系统”。是由“全信息计算机汉字表达式”、“无编码概念中文字母字输入法”、“中文字母字信息交换码(CICⅡ)”、“中文字母字组拼技术”等组成。提出了对中文计算机重新设计的新思路,提供实现方法和核心技术。彻底克服了以“高位置1”思路设计的双字节电脑的诸多缺陷,创造出一部真正基于中文概念的F型计算机,将对今后计算机领域产生深刻影响。
文档编号G06F17/00GK1268708SQ99114499
公开日2000年10月4日 申请日期1999年10月21日 优先权日1999年10月21日
发明者周海筹, 唐秀昌, 何庆, 吴昌森, 郑承梁, 张彦红 申请人:张彦红
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1