专利名称:华文文字龚码统一方案及内码完整规范转换的制作方法
技术领域:
本发明涉及一种华文文字龚码统一方案及内码完整规范转换,更具体地说,涉及一种关于华文文字用字范围、字义、字形、字音、语词、语法的全面完整统一的方案——龚码(Chinese Gugq Code),华文字的义、音、形冗余信息变通,及华文龚码、国标码、大五码等多种内码之间或同种内码之内的多码多向的完整规范化快速转换。统一方案的简繁一一对应关系,也可依照本发明指引,在龚码外的同种或多种内码间实现。
华语和华文是世界上历史最悠久的语言文字。海内外华人现行的规范语言以北京语为标准音,以北方话为基础方言,以典型的现代白话文著作为语法规范。这种语言在简化字使用区称作汉语(以体现多民族平等的观念),现代汉语的标准语是普通话;繁体字使用区称作国语;海外多称作华语。华语所形成的华文文字在简繁体字使用区大多称作华文和中文。记录华语的文字在简化字使用区称作汉字,繁体字使用区称作中文字、华文字或国字。用“普通话”来称说汉语,在表达同宗同源方面不如“华语”那样强烈。用“国语”来称说汉语更不合适,因为在海外,汉语通常并不是官方语言。根据综合词频、词频方向平均值和词义,语词的对应(“中文”无习惯上的“中语”对应),同时也考虑到海内外华人的认同及便于国际交流时统一名称,本发明用作“华语”、“华文”和“华文字”(简称“华字”),语和文合称为“中华语言文字”,简称为“华语文”。在日常生活中,无论是华语所属的汉藏语系,还是目前国际上通行的英语等所属的印欧语系,都未把书面的“文”和讲话的“语”分那么清楚。
华文字从古到今累计的字汇量大约为十一万个(《异体字字典》收106,152字)。随着文化、历史的演变,有些华文字成了不再使用的“无效字”或极少使用的“罕用字”。目前中国大陆、新加坡等地使用华文简化字(繁体字使用区称之为“簡體字”),主要为国标码(即GB2312-1980,以下同),由中国国家标准总局在1981年公布,以作为全国的华文内码标准。国标码有6,763字(包括3,755个常用字和3,008个次常用字)及682个符号。中国台湾、中国香港特区和海外华人社会使用华文繁体字(繁体字使用区称之为“正體字”),主要为大五码(即BIG5,以下同),有13,053字(包括5,394个常用字和7,659个次常用字)及408个符号。大五码1984年由五大台湾电脑公司共同制订,因而取名“大五码”。“香港增补字符集”有4,702个包括了广州话方言字在内的华文字符,配合大五码的部分字一起使用。繁体字的台湾用法和香港用法(即便不计广州话方言字)有一定差异,是繁体字用法中的两个较大分支。繁体字使用区通常将国标码和大五码之外的广州话特有方言字叫作香港字。
有较完善的文字规范,能独立形成正式公开出版品的文字内码体系为单一内码,如国标码、大五码和本发明的龚码基本字符集。繁体字的香港用法也可视为单一内码。包括两种以上单一内码的内码体系为综合内码,如国标码扩展字符集GBK(即GB13000-1993,包括21,886个字符),GB18030-2000(包括27,533个字符),大五码扩展字符集BIG5+(包括51,585个字符),国际码Unicode。以上前三种扩展字符集(因与原单一内码的编码方式不同,且并非只包括扩展延伸部分,应称作综合字符集),都包括简繁华文字、香港增补字和日、韩文字。以下如无特别注明,均指单一内码。
与本发明有关的华文文字的现行规范为1.文字使用者若选用某种华文文字单一内码,用字不应超出这一内码的范围(少数使用方言字的特殊情况例外),除非由编码制订者向原单一内码中系统性加字。不应“缺字”(字与字之间出现非正常的空白)、“借字”(向另一内码“借”)、“多字代一字”(用几个字来代替某一个字)或“自造新字”。
2.按严谨的文字规范,某种单一文字内码的所有正式公开形成品(如图书、报刊、网页、软件等)都应遵从这一内码的同一用字规范和习惯,不可以“多种单一内码混用”。
3.若不能达到以上标准,按宽泛的文字规范,某种单一文字内码的所有正式公开形成品(如图书、报刊、网页、软件、多媒体等)都应遵从其用字规范和习惯的无选择和无争议部分。某种单一文字内码的同一正式公开形成品(如同一份报刊、同一家国际互联网的网页等),应遵从自“可选择和有争议部分”中选定的标准和习惯。目前繁体字的使用基本上是按照这一规则。
如简化字的“证”对应繁体字的“證、証”,“證”与“証”没有任何字义上的差别,属于“可选择”用字。如果一家繁体华文报纸选择用“證”,那么该报纸中出现的所有这个字都要用“證”,而不能用“証”。不可以前面一篇文章用“證據”,后面一则广告用“証據”。更不可以出现“事實證明那位教授既有的求証是錯誤的”、“這份週報每逢周五推出”、“雇主不願再僱他”、“眾裡尋他——就在眼裏”或“在台協會於臺北”这样的字句。
4.一种转换方法,在何种有关联的内码之间、或何种综合内码之内转换,转换结果用何种有关联的内码显示、输出都没关系,但一定要与目的单一内码的文字规范、文字使用习惯和用字范围严格对应。
如华文字的转换,既可在国标与龚码、大五与龚码、国标与大五之间,或单一内码与Unicode、GBK或BIG5+之间,也可在以上某一综合内码之内。转换结果的显示或输出可用目的单一内码,也可用以上有关联的综合内码。但转为国标码简化字的结果要与国标码的规范、习惯、用字范围对应,转为大五码繁体字的结果要与大五码的规范、习惯、用字范围对应。
以下是现行华文简化字和繁体字在学习、使用、研究、转换和统一诸方面所存在的一些问题1.一种华文内码的一个字有时对应另一种华文内码中的多个字(一对多)(1)“同一字义”一对多如简化字的“机”所对应的繁体字的“機、机”。这种“一义多字、多语词共用”(如异体字、异形词等)的现象在华文用字中较为普遍,且现行华文文字工具书和华文文字转换方法并未以系统规范的方法解决这一“不规范”的问题。
(2)“不同字义”一对多如简化字的“制”所对应的繁体字的“製、制”;繁体字的“參”所对应的简化字的“参、叁”。繁体字对于人称用字字义的划分较细,如第二人称用字,若为男性或不知道对方性别时用“你”,若为女性用“妳”。第三人称用字,若为人以外的动物用“牠”,非动物用“它”。“妳”字在繁体字使用区内的面向女性的杂志中特定字频相对较高。作“别的”义解时简化字将“其他”与“其它”分开,后者专用于事务(也可通用)。繁体字则只使用了“其他”。简化字的三个常用助词用字“的、地、得”,部分繁体字工具书只使用了“的、得”。“用在词或词组后表明副词性”时,繁体字大多使用“的”。部分繁体字出版品中,将疑问代词“哪”用作“那”。
(3)“有争议字条”一对多如简化字的“游”对应繁体字的“游、遊”,“游”与“遊”有字义上的差别。“游”的字义①在水里行动。②江河的一段。③姓。“遊”的字义①闲逛,从容地行走。②交友往还。但关于“不固定的”这一字义,不同的华文字典或词典就有不同的解释,在这一义项下属于有争议用字。
“同一字义一对多”与“有争议字条一对多”的区别是,前者不存在字义的归属问题,而后者存在。
(4)“复杂状况”一对多一种华文内码的一个字有时对应另一种华文内码中或不同地区的“不同字义”或“同一字义”的多个字。如简化字的“台”所对应的繁体字的“台、臺、檯、枱、颱”。其中“颱”为单一义项,而“台、臺”、“檯、枱”在某些条目下是同一字义。
2.一种华文内码的某些字,有时在另一种华文内码中并无“字”可以对应,也就是说,使用“字转字”的方式并不能作到“全面的、完整的”转换。国标码有二百多个字不能转为大五码的“字”;大五码约有四千多字不能转为国标码的“字”。如以“魚”作部首并与“魚”有关联的字,国标码有七十多字,大五码有一百六十多字。其中国标码有十几个、大五码则有一百零几个“魚”部的字不能转为另一内码的“字”。仅化学用字一项,国标码的二百零几个字就有四十多个字不能转为大五码(某些化学用字在大五码中有不同的用字和读音)。不能转换的字中并不全是“无效字”和“罕用字”。这就是有时在某些华文国际互联网(国际计算机网络)或报纸上造成“缺字”的部分原因。
3.华文繁体字的规范和习惯较为复杂,如同为地名,可以用作“臺南”却不可以用作“臺州”;繁体字的使用现状较为混乱、失控,有的自立标准、自造新字。由于把握不住华文繁体字的规范和习惯,有的干脆选笔画最多的字用。如“皇後街的範先生喜歡人雲亦雲”,规范的用法应为“皇后街的范先生喜歡人云亦云”。如“衹有他是喫過飯纔來的”,习惯的用法应为“只有他是吃過飯才來的”。再如译名“尼克鬆、斯裏蘭卡”,繁体字有专用翻译用字,规范的用法应为“尼克松、斯里蘭卡”。
4.以某种单一内码为基础形成的华文文字工具书(字典、词典、辞海等),对另一内码无解释或解释不完备。繁体字的工具书一般对简化字不作解释,将繁体字称作“正體字”,其他则为“非正體字”。简化字的工具书通常将繁体字作为“异体字”解释,收录了一些繁体字使用区已没使用、大五码也没收录的“无效字”;部分正在使用的繁体字却没有收录;对收录的某些繁体字的释义与现行繁体字的规范和习惯不符。
5.以某种单一内码为基础形成的常用华文文字工具书(字典、词典等),对该种内码的解释并不完备或字义的界定不够严谨、科学。如大五码的常用字典、词典不能查全部大五码的字,国标码的常用字典、词典也不能查全部国标码的字。1981年公布的国标码只有六千多字,2002年出版的《新华字典》收录了超过一万字,国标码的“舭楱砩搿猓蚵虺哜弪堀杩坶鼽肜艉葙枵崾”等字却未被《新华字典》收录。再如“馀”,简化字常用工具书解释为“已简化为‘余’,用‘余’意义可能混淆时,用‘馀’,如‘馀年无多’。”何种情况下可能混淆,何种情况下不可能混淆?文字使用者很难在每一次用“余”时,斟酌是否该用“馀”,是否会混淆。
6.综合、扩展字符集推出的目的是为了提供方便,让使用者不会为了缺字而烦恼。但由于一种内码使用区的使用者对另一内码的文字规范了解不多,出现了“简繁混用、多内码混用”的现象,且有逐渐增多的趋势。简化字使用区制作出版的繁体字报刊、国际互联网页的用字,有相当一部分不符合现行繁体字的规范和习惯,繁体字使用区称这种用字为“大陆繁体字”。由于没有严格界定基本字符集与综合字符集的功能作用差别,面向同一使用区内的出版品出现了向综合字符集“借字”并同原相关字混用的现象。如简化字的出版品,出现“贰弍、扬飏”等字混用的情况,按字频方向值有增多趋势。
7.同一个华文字,有时在不同地区的不同出版品中使用不同的字形,如台湾许多出版品使用的“村檯床妝峰群略憑韭”,香港则大多用作大五码并未包括的“邨枱牀粧峯羣畧凴韮”。有些字形的差异甚小,很容易混淆,如台湾用的“衛既夠”与香港用的“衞旣够”;国标码与GBK收录的“麽麵麺拼”与大五码常用的“麼麵拼”。同一使用区内的出版品,“一义多字、多语词共用”的现象较普遍,且相应的工具书上得不到规范性的解释。
8.简化字使用区和繁体字使用区在多种领域、多种行业的用词、用语方面有差异,如简化字用“计算机、网络、表演、素质、拼搏、抵制、嫉妒、训斥、迎合、调戏、保证书”,繁体字用“電腦、網路、作秀、質素、打拼、杯葛、吃味、申誡、呵認、吃豆腐、切結書”。简化字的“爱人”相当于繁体字的“太太、內人”,而繁体字的“愛人”则相当于简化字的“热恋中的情人”。有些专业用词、用语的不同也与译名不同有关。简化字使用区意译较多,如“激光、维生素、保险、癌症、草莓、访谈节目”;繁体字使用区音译较多,如以上语词译作“鐳射、維他命、燕梳、砍殺爾、士多啤梨、脫口秀”。另外,汉语语法与國語文法,标点符号用法,亲族师友、中外货币、度量衡、历史年表的称谓等,也都有很大差异。
9.同一个华字,有时在国标码简化字与大五码繁体字中的读音不一样,甚而有复杂的对应关系。如简化字的lājī(垃圾),繁体字读作lèsè;简化字的wōniú(蜗牛),繁体字读作guāniú。再如以下汉语拼音标注的繁体字的字音,同简化字的字音有“一对多”和“多对多”的复杂对应关系什shé,shí,shén;馮píng,féng;和hàn,hú,huo,huò,hé,hè;瞿jǜ,qǖ,qǘ;艘sāo,sōu;潦lǎo,lào,liáo;沈chén,shěn;啞è,yǎ,yā;圳chóu,zùn,zhèn;癌yán,ái;宿xiǔ,sù。由于繁体字使用区将人地山河名译成拉丁字母(译出)时,采用的标准与汉语拼音不同;外文名称译成华文(译进)时,采用的译名标准也不同,因而目前简繁体字使用区的译进、译出都有差异。
10.华字有复杂的一字多音现象。如同一义项下“血”的文言音(用于读文言文的“读音”)是xuè,白话音(用于讲口语的“语音”)是xiě“场”的“正读”(原北京音)为chāng,“又读”(原北京以外音)作chǎng。不同义项下的多音字则称“破音字”。许多华文工具书将偏旁部首的读音沿旧例标注,导致与现行语音不一致,如将“虫”标为huǐ,“厂”标为hàn。
11.简体与繁体华文有不同的语法、词法及标点符号规范。如“阿公、阿妹、阿强”中的“阿”字,“忽然、悄然”中的“然”字,简化字的词法中分别划作前缀、后缀,繁体字划作助词。“腊肉、腊鱼”中的“腊”字,简化字工具书归为名词,繁体字归为形容词。再如简化字使用《》作为书名号,繁体字则在书名、篇名、歌曲,名、影剧名等之下标波浪线(直排时标在左边)。繁体字在人名、种族名、国名、地名、机构名等之下标横线(直排时标在左边)作为专名号(原称为私名号),简化字则未使用此符号。
12.对华文字的统计、研究、分析、处理所采用的技术,还处于“跟着感觉走”的阶段,缺乏现代化的方法,不能利用计算机进行“定量分析”,赶不上信息时代科技快速发展的需要,也同时导致了对华文文字统一方面的多种观点和复杂的争议。
由于华文文字不统一,华文用字范围和文字规范不科学甚至失控,不仅母语为非华文的学习者、海外华裔青少年觉得华字多、规范复杂,就连华文使用区内的母语为华文的学习和使用者,也认为许多华字(包括国标码的部分字)一辈子也难以用上。海外的许多华人子女本来就认为华语难学,家长们为了使孩子继承中国文化,出钱让小孩周末去学华语,而有的华语学校却为采用繁体字的还是简化字的教材发生争执。
无论在华语的日常学习、使用中,还是在平面、电子出版品中,很容易见到对华字字义的斟酌、探讨甚而争议,为一个字思考、斟酌所花的时间,轻易就会超过正常使用数百、数千个字的时间。由于华语中冗余信息较多,一些教华语的教授、教师一辈子都疲于为学生“正字、正音”。对华语的研究(还不包括对华文输入法等方面的研究——华文输入法已公开的有数千种,出现了“万码奔腾”的壮观局面),并不限于相关学术机构和大专院校的众多专家学者,并且重复立项、重复研究和重复出版的覆盖比率相当高。姑且不论“数万人一辈子研究几十个字”的说法是否准确,与其他国际文字相比,研究华语的超级团队的确“形成了一道亮丽的风景线”。
目前华文文字的不统一状况,已导致文字层面以外的问题。简化字使用者把名字“劲松”写成繁体字“勁鬆”,按繁体字字义是玩笑话题。把“占小姐”写成“佔小姐”产生歧义导致对方生气,而写者不知气从何来。一份電腦杂志中有文章写道,「這軟體不錯,可惜用的是大陸繁體字。他們的字與我們的字不同。」华文文字的不统一状况,不仅导致华文字使用方面的混乱和不规范现象,海峡两岸交流的不便,造成人力、物力、财力等方面无形却昂贵、惊人的浪费与挥霍,也严重阻碍了华语走向国际。
本发明的目的是提供一种科学的可行性高、易于推广的方案,在充分尊重现有各种华文单一内码使用规范和习惯的基础上,以现代化的筛选、整合、变通、规范及创新处理方法,实现华文文字的内码、用字范围、字义、字形、字音、语词、语法、译名、字音输入的全面完整统一;及在有必要转换时,实现华文龚码、国标码、大五码等多种内码之间或同种内码之内的多码多向的完整规范化智能转换。
为了解决以上华文文字全面完整统一和内码规范转换所遇上的各种问题,便于计算机“智能”统计、研究、分析,高效、快速处理华文字信息,使统一方案和必要的转换得到科学的完整的规范化的结果,本发明创造了“综合字频、词频”、“字频、词频方向值”和“合理最简词”等概念。以下若无特别说明,“龚码的选字”指“龚码基本字符集的选字”。
1.特定字频、词频根据对某一单位时间段的出版品的统计,某一个字出现的次数除以总字数后得到的百分比结果。也可根据需要对特定字义或字音条目下的用字,以相关词组或短语搭配等方式,统计出特定条件下某一个字出现的次数,从而计算出特定字频、词频。特定字频、词频及综合字频、词频可比较不同字词的使用频度。在计算机中用字频、词频软件来统计快速、方便、准确,但所统计文字的字形、字音一定要与既定时间的既定出版品严格吻合。比如统计二十世纪三十年代的平面出版品,用OCR光学识别等方式转为文本文件,原出版品中用“纔”的,就不能用“才”来作统计。已有的计算机文件也要与原出版品对照校正。网页等电子出版品除非与原平面出版品严格相符,否则只可作为现时的统计结果。对不同地区、不同领域的不同形式的出版品所作的统计,得出的字频、词频结果会有不同。
如现时的华文繁体字字频分地区统计结果“周”字——香港为0.0289%,台湾为0.0190%。“週”字——香港0.0057%,台湾0.0103%。据此可知,“周”字在香港的使用频率高过台湾,而“週”字在台湾的使用频率高过香港。再如“敝”字,在海外繁体字字频统计中排序为第1718,而在大陆简化字字频统计中排序为第4253。以下为综合字频前20个字的分地区特定字频的排序结果。
2.综合字频、词频根据对某一单位时间段的不同地区、不同领域的不同形式的出版品,综合统计得出的较全面的字频、词频百分比结果,可校正地区、领域、出版形式等偏差。但特定字频、词频进行字频、词频比较时有特定的用途。例如二十世纪九十年代的繁体字综合字频、词频,包括1990年1月1日至1999年12月31日之间,台湾、香港和海外的新闻、政治、财经、教育、文化、艺术、法律、科技、娱乐、旅游等领域的华文繁体字图书、报刊、国际互联网等出版品综合统计结果。由于古籍书、古字典、古词典和文字专家学者的学术文章等涉及用字范围太广,会导致综合字频、词频的统计结果出现非正常偏差,故不纳入统计。早期的统计因电子出版品尚未出现,只有平面出版品。
当一种内码的字与另一种内码的字并不是一一对应,而需要进行比较或共同纳入特定字频、词频或综合字频、词频的统计时,根据“字义或词义的分开与合并”计算频度。如国标码的“制”对应大五码的“製、制”,若综合字频的统计中按大五码的“製、制”两个字分开统计,则国标码的“制”按以上两字的字义分开统计纳入。再如国标码的“扇”对应大五码的“扇、搧”,若综合字频的统计中按国标码的“扇”统计,则大五码的“扇、搧”按字义合并统计纳入。
龚码收录根据综合字频确认的常用字和次常用字。原华文单一内码中,同一字义有多个字时,如果一个字的现时综合字频明显高于其他字,龚码选择综合字频明显较高的一个字。如“吃”的现时综合字频为0.0586%,“喫”为0.0060%,故龚码选用“吃”而不用“喫”。
当内码转换中涉及到不同字义的“一对多”有争议条目,或同一字义的“一对多”时,如果一个字的现时综合字频明显高于其他字,第一步“转字”时选择转换为其中综合字频较高的一个字。如在“游”字作“不固定的”字义解释时,转为此义项下综合字频为0.0047%的“游”而不用0.0028%的“遊”。
3.简繁体字综合排序根据综合字频可将简繁体字综合排序,字义全同字形不同的简繁体字算作一个字,如“学”与“學”。在简繁综合序列中,国标码的六千多个字中约有一千字排序在第8,000以后,如“茇菝瘭礤躔茺搋簖稃戤颃擐蕺跽谫鲒弪捃芤缡苈篥鞔蠛脬螵椠缲檎锓圊筇绱赕铴掭蜩芄禊渫糈罨蓣驵痄膣窀”等的几百字则排序在第10,000以后。
4.字频、词频演变曲线图以一些连续时间段的特定或综合字频、词频数据为纵坐标,以时间段为横坐标所绘制出的曲线图,可直观地观察或比较字频、词频的演变状况。据字频演变曲线图比较可知,在简化字使用区推行简化字后的一定时间段,繁体字使用区的用字向“繁”的方向转化,原本字频较低但在同时使用的某些笔画较少的字,如“复、机、圣、网、价、体、怀、惊、柜”等字,后来索性成了“闲字”(闲着不用的字)。
5.字频、词频方向值用某一单位时间段的特定或综合字频、词频,除以该字前一单位时间段的特定或综合字频、词频,即为该单位时间段的字频、词频方向值。通过字频、词频方向值,可准确分析字频、词频发展的方向和演变速率;也可比较相同时段不同字的字频、词频方向值,比较字频、词频的演变方向和演变速率。当字频、词频方向值大于1时,说明该字词的使用频度在增大;数值越大就说明增大的速率越快。当字频、词频方向值小于1时,说明该字词的使用频度在减小;数值越小就说明减小的速率越快。
6.字频、词频方向曲线图以一些连续时间段的特定字频、词频方向值数据为纵坐标,以时间段为横坐标,所绘制出的曲线图。可直观地观察或比较字频、词频的演变方向和演变速率。
7.字频、词频方向平均值把相邻几个单位时间段的字频、词频方向值平均,即为字频、词频方向平均值。可校正时间偏差。比较不同的字,所取相邻的单位时间段应相同,从而比较出字频、词频的发展方向平均值高低。
以最近四十年每十年为时间段,据繁体字的综合字频计算出的字频方向平均值(后述均按此定义),“證”为1.1069,“証”0.8434;“閒”1.1375,“閑”0.8107。由字频方向平均值可知,在这四十年中,简化字“证”所对应的繁体字在向“證”发展,“闲”在向“閒”发展,后者的发展速度快于前者。因而龚码选用“闲丨閒、证丨證”,龚码繁形字未选用“証、閑”。
当内码转换中涉及到不同字义的“一对多”有争议条目,或同一字义的“一对多”时,如果对应的几个字的现时综合字频较为接近,第一步“转字”时转换为字频方向平均值较高的一个字。
8.字频、词频预测值用现时的特定字频、词频或综合字频、词频的数据,乘以字频、词频方向平均值,即为对下一个时间段的字频、词频预测。如某字的现时综合字频为0.0250%,十年时间段的字频方向平均值为1.1500,未来十年的综合字频预测值即为0.0250%×1.1400=0.0285%。由于影响字频、词频变化的因素较复杂,此预测值只可作为参考。
需要说明的是,本发明旨在探讨科学的解决方法。以上多项涉及到的数据,不同的统计范围或统计资料,会导致不同的统计结果。但从理论上说,尽管是不同的统计,其范围越广,资料越多,结果的差距就会越小。
9.构词率某个字所构成词条的种类在总词条种类中所占的比率。同一词条不管出现多少次都只算作一种。如“人、大、子、不、一、心”等构词率高的字,可构成千种左右的词条;而“舆、础、牺、圾、萄、璃、咙”等构词率低的字,在对辞海之类的工具书以外的实际应用所作的统计,只可构成一、两种词条。在当代华语中,有相当一部分字的构词率都很低。
10.合理对应字当利用龚码输入或从其他内码转换为龚码时,若龚码中没有对应字,输入或转换为龚码的“合理对应字”。合理对应字须符合“字义、字音、字形等关联性强、合理、无歧义”的原则。
如龚码没有收录的其他几种华文单一内码(国标码、大五码等)的用字,在《当代华语词典》中释义并给出“合理对应字”的指引。如大五码的“諆”,龚码中没有这个字,根据以上原则用作龚码中的合理对应字“欺”。
在异种内码转换中也按此处理。即当来源码的“字”不能转为目的码的“字”(不能“字转字”),即目的码“无字对应”时,或原有的转换中对应不合理时,用目的码的“合理对应字”与之对应。若还有其他字义,可在第二步的目的码环境中用转词的方法校正。如果来源码的“词”对应目的码的“字”,本发明用先“字转字”、后“词转字”的方法解决。如国标转大五时,“英寸”对应“吋”,先将来源码的“英→英、寸→寸”;然后在目的码的环境中,将“英寸→吋”。
11.合理最简词当利用龚码輸入或从其他内码转换为龚码时,若龚码中没有“合理对应字”时,本发明用龚码的“合理最简词”与之对应。合理最简词应符合“科学简洁、通俗易懂、严谨合理、无歧义”的原则。对于龚码未收录的名称用字,按其他习惯名称;无其他习惯名称者采用“义音形最接近字+特征尾字”(特征尾字识别变通法)的方法解决,特征尾字可为“花草树木鸟虫鱼石”等。如“ 櫹”等综合字频很低的罕用字,龚码基体字符集未收录,用作“尊鳥、蕭樹”。
即当来源码的“字”不能转为目的码的“合理对应字”时,本发明用目的码的“合理最简词”与之对应。如大五码的“這條 約長1呎2吋”,原有的转换方案因某些字“无字可转”,在国标码中会成为“这条□约长1□2□”(□代表缺字)。按本发明的“合理最简词”解决方案,可转为国标码的“这条针鱼约长1英尺2英寸”。按华文的习惯,“魚”部的一些字可单用,也可与“魚”字搭配使用,二者表达同一意思,如“鯊、鯊魚,鱷、鱷魚,鱘、鱘魚”。如果前述大五码例句中为“ 魚”,转成国标码后会成为“针鱼鱼”。为了避免这类问题,在“鱼”字条第二行下边增加一个“鱼鱼→鱼”的转换。
一、华文文字统一方案总体构思华文字(包括简化字和繁体字)是中华民族的宝贵文化遗产,是世界上表意最丰富、最精练的文字。但由于种种原因,在国际语言文字的竞争中,华文目前处于未被“公平对待”的地位。据有关统计,华文文字在联合国原始文件中的使用量还不到1%(英语占80%,法语占15%,西班牙语占4%,俄语、华语和阿拉伯语合计为1%);而华人的人口约占世界的20%。现在随着两岸相继加入WTO等因素,某些方面出现了转机。有外国人说,二十一世纪将是中国人的世纪。大中华经济圈的逐步形成及经济起飞态势,吸引了整个世界的目光。有鉴于此,华文如果能用现代化的科学方法重新筛选、整合、变通、规范及创新处理,在此基础上早日达到内码、用字范围、字义、字形、字音、语词、语法、译名、字音输入法等方面的全面完整统一,则不仅中国人易学易用,实现两岸三地及海外华人古老而又新鲜的“书同文、语同音”的梦想,让我们的子孙后代不再为华文文字的不统一而困扰和不便,使我们古老的华文字更为完美统一地承传久远;同时也有助于加快华语走向国际的步伐,早日与国际语言文字全面接轨,吸引中国的周边甚至非周边国家采用华语,并且使华语成为国际上最热门、最流行的语言之一,让中华文明再现辉煌。
华文文字达到何种标准才算统一?不同的人可能会有不同的看法。有人说,简体字使用区对字形的更改,造成与大陆以外华人在文化上的隔阂;当初简化字形有许多简得不科学、无准则,有些不同义字的合并甚至毫无道理,不然也不会以行政手法频繁调整用字范围、字形、字音和字词释义;而现在电脑处理文字的比重日益增加,笔画的多少已不是问题,大部分简体字都应当改回去。有人说,繁体字的罕用字、无效字、同义字太多,字的笔画多孩子们学起来难度大;华文字的简化是趋势,就连现在笔画多的简化字也还需要再简化;繁体字使用者没多少人把那1万3千多个字的字义搞清楚并且全部用上过;现代人不应该为了读古文而保留繁体字。一万位华文文字专家学者和热心人士,可以提出一万种统一方案。而多人凭感觉协商、表决的结果也不一定就是完善的或行之有效的方案,1913年由各地代表“逐字表决”形成的“标准国音”试行十多年后失败就是例证。由于以上及其他的多种因素,不管是以现行的简化字还是繁体字,要求所有的华文使用者采用都会有相当大的难度。
既然华文文字的统一势在必行,而大幅度的改动又不现实,那么不妨改变一种思维方式。如果简化字和繁体字的文字使用者在同一用字范围内都使用已习惯的字形,以科学、量化、创新的方式使每一个简形字与其对应的一个繁形字在同一义项下都具有相同的字义和字音(包括声调),并同属一个内码,那么华文字也就统一了(相当于内码相同、字体不同)。也就是说,无论是将“一对多”或“多对多”精简为“一对一”,还是将“一对多”或“多对多”整合为多个“一对一”,总之要将简化字和繁体字之间复杂的“一对多”全部调整为“一对一”。现阶段简繁字形不一致并不是问题,繁体字的字形保留了华文字的艺术外形,简化字的字形迎合了现代人的生活节奏,不如顺其自然,让二者优势互补。在统一方案的制订中,让数据而不是让感觉说话,可以避免很多无谓争议。因而华文文字统一需要解决的三大问题是1.科学调整、界定用字范围;2.将简化字与繁体字之间的“一对多”在必要合理的原则下全部调整为“一对一”;3.调整其他不统一和不合理的方面(字义、字形、字音、语词及语法等)。
中国的古人云“言为心声,字为心画。”把心中要表达的意思用线条画(写)出来,即成为文字。华文的造字大体上有六种方法象形,指事,会意,形声,转注,假借,合称六书。在华文文字学中,将直接为表示某一字义而造的华文字叫作本字;“一义多字共用”古已有之,义同、音同而形不同的字叫异体字;通俗流行于民间的、多为笔画较简的异体字叫俗字(又称俗体字);从多个相关异体字中被官方或相关群体(不一定限于当代)认可的其中一个标准规范字叫正字(又称正体或正体字),因而正字往往随历史的演进产生差异。
纵观大中华的文字史,无论字义、字形还是字音,都经历了相当复杂的演变。在不同的时期,不同的工具书对于华文字的“字义”有不同的解释。如十二月可称“涂月”;“璽”原泛指印信而秦朝後專指皇帝印信;古时蜀人称母亲为“姐”;“台”原為星名“三台星”的用字;“样”曾为悬挂蚕箔的柱子;“柜”原为植物名“柜柳”的用字;“邮”原为地名专用字;“儿”为“人”的古文奇字(奇字为王莽时造字条例之一);远古时“只”为语气助词,中古时方与“衹”通用。閒間、証諫、痒瘍、垩聖、坏坯、体笨、亏于、灯火、旧臼、厂庵、胜腥、人儿、奶嬭妳等字曾分别有过相同义项。一些字随着时间推移被简化,如许多过去的正字现在成了连大五码也未收录的无效字。一些字曾由简转繁,如灑、氣、網、電、栖、眾、個、雲、從、巖的本字分别为洒、气、网、电、西、众、个、云、从、岩。有的字曾“多合一”,如现行的部分简化字。为了区分字义,有的字曾“一分多”,如蔴、塗、傢、儘、昇、鬍、鬚、硃分別是麻、涂、家、盡、升、胡、須、朱的后起分化字;夸的后起分化字竟有跨、誇、垮、挎、胯、侉六字之多。也有的字形简后又繁回去,如鴛鴦曾在元代简为“夗央”,到了清代又用回鴛鴦。再如,“江、河、池、鷄、鴨、義”都是形声字,江与工、河与可、池与也、鷄与奚、鴨与甲、義与我在古代都曾是同音字。由于本字与假借字、正字与异体字、俗字等划分方法已不能科学地界定现代华文字,因而龚码只将其作为华文字的义音形演变的参考,并不作为选字的标准。
所谓字形的“简”与“繁”,只是相对的。除了有一部分字同形外(即部分字形完全相同),个别大五码的字形比国标码还要“简”。如国标码的“捍卫、磅礴、姹紫嫣红”,大五码可用作“扞衞、磅礴、妊紫嫣紅”,“扞、礴、妊”比“捍、礴、姹”的字形更“简”。国标码中的“兜、蔸、篼”三个字的字义,在大五码中只一个“兜”字就全包括了。
从历史上看,文字的发展总是向着阻力最小的方向。为了充分尊重现行华文简化字和繁体字使用区的文字使用者的习惯,减小文字统一方案的推广难度,龚码的每一个文字内码都有一个简形字和一个繁形字(部分字同形),这两个字在同一义项下有完全相同的字义和字音(包括声调),并且都确认为正体字(正体简形字和正体繁形字)。龚码简形字相对于国标码简化字,繁形字相对于大五码繁体字,都尽量作最少的字形变动。字义与字音也是在“必要”(如原简繁单一内码之间不一致)时才作“合理”的调整。龚码用字的准则,是从综合字词频、字词频方向平均值、构词率、字义、姓氏字频和人名字频等多个方面进行筛选、整合、变通、规范及创新处理。
(一)科学调整、界定用字范围1.对于翻印古籍书或文字专家学者的学术文章,用字范围可无限大(如考古学家不断在发现新的华文字)。但对于绝大部分华文文字使用者却无必要。一种华文内码没有必要因为有一千万种物质存在,就造一千万个华文字出来。十几亿中国人海人造一个字出来,学华语的人便十辈子也学不完。根据华文文字使用区内各种单一内码的现状,及现行华文文字规范和习惯,龚码基本集选字的最大范围为国标码、大五码,并参考香港增补字符集。
2.若不涉及原简繁单一内码一对多问题,根据综合字词频确认的常用字、次常用字全部收录;罕用字根据综合字词频、字词频方向平均值、构词率、字义、姓氏字频和人名字频等因素收录;无效字不收录。化学元素周期表用字全部收录。
3.特定范围用字龚码选择性收录了在某些特定范围中较常使用,而综合字频、词频不高的字,如儿童读物用字“喔、咻、咦、咩、哞、喵、呦、啾”等。
4.未收录字及后续必要补字的处理对于目前使用较广的几种华文单一内码(如国标码、大五码、香港增补字符集等)中有,而龚码未收录的字,将在《当代华语词典》中释义并按照“合理对应字、合理最简词”的方法给出与龚码的对应用字指引。对于龚码基本字符集功能范围内将来有可能会遇上的极少数的必要补字,通过向基本字符集的备用码位加字解决,而不是向扩充字符集“借字”,以免两种字符集混用。对于大部分人读得到而用不到的古文和其他用字,如果有收录必要,收进龚码扩充字符集中。
(二)“一对多”或“多对多”全部调整为“一对一”本发明中提及的“字义”,若无特别说明,系按现行简繁体字使用区的大部分华文工具书的解释。
1.一种单一内码的一个字对应另一单一内码的同一字义(包括同一义项下)的多个字时,如果另一单一内码中的其中一个字的现时综合字频明显高于其他字,选择这个综合字频较高的字。如果这几个字的现时综合字频较为接近,选择字频方向平均值较高的一个字。如龚码繁形字选择了“暗鏟吃考裡乃炮確汙閒煙豔耀喑證總”等,未收录“闇剷喫攷裏逎砲确污閑菸艷燿瘖証縂”等字。尽量利用现有字形作简繁对应,如“雇丨僱、冢丨塚、瘉丨癒、笵丨範”。对于极少数字频、词频较高的人名、生意行号用字等,如“斌”字,虽与“彬”同一字义,也酌情收录。
2.一种单一内码的一个字对应另一单一内码的不同字义(或不同义项下)的多个字时,如果另一单一内码中的除了综合字频和字频方向平均值较高的一个字,其他字虽另有字义,但综合字频、字频方向平均值或构词率明显较低,只收录前者。如龚码繁形字选择了“板抱杯並才彩草叉嘗出呆蕩抵澱咚夫個拐櫃果毁飢家鑒巨誇昆侖梁累麻渺你念娘匹撲秋千沈什屍搜他它台兔效熏燕扬癢岳欲札榨噪症致朱諮”等,未收录“闆菢盃并纔綵騲扠嚐齣獃盪牴淀鼕伕箇柺柜菓燬譭饑傢鑑鉅夸崑崙樑纍蔴痳淼妳唸嬢疋扑鞦韆瀋尸俬蒐祂牠臺菟傚燻鷰颺痒嶽慾劄搾譟癥緻硃咨”等字。对于未收录的字,尽量做到有理据有出处。如“鞦 ”一词,宋朝张有的《聯錦字》谓「高無際作《鞦 賦序》云『漢武帝後庭之戲也。』本云千秋,祝壽之詞也,語譌轉為鞦 。」3.一种单一内码的一个字对应另一单一内码的不同字义(或不同义项下)的多个字时,如果另一单一内码中的除了综合字频和字频方向平均值较高的一个字,还有其他字的综合字频、字频方向平均值及构词率也较高,若选用能有助于使字义的表述更明确,龚码便选用该字。如大五码的“參”对应国标码的“叁参”。大五码中其他华文大写数字都有近于专用的字,唯独没有“叁”,因而龚码在繁形字中收录了该字。另如“着”与“著”,按简化字将“助词、接触”等字义与“写文章、写书、显明”等字义区分开更好。这样也有助于减少多音字。
再如国标码的“制”对应大五码的“制製”两个常用字。“這種編制不好”和“這種編製不好”有不同的意思,前者可能指“單位人員配備不合理”,后者可能指“某種檔案、報表之類的製作不完善”,两个字分开使用字义更明确。另如“他背著弟弟”與“他揹著弟弟”也有不同的意思。
为使字义的表述更明确,龚码繁形字同时选择了“參叁、采採、沖衝、斗鬥、發髮、復複、干幹乾、后後、划劃、歴曆、面麵、松鬆、托託、系係繫、游遊、于於、余餘、云雲、占佔、著着、制製、志誌、只隻、鐘鍾、注註、准凖”等字及其对应的简形字。
4.有时国标码与大五码之间的多个字有复杂的对应关系,需按“必要合理”的原则进行复杂调整。如简化字的“台”对应繁体字的“台、臺、檯、枱、颱”。其中“台、臺”在“高平建筑物、器物座、量词、台湾省”几个条目下是同一字义;“檯、枱”作“桌子,案子”解释时为同一字义,后一字大五码没有,是繁体字的香港用法;作“太平洋西部上空暴风”解释时用“颱”。在以上关于“台、臺”的几个选择性的义项中,现时繁体字综合字频“台”為0.0894%,“臺”为0.0513%;字频方向平均值“台”为1.6978,“臺”为0.925。不管是现时的使用频度,还是字频的发展趋势,选择“台”字更合现时繁体字使用者的习惯。“颱”为次常用字,但构词率低。“檯、枱”也是次常用字,因龚码未收录“臺”,这一字义按“字形合理对应”原则选繁体字香港用法的“枱”。至此将原有简化字与繁体字的“一对五”,调整为龚码简形与繁形的“台、枱”两个“一对一”。
另如国标码的“干、乾”与大五码的“乾、幹、干”具有复杂的对应关系,属于“多对多”。大五码中这三个字的字频都比较高,繁体字综合字频“乾0.01658%,幹0.01323%,干0.01204%”。繁體字例句「『你幹了沒有?』『現在還不想幹。』『幹不幹無所謂囉!』」与「『你乾了沒有?』『現在還不想乾。』『乾不乾無所謂囉!』」可大致推断出前者意思为“那活兒(或那件事)你幹了沒有”,后者为「那杯酒(或飲料)你乾了沒有”,意思较为明确。因而龚码收录这三个字,并按繁体字分配字义。
5.特殊情况处理。
在龚码的制订过程中,涉及到姓氏用字都会复杂一些——按华人的传统习惯,通常不愿意别人改动自己的姓——因而龚码不是万不得已的情况不改动姓氏的用字或字形。对于姓氏专用字(或接近专用字),龚码根据“同等情况下姓氏优先、不加字优先、高频字优先”,及前述综合字频和字频方向平均值的确认原则处理。此原则也适用于人地山河名专用字。在不涉及字义的“一对多”时,龚码将常用与次常用姓氏用字收入基本集,罕用姓氏用字收入扩充集。涉及到“一对多”时,若所对应的是常用姓(常用与次常用姓氏用字)与常用字(姓氏以外的用字),两字同时录入基本集,如龚码繁形字的余、餘和范、範;罕用姓与罕用字,按罕用姓合并录入扩充集;常用姓与罕用字(包括组词能力有限字),按常用姓合并录入基本集,如沈、瀋与朱、硃;罕用姓与常用字,按常用字合并录入基本集,如龚码繁形字的种、種。即在简形字中的姓氏“种”,在繁形字中为“種”。再如根据“同等情况下不加字优先”的规则,简形字中的山西别称“并”,在繁形字中为“並”;简形字中的山名“昆仑”,在繁形字中为“昆侖”。
简繁体字使用区有不同的化学用字。如化学元素周期表中简化字的“硅、锝、镱、镥、砹、钫、镎、钸、镅、锫、锎、锿”,繁体字台湾用法为“矽、鎝、鐿、鎦、砈、鍅、錼、鈽、鋂、鉳、鉲、鑀”,繁体字香港用法则同简化字,类推“繁化”为相应的繁体字使用。综合考量,龚码的化学元素周期表用字按简化字。
(三)调整其他有争议、矛盾或不一致之处1.字义对于有争议、敏感或矛盾的字义条,龚码词典采用“客观对待、避免争议、中性语词释义”的方法处理,让简繁体字的所有使用者都能接受。如华文数字“弍”,简化字解释为“同大写中文数字贰”(《新华字典》),繁体字解释为「同小寫國文數字二」(《新編中國辭典》)。龚码并未收此字,在当代华语词典中解释为“华文数字。在大写华文数字中用作‘贰’,小写华文数字中用作‘二”。化学元素周期表第14号元素,简化字用作“硅”,繁体字台湾用法为“矽”。但在简化字中,“硅”为正式名称,“‘矽’为‘硅’的旧称”(《现代汉语词典》);大五码恰恰相反,“矽”为正式名称,「『硅』為『矽』的舊譯」(《國語辭典》)。美国的Silicon Valley,简化字译作“硅谷”,繁体字台湾用法则称“矽谷”。但对于职业病silicosis一词的翻译,某些简化字工具书仍沿用原称“矽肺”。龚码将“矽”字收入扩充集中。再如“慊”字,既有“满足、满意”的义项,又有“不满足、不满意”的义项,此字因属罕用字龚码没有收录。此类字收录时也只可选用矛盾义项中使用频度较高者。在异种内码转换中也按此办法处理。
不同字义(或字义条下)有多个字时,有些并不需要加字,只需要调整字义(字义再分配)。如国标码的“于、后、钟、余、咨、折、旋、糖、径、伙、借”对应的大五码字“于於、后後、鍾鐘、余餘、咨諮、折摺、旋鏇、糖醣、徑逕、伙夥、借藉”,前面的八個字中有六個都涉及到姓氏用字。上例中的“於、後、锺、馀、谘、摺、镟、醣、迳、夥、藉”等字国标码都有,字义按繁体字释义即可。再如国标码与大五码都有“姐、姊”二字,但字义分配与读音都有差异。繁体字的“姐”字只有“对年轻女子的通称,含有敬意”这一义项,如刘三姐、小姐等,“同胞女子先出生者;女子对同辈的尊称”义项则用“姊”(可读zǐ,但大多读jiě),如姊姊、二姊、姊夫、表姊、学姊等。据综合字频和字频方向平均值,此二字龚码按简化字释义。
2.字形龚码简形字尽量照顾简化字使用区的字形使用习惯,龚码繁形字尽量照顾繁体字使用区的字形使用习惯。
(1)有些字的笔画不多或同相关字笔画差异小,龚码简形字直接录入,如“揹併佈採弔複廻姦捲睏裡慄○舖捨塗係兇遊佔週凖”等字。
(2)有些字的笔画较多或符合简化规则,如龚码繁形字“錶嚐噹噁譁儘釦囉闢鎔託輓 讃誌註”等,按简化字规则类推简化后,龚码简形字录入为“ 侭 啰”。
(3)对于少数由于原国标码与大五码“不同字义”一对多,而不得不在龚码中增加或调整字义的少数简形字,若因笔画多而与其他龚码简形字不协调,龚码按“兼顾相关字形,新字的字义、字音易理解,无歧义”的原则将其调整为“合理字形”。如龚码繁形字“蔔衝醜澱鬥髮範豐乾幹穀後劃彙穫幾薑曆徴麵樸籤鬆 嚮傭 癒雲 髒徴製隻”等,调整为合理字形后龚码简形字录入为“夊 3.部分字形调整(未特别注明者为简形字)说明及龚码简繁形例句对照(1)表云彩飘动之意,取形旁三撇,雲作 古人云学海无涯, 程有路。
古人云學海無涯,雲程有路。
(2)以兵器防御,用立刀为义旁, 作 由御前带刀侍卫领班在皇宫内防 由御前帶刀侍衛領班在皇宮內防 (3)製作 已见于繁体的手写。计划可行文,劃作 这项计 从经济上考量是否划算还是个未知数,因而该计 中产品的 造受到了限制。
這項計劃從經濟上考量是否划算還是個未知數,因而該計劃中產品的製造受到了限制。
(4)抽签测吉凶,用凶字框,以千为音旁,籤作 亦示籤從筒或盒中抽出。
签约前,他抽了一支 测运气。
簽約前,他抽了一支籤測運氣。
(5) “髮”生于头上,以发为音旁,髮作 取後的右下部,後作夊。借範的竹头,参照相关字“范”,範作笵。
皇后公园的夊面有一家美容 型学院,我发现范小姐正在为学生作示笵。
皇后公園的後面有一家美容髮型學院,我發現范小姐正在為學生作示範。
(6)在战火硝烟中冲锋,以火为义旁,衝作 上高地,班长冲了一壶龙井茶招待士兵们。
衝上高地,班長沖了一壺龍井茶招待士兵們。
(7)“麵”为食,以其为义旁,以面为音旁,麵作 一碗热腾腾的红烧牛肉 端到了他的面前。
一碗熱騰騰的紅燒牛肉麵端到了他的面前。
(8)钟|鐘,锺|鍾;表|表, |錶。
他表示,对祖上留下的这爿钟 生意情有独锺。
他表示,對祖上留下的這爿鐘錶生意情有独鍾。
(9)尽|盡,侭|儘。
侭管条件有限,他们还是力争做到人尽其才。
儘管條件有限,他們還是力爭做到人盡其才。
(10)借萝字的草头为义旁,以卜bo為音旁,蔔作 卜先生拔萝 卜先生拔蘿蔔。
(11)干|干;留幹的右边,幹作 借乾的右边,以干gān為音旁,乾作 那位老农说“我还是早前的话,‘天干地支卜雨只可信一半。天 还得人 !’”那位老農說「我還是早前的話,『天干地支卜雨只可信一半。天乾,还得人幹!』」4.符号对于简繁体字使用区使用频度较高而差异较大的标点及其他符号,在统一方案中采用科学的统一名称和可转换输入提示行显示形式,并同时保留不可转换形式。如引号,简化字的使用顺序是先用双引号“、”,后用单引号‘、’;繁体字则先用单引号「、」,后用双引号『、』。二者的名称与形式很容易混用,部分简化字出版品转为繁体字时先使用双引号『、』,后使用单引号「、」。为避免混淆,龚码使用外引号和内引号的名称,即先使用外引号,后使用内引号。龚码安排了可转换外引号输入提示行显示形式「“、”」和可转换内引号输入提示行显示形式『‘、’』只需要输入可转换形式,即可在龚码简形中出现简化字的习惯形式,龚码繁形中出现繁体字的习惯形式。繁体字的出版品中直排较多,直排时各种符号可自动转换为直排符号,如 等。
(四)华语冗余信息的变通处理在探讨冗余信息的变通之前,我们首先需要解决一个问题,就是当代华人希望从华语的古文化中继承什么?如果我们希望继承的是其博大精深、底蕴深厚的文化内涵,而不是照搬其表现形式,那么科学地理顺华语文中义、音、形等过去没有理顺的关系,消除语言文字中的“灰色地带”,把无谓的辩论和争议减少到最低限度,让华语比其他语言更科学、更有效率,对于各类冗余信息的变通就是必要的。
1.字义冗余信息的变通。
龚码的每一个华文字都有独特的字义。当一个字具有某种字义,其龚码中的相关字(在原国标码或大五码中相关的字)即不再具有该义项,即“字义不作重复授权”。如龚码收录了“犟”字,相关字“强”不再具有“固执、不服劝导”的义项。收录了“幺”字,相关简形字“么”不再具有“排行最小的”这一义项;其字形、字音相关字“吆吆”,龚码根据合理对应的原则,简繁形均选择前者。对此在《当代华语词典》中严格界定。龚码统一方案收录的字与字、词与词之间,不存在某字词或某字词的某义项“通”另一字词,或“亦作”另一字词的现象,即不存在异形词,这样也就不会再出现如「該用『身分』還是『身份』」之类的争议。对于龚码收录的极少数字频、词频较高的人地山河名、生意行号用字,在《当代华语词典》中作出准确解释,以免混淆或误用。如“斌”字字义同“彬”,现为人名用字。当代华语词典不收录现代使用者接触不到的义项释义,字头下按义项标注所属词类并附对应英文单词。为了准确界定字词义,并便于查阅、使用和翻译,《当代华语词典》在部分非抽象名词的词条下列出国际通用的外文名称。
不同的用词、用语可以丰富语言的表达方式,但是一方面专业用词、用语应当统一,另一方面用词、用语应当不易混淆,尽量让绝大多数的文字使用者理解。如“杯葛”(借用爱尔兰农场主boycott被佃户抵制一事)、“高買”(借购物行窃),若改用作“抵制、偷竊”,所有华文文字使用者都能理解。在华文用词中,较容易混用的是“同义近音词”(如双字词中同一字,另一字同音),如“什麼、甚麼;指責、指摘;計劃、計畫;報道、報導;詞典、辭典”。有些用词则可以丰富表达方式,不需要调整,如“奮鬥、打拼;承受力、包容力;走紅、當紅;包括、涵蓋”等。龚码使用“科学简洁、严谨合理、不易混淆、通俗易懂”且综合词频和词频方向值较高的用词、用语,及统一的专业用词、用语。如综合词频较高的“電腦”与“计算机”,尽管CPU的工作原理是通过“计算”,但Computer的运用现在远超出“计算”的范围,且前者较为形象、简洁,词频方向平均值也高于后者,因而龚码选用了“电脑|電腦”。再如“指責”與“指摘”,“指責”谓责难,“指摘”谓指明错误而摘出之,据词义龚码选用了“指责|指責”。用词、用语通过《当代华语词典》作系统性的规范解释。
为避免目前存在的语词运用方面的混乱状况,所有与龚码相关的输入或转换,都依照其文字和语法规范设定语词。如输入软件中的用词按《当代华语词典》设为“杂 |雜誌、 造|製造、咨询|諮詢、由仒|由於、联 |聯繫、其馀|其餘、轻 |輕鬆、旅遊|旅遊、採访|採訪、头 |頭髮、批准|批准、佔领|佔領、複杂|複雜”,就不会再出现目前繁体字出版品中时常可见的“雜志、制造、咨詢、由于、聯系、其余、輕松、旅游、采訪、頭發、批凖、占領、复雜”之类的不规范用词。
2.字音冗余信息的变通。
目前简化字有八百多个多音字,最多一字五音。繁体字原有四千多个多音字,有关方面曾减少到九百多字,但并未推行开,现行繁体字工具书大约录有两千个多音字,最多一字八音。若考虑简繁字音交叉的因素,目前使用的简繁体字中大约有三千个多音字。
这么多的多音字,已经超出了学习和使用者的记忆力所能承受的范围,导致教华语的教授、教师,华语电视台、广播电台的播音员也难以全部读准。因而有人提出了“见字读半边,消灭多音字”的主张,也有语言学家提出“宁多一字,不多一音”的建议。从华语文统一的角度看,多音字主要以下几种(1)白话与文言多音字。一个字有两个音,字义相同但用处不同。在文言文演变成白话文(又叫语体文)后,一些字的字音在白话文中有了变化。而在读过去的文言语词时,仍采用原来的文言音。语言学中也将白话音称作语音,将文言音称作读音。如血、熟、谁的白话音分别为xi ě、shóu、shéi,文言音为xüè、shú、shuí。由于语音的趋势是向口语化发展,当代华语的字音已基本上定型稳定,对于白话音与文言音的变通准则是全部或部分完成向白话音过渡的字按白话音,未转换成功的字按文言音,有其他义项的字另行考虑。
(2)北京音与京外音。一个字有两个音,其字义相同,如场的北京音(正读)为cháng,京外音(又读)为chǎng。这两个音中选择综合音频较高的字音,综合音频相近时按北京音。场字取综合音频明显较高的chǎng音。
(3)破音字,即异音异义字。一个字有两个音,这两个音的字义不同,实际上起了两个字的作用。①部分字可进行“义项合理转移”,如“叶”读作yè和xié,其中xié的义项“和洽、相合”与“协”通,可合理转移。另如率shuài、校jiào、哄hōng、奇jī的相关义项可分别合理转移至“帅、较、轰、畸”。②部分字可“罕义并常义”,如“扁”,piān音属罕用义项,并入常用义项biǎn音。另如拓、度、汗的tà、duó、hán音亦并入常义所属音。③不能转移或归并的则保留原多音,如“行、朝、乐、长”等字。
(4)义项可拆分字。某些多音字进行“义项拆分”后能使字义的表述更清楚,如“背”的bēi音拆分后用“揹”字,“挨”的āi音、“脏”的zāng音、“扇”的shān音分别用“捱、髒、搧”字。
(5)简繁交叉多音字。有的字在简化字和繁体字中都不是多音字,但由于简繁体字读音不全相同,在文字统一方案中成了多音字,如“们期识击突企播危筑绩液携垃圾堤帆奄”等字,都属于简繁交叉多音字。这类字按“关联义项字音”和综合音频归并。如“奄”字,简化字读yǎn,繁体字读yān。在简繁体字分化前此字原有上述两音“覆;忽”义读yǎn,如奄忽、奄有四方;“与阉通;气息仅续”义读yān,如奄人、奄奄一息。当代华语大多只用“气息仅续”义,因而归入yān。再如“垃圾”一词,简化字读lājī,繁体字读lèsè。此词按综合音频归入前者。
(6)姓氏多音字。这是一种非华裔人士难以理解的“独特文化景观”,一个字有多个姓氏读音,连播音员们也不知道读哪个音好,如乐、覃、隗、相、种、翟、勾、镡、郗等字。无论按其他义项该字的多个字音是否保留,姓氏字音均只保留综合音频较高的一个,如“翟”作姓氏时统读Zhái,不读Dí。
(7)可按音旁归并字。按音旁归并,可有助于记忆。如“劲”字,可读作jìn和jìng,因“巠”部的字通常均为jing音,故归入此音。再如“厦、蛸、蛤、钿、蔓”等均按音旁归入。
通过以上多种方法,将简繁体字中的大约三千个多音字减至七十个,由简化字的最多一字五音、繁体字的最多一字八音减至最多一字三音。
部分多音字(包括简繁交叉多音字)变通为以下的单音字(以汉语拼音标注调整后的字音)哎āi唉āi挨āi捱ái癌ái嗳ài艾ài嗌yì唵ǎn 凹āo熬áo拗áo扒bā吧ba把bǎ钯bǎ罢bà鲅bà掰bāi呗bài扳bān般bān榜bǎng膀bǎng蚌bàng蒡páng磅bàng堡bǎo趵bào暴bào背bèi奔bēn贲bēn绷bēng吡bǐ裨pí辟bì臂bì扁biǎn缏biàn杓sháo骠piào摽biào别bié瘪biě槟bīn并bìng剥bō播bō伯bó孛bèi泊pó薄bó簸bǒ擘bò卜bǔ不bù嚓cā采cǎi伧cāng操cāo侧cè噌cēng叉chā杈chā馇chā碴chā衩chà拆chāi瘥chài掺chān孱chán禅chán镡tán铲chǎn颤chàn厂chǎng场chǎng倡chàng焯chāo嘲cháo吵chǎo车chē沉chén谌chén称chēng铛dāng乘chéng裎chéng澄chéng秤dhèng匙chí尺chǐ冲chōng帱choú绸choú臭choù褚chǔ揣chuǎi啜chuò嘬zuō创chuàng绰chuò呲cī茈zǐ刺cì枞cōong酢zuò蹴cù撮cuō嗒dā沓tá答dá打dǎ大dà呔tài待dài逮dǎi瘅dān疸dǎn掸dǎn澹tán挡dǎng叨dāo焘tāo蹬dēng镫dèng嘀dí镝dí氐dī坻dǐ底dǐ弟dì踮diǎn佃diàn钿tián喋dié揲dié丁dīng酊dīng侗tóng垌tóng峒tóng恫dòng斗dǒu逗dòu读dú肚dù度dù镦dūn敦dūn蹲dūn囤tún沌dùn顿dùn哆duō垛duǒ堕duò舵duò蛾é呃e恶è儿ér佴èr发fā法fǎ蕃fān繁fán氾fán泛fàn坊fāng彷páng菲fēi蜚fēi分fēn玢fēn葑fēng冯féng佛fó否foǔ夫fū芾fú服fú莩fú桴fú脯pú父fù伽jiā嘎gā盖gài杆gān岗gǎng钢gāng杠gàng膏gāo镐gǎo纥hé胳gē搁gē革gé格gé鬲gé葛gě蛤há膈gé个gè各gè硌gè给gěi艮gèn勾gōu枸gǒu估gū蛄gū毂gū谷gǔ骨gǔ鹄gǔ呱guā观guān桄guāng广guǎng龟guī鲑guī柜guì炅guì掴guó嗨hāi胲hǎi擀gǎn汗hàn夯hāng号hào呵hē合hé和hé核hé荷hé颌hé貉hé阖hé嘿hēi哼hēng横héng哄hǒng红hóng虹hóng蕻hòng侯hóu糊hú虎hǔ浒hǔ唬hǔ华huá哗huā化huà划huá徊huái坏huài郇xún虺huǐ珲hún哕yüē浍kuài桧kuài荤hūn混hùn豁huō缉jī稽jī亟jí几jī纪jì济jì偈jì祭jì夹jiá家jiā贾jiǎ价jià监jiān犍jiān囝jiǎn锏jiǎn见jiàn渐jiàn溅jiàn槛jiàn浆jiāng糨jiàng蕉jiāo角jiǎo侥jiǎo矫jiǎo脚jiǎo湫qiū剿jiǎo徼jiǎo缴jiǎo峤jiào节jié诘jié结jié解jiě芥jiè藉jiè矜jīn仅jǐn廑jǐn尽jìn劲jìng禁jìn经jīng颈jǐng靓jìng趄jǖ锔jǘ桔jǘ咀jǚ沮jǘ句jǜ苣jǜ俱jǜ据jǜ锯jǜ瞿qǘ卷jüàn隽jüàn倔jüè噱xüé蹶jǖě嚼jiáo菌jǜn筠jǖn麇jǖn俊jǜn浚jǜn咔kā咖kā卡kǎ楷kǎi看kàn阚kàn扛káng亢kàng闶kàng坷kē轲kē颏ké壳ké可kě克kè嗑kè啃kěn吭kēng倥kōng悝kuī傀kuǐ溃kuì栝guā拉lā啦la喇lǎ剌là腊là蜡là徕lái癞lài郎láng莨liáng阆lǎng唠láo姥lǎo潦liáo烙lào勒lè肋lè擂lèi嘞lei棱léng厘lí蠡lí哩lī丽lì栎lì跞lì俩liǎ凉liáng踉liàng量liàng撩li áo燎liáo钌liǎo蓼liǎo撂liào瞭liǎo咧liē裂liè淋lín令lìng溜liū遛liù馏liù镏liú六liù咯gē泷lóng笼lóng隆lóng偻lóu喽lóu搂lǒu露lù芦lú碌lù率lǜ绿lǜ掠lüè抡lūn纶lún论lùn捋luō啰luō泺luò络luò落luò漯luò麻má蚂mǎ吗ma嘛ma埋mái脉mài谩màn蔓màn猫māo冒mào么me闷mèn氓máng蒙méng谜mí糜mí靡mǐ眯mī泌mì黾mǐn娩miǎn乜miē缪móu模mó摩mó抹mǒ末mò牟móu姆mǔ哪nǎ那nà娜nà囡nān南nán囊náng馕náng呶náo呢ne嗯en泥ní溺nì碾niǎn鸟niǎo尿niào宁níng拧níng弄nòng努nǔ疟nüè暧nuǎn喏rě沤òu耙bà排pái派pài胖pàng刨páo炮pào跑pǎo泡pào喷pēn澎péng坯pī铍pí劈pī埤pì匹pǐ缥piǎo撇piě拼pīn苹píng屏píng迫pò魄pò掊poú仆pú朴piáo埔pǔ瀑pù曝pù七qī妻qī栖qī期qī蹊xī齐qí圻qí其qí奇qí綮qǐ契qì砌qì荠jì荨xún浅qiǎn慊qiǎn茜qiàn嵌qiàn呛qiāng跄qiāng镪qiāng强qiáng抢qiǎng悄qiāo谯qiáo诮qiào翘qiào鞘qiào茄qié且qiě亲qīn溱qín鲭qīng蝤qiú区qǖ觑qǜ券qüàn炔qüē阙qiè嚷rǎng娆ráo任rèn恁rèn葚shèn若ruò塞sāi糁sǎn丧sāng缫sāo臊sào扫sǎo色sè沙shā嗄shà刹shà莎shā煞shà杉shān钐shān苫shān剡yǎn扇shàn上shàng捎shāo梢shāo蛸xiāo勺sháo苕sháo蛇shé舍shě沈shěn甚shèn椹shèn胜shèng渑mǐn省shěng晟chéng什shén石sh2识shí拾shí食shí莳shí氏shì适shì熟shóu术shù腧shù刷shuā衰shuāi谁shéi说shuō思sī伺cì似sì俟sì忪sōng擞sǒu宿sù遂suì挲suō缩suō铊tā塔tǎ踏tà骀tái台tái苔tái覃qín锬tán汤tāng镗táng倘tǎng傥tǎng趟tǎng掏tāo陶táo淘táo忒tè绨tí提tí体tǐ裼tì挑tiāo铫iáo帖tiě町dīng梃tǐng铤tǐng通tōng同tó ng童tóng僮tóng菟tù褪tuì屯tún驮tuó柁tuó砣tuó拓tuò哇wā瓦w ǎ莞wǎn菀wǎn万wán王wáng圩y唯wéi尾wěi委wěi隗wěi尉wèi纹wún璺wùn挝wō涡wō喔wō乌wū无wú唔wú捂wǔ兀wù郗xī歙xī洗xǐ铣xǐ禧xǐ戏xì系xì呷xiā吓xià厦xià纤xiān 鲜xiān 闲xián现xiàn巷xiàng削xüē嚣xiāo肖xiào校xiào协xié挟xié写xiě芯xīn莘xīn戌xǖ砉huò嘘xǖ旋xüán血xiě熏xǖn窨yìn压yā呀yā疋yǎ哑yǎ雅yǎ咽yān 烟yān湮yān腌yān芫yüán研yán 燕yàn鞅yāng烊yáng幺yāo繇yáo药yào耶yè叶yè曳yè掖yè一yī衣yī欹yī荑yí眙chì遗yí仡gē屹yì洇yīn荫yīn殷yīn吟yín龈yín饮yǐn荥yíng喁yǘ涌yǒng柚yòu有yǒu于yú予yǚ於yǘ俞yǘ与yǚ雨yǚ语yǚ吁yǜ育yǜ员yán圜yán媛yán约yüē晕yǖn熨yǜn拶zǎn载zài崽zǎi咱zán攒zǎn髒zāng奘zàng凿záo择zé笮zé缯zēng吒zhā咋zhǎ喳zhā楂zhā扎zhā轧yà咤zhà栅zhà炸zhà翟zhái粘zhān辗zhǎn占zhān啁zhoū召zhào蜇zhé这zhè征zhēng怔zhēng铮zhēng正zhèng帧zhēn症zhèng吱zhī殖zhí只zhǐ峙zhì粥zhōu轴zhóu属shǔ著zhù爪zhǎo拽zhuài赚zhuàn琢zhuó仔zǐ兹zī粢zī觜zī龇zī訾zī综zōng卒zú作zuò柞zuò3.字形冗余信息的变通。
华文方块字冗余义、音、形的比例过高,是影响华语走向世界的因素之一。由于每一个华文方块字都需要单独记忆,总字数太多,无论多好的记忆法都难以彻底解决问题。有面向海外的华语教材把每一个华文字的字形都编成一个故事,一些学习者开始还有兴趣,但学到上百字就不愿再学了。有学习者说“一个字一个故事,几千几万字就有成千上万个故事,我这一辈子还学不学其他知识?做不做其他事?”由于华文字现阶段不统一,导致了华文在海外无规范、冗余语词失控的现象。海外有华人家长讲“不知道让孩子学简体字还是学繁体字好。华语这么难学,想着国内那些孩子学习时的辛苦样子就害怕;学了在海外又用不上,孩子能简单听说就行了。”华人尚且如此,更不用提一般外国入学华语时所面对的困难了。有学华语而坚持不下去的外国学生对老师说“你们的文化真的很悠久;不过,有时候,你们的文化也太累了。”英国学华语的高中生原来要求掌握九百多个单字,但由於华字结构复杂令许多学生却步,最近改为只要求掌握六百个华字。有英国中学生说,说华语可能比说法语还要容易,但书写华文方块字却如写天书。
文字贵精、贵巧、贵搭配,字必尽其用;“信马由缰”似的把方块字越用越多的做法不会使我们的民族在语言文字方面进步。因而对构词率极低的不涉及姓氏、有效人名的华文冗余字进行适当变通,合理减少华文用字是必要的。为了简繁——对应后与简形字协调,龚码字符集减少了极少数字的笔画,但并未增加任何一个新字。如果华文字的增加就此打住,有关机构“征集新字”的作法也停下来,将可避免产生新的冗余字。同音同义而不同形的异体字和异形词,在本发明中已用综合字词频和字词频方向平均值的方法解决;对于龚码未收录的名称用字,按其他习惯名称,无其他习惯名称者采用“义音形最接近字+特征尾字”的方法解决。以下几类冗余字(或近似于冗余字)用“字义、字音、字形等关联性强、合理,变通后的组词无歧义、不与其他同类语词重复”的“合理对应字”方法调整,除省和中央直辖市的名称及代名称保留原用外,所有地名和山河湖海岛渠泉名等一般不设“专字、专音”。以下变通字用括号注于相关字后。
(1)词义变通法。根据词义,将语词中的冗余字加以变通,如睥睨(轻视);旖旎(柔丽);须臾(片刻);萦(挂)怀;皲(龟)裂;揠(拔)苗助长;擢(拔)发难数;斩将搴(拔)旗;暴殄(绝)天物;踟蹰(踌躇)不前;趑趄(犹豫)不前;繁文缛(琐)节;奋翮(羽)高飞;刚愎(倔)自用;踽踽(孤孤)独行;光阴荏苒(似箭);髭(胡)须皆白;户枢不蠹(蛀);怙(持)恶不悛(悔);赍(怀)志而殁(逝);嘁嘁(叽叽)喳喳;裒(减)多益寡;殚(竭)思极虑;戎马倥偬(迫促);厉兵秣(喂)马;穷兵黩(嗜)武;满目疮痍(伤);悒悒(闷闷)不乐;潸(默)然泪下;前倨(傲)后恭;汗流浃(透)背;提纲挈(示)领;龇(突)牙咧嘴;言简意赅(全);为虎作伥(恶);桀骜(凶傲)不驯;饮鸩(毒)止渴;床笫(席)之欢;锱铢(分毫)必较;荦荦(显显)大端;各摅(抒)己见;跬(半)步不离;得鱼忘筌(篓);蓬门荜(竹)户;趋之若鹜(鸭);鹬(鸟)蚌相争;舳舻(舟连)千里;嗤(讥)之以鼻;越俎(砧)代庖(厨);病入膏肓(心肺);罄(尽)竹难书;扪(摸)心自问;泾渭(经纬)分明;以飨(款)读者;光风霁(亮)月;风驰电掣(闪);栉(梳)风沐雨;引咎(责)辞职。语词中的冗余字变通后,既减少了用字,又使所搭配语词更易理解,字音更易读。
(2)近音、近形变通法。根据相近的字音或字形,将语词中的冗余字加以变通,如基础(楚);戥(等)子;推诿(委);皈(归)依;葱茏(隆);傧(宾)相;白芨(及);菝葜(拔卡);牛蒡(旁);荜(毕)拨;菟(兔)丝子;芄(丸)兰草;苜(目)宿草;珂(科)罗版;铤(挺)而走险;贻(遗)笑大方;层峦叠嶂(障);泱泱(央央)大国;根深柢(蒂)固;驷(四)马难追;漭漭(茫茫)大海;嘻(嬉)皮笑脸。
(3)特征尾字识别变通法。华文里有一些含有冗余信息的的双字词和多字词,利用保留特征尾字便于识别的方法,将非尾字加以变通,如蝴(胡)蝶;蜻(青)蜓;蚯(丘)蚓;蚱(乍)蜢;鹌(安)鹑;尴(干)尬;舆(吁)论;唿(呼)哨;浏(流)览;荭(红)草;蕨(觉)草;猕(弥)猴。
(4)并列关系语词变通法华文里有大量并列关系语词,由于可改变顺序而产生冗余方式,如单枪匹马,匹马单枪;粉身碎骨,碎骨粉身,碎身粉骨,粉骨碎身。按综合字词频和字词频方向平均值,《当代华语词典》只录入单枪匹马、粉身碎骨。
(5)有机化学冗余字变通法除酶、醇、酊、醣、苯、胺等较常用字外,其他有机化学专用字全部加以变通,如将“吖嗪”用作“丫秦”。
(6)地名冗余字变通法。如下表
“山河湖海岛渠泉”名称冗余字的变通如渤(勃)海;鄱(波)阳湖;趵(跳)突泉;岘(现)山;崆峒(空同)山;邛崃(琼来山);崦嵫(奄兹)山;洹(安阳)河;涠(围)洲岛;沩(为)水;潍(维)河;灞(霸)河。还有其他相关用字如“岣崃岍崾岬崤岈嵛崮岜峁嶷垌垴硖澉淝洧湟濂淄洙沣洮澶澧淠渌濉滹浯浍涑泺汜湓浈泷滏滠阌勐筻厍邙蓥邑邕妫婺剡”等也都作相应调整。以上如湖北省浠水县,如变通作“希水”县,会产生“希望有水”、“盼水”的歧义,按“变通后的组词无歧义”的原则,用作“溪水”县,可给人“流水潺潺”的印象。
地名、山河湖海岛渠泉名变通方案报政府有关主管机构批准后录入工具书。获批后的实施过渡阶段可新、旧名并用。当有新的文字需要出现,原有字的义项不能表述时,以现有的合理对应字增加义项,或采用“义音形最适合字+特征尾字”的方法解决,特征尾字可为“花草树木鸟虫鱼石山河湖岛渠泉”等,以避免产生新的冗余字。如一种新的有机化合物,用现有的合理对应字增加新义项。再如一种鱼过去无华文表述,可用“义音形最适合字+鱼”组成词命名。冗余字减少后,我们可对外宣称现代华语只有四千字(姓氏和人名因素之外的“华文核心字”其实只有3,000个),以减轻那些有志学华语的外国人的恐惧心理。
事实上并不局限于字形,每一则冗余信息的出现,都会消耗接触者的时间(专业研究除外),如现行的通用工具书中,在字头后括号内列出的大批量的“无效”异体字。一个意思,用几十种不同的语句方式表达,学习者都得花时间去记。一则“脱颖而出”的词条,如果引经据典二百字也解释不清楚,显然不合现代节奏;解释为“才华卓越尽显”,读者一目了然。标注某字在过去哪几个朝代“通”其他某字或读其他某音,并不是今天的大多数华语学习者所需要了解的信息。为了避免大多数现代读者接触冗余信息,《当代华语词典》不收录现在不用或罕用的字词条和义项,不注古音古义,除特需外对词条原则上不标注出处。同时,提倡方块字的学习使用者在日常生活中自觉少用或不用冗余信息,努力为下一代留下简洁、科学的文字界面。
龚码简繁形对照文稿 听 雪 ·龚学胜·(原载一九九二年二月《人民日报》海外版)簌簌落落/霏霏扬扬/朵朵漫空蓬勃/拥抱屈原 李清照/拥抱岳飞 郑成功/拥抱 我五千年的故国//挥不去 挣不脱/如飞似掠的玉琼/雍容驰骋生万象/旋浩然 坤//何不善解雪意?/立长城为笔/蘸海峡作彩/谱一曲吟天诵地的和声/龙腾起浪/虎跃生风/倾恢宏的关爱/维 两岸/待神定气爽/报知响晴 聽 雪 ·龔學勝·(原載一九九二年二月《人民日報》海外版)簌簌落落/霏霏揚揚/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然乾坤//何不善解雪意?/立長城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風/傾恢宏的 愛/維繫兩岸/待神定氣爽/報知響晴◇寄友人◇·龚学胜·(原载一九九三年五月《明报》加东版)一串叹息,随着一次日昇日落,不捨地失落在太平洋两岸。
匆匆别离,正如匆匆相逢,多几分憧憬,少几许不安。来不及挥手,一段珍藏的岁月,便渐趋辽远。
又怎能忘怀?那些个鸡鸣之晨。剪烛夜半,历史与现实的辉煌与沉重,不歇地撞击我们的双肩。平湖荡舟,自然静谧,似无风险;可我们是当代,我们是水手,天性向往大海,追逐风帆。生命的价值,在令不断注入新的挑战。
是的,我们这一代太累,如虔诚的朝山客,几欲恨恨而却步,仍需奋力登攀。下一宗赌注,未必能赢得一番彩头;不必祈求晴朗的机遇,曾经潇洒过就无须畏惧遗憾。
今夜,月凉风轻,我披衣梭巡,觅採灵感。朋友,寄给你们点儿什么呢 China Town生意滔滔的繁华,CN Tower巨无霸的伟岸,Midland丹枫的精微,Niagara Falls的壮观……不不,这些都还不够,寄上心与心的呼应,梦与梦的渴盼。
莫要说,人移情易,世态冷淡;莫要说,山水遥隔,阻断思念。祖国每一缕纤细的脉动,依然频频拨动心弦……◇寄友人◇·龔學勝·(原載一九九三年五月《明報》加東版)一串嘆息,隨着一次日昇日落,不捨地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便渐趨遼遠。
又怎能忘懷?那些個雞鳴之晨,剪燭夜半,歷史與現實的輝煌與沉重,不歇地撞擊我們的雙肩。平湖蕩舟,自然靜謐,似無風險;可我們是當代,我們是水手,天性向往大海,追逐風帆。生命的價值,在於不斷注入新的挑戰。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能赢得一番彩頭;不必祈求晴朗的機遇,曾經瀟灑過就無須畏懼遺憾。
今夜,月凉風輕,我披衣梭巡,覓採靈感。朋友,寄给你們黠兒什麼呢?China Town生意滔滔的繁崋,CN Tower巨無霸的偉岸,Midland丹楓的精微,Niagara Falls的壯觀……不不,這些都還不夠,寄上心舆心的呼應,夢舆夢的渴盼。
莫要說,人移情易,世態冷淡;莫要說,山水遙隔,阻斷思念。祖國每—縷纖細的脈動,依然頻頻撥動心弦……龚码的每种字体都包括——对应的简形和繁形。为了区别于原有的繁体字、简化字的说法,龚码中称之为简形字、繁形字;龚码的各种字体称为龚码简楷、龚码繁楷,或龚码简报宋、龚码繁报宋。除华文字的相关学术文章等特殊用途外,龚码的简形字和繁形字在各类出版品中不可以混用。如一份使用龚码的报纸,可全部选用简形字体或全部选用繁形字体,即要么出简形版,要么出繁形版,也可同时出版发行简形版和繁形版。但在简形版中,应全部使用龚码简形字体,反之亦然。同理,为避免简繁混用,按龚码的标准,龚码的每—种字体要么是简形,要么是繁形,简形字与繁形字不会出现在同一种字体中。另外,为了避免随意选用扩充集的字符,基本集与扩充集的字符在输入提示行显示不同的颜色;缺省设置为只有基本集字符;当需用扩充巢字符时,基本集在前,扩充集在后。
龚码是一个在内码、用字范围、字义、字形、字音、语词、语法、输入法和译名等方面的全面完整的华语文系列统一方案。龚码得以推广后,原简化字使用区仍可使用简形字,原繁体字使用区仍可使用繁形字,也可限据需要自由选择。经过较短的“识繁写简”(认识繁形,手写成简形)的过程,不管是原有简化字使用区、繁体字使用区,还是母语为非华文的华文字学习和使用者,对于龚码的简形和繁形字将普遍都能读写和使用,进而不转字形也可“简繁通读”,并能轻易达至最严谨的华文文字规范。学习使用者以“识多写少”(认识其他内码字,手写龚码简形字)的方式保持龚码基本字符集与其他华文内码之间的衔接。对于各类平面、多媒体、电子出版品,所有的华文来稿都可统一处理,不再有需要转码、某些字词无法转换、转错及华文出现乱码的问题。对于国际互联网,读者在刚开始使用龚码时只需点取“简显”或“繁显”,即可用—种自己熟悉的字形显示阅读所有以龚码形成的网页,比将国标码的宋体换为国标码的楷体还要简单。由于龚码的简形与繁形字及图符全部——对应,各种图文混排的平面和电子出版品,只要轻轻点一次指令,多种华文字体便能够同步转换,如龚码简报宋转龚码繁报宋,龚码简隶书转龚码繁隶书,龚码简综艺转龚码繁综艺。对于涉及到华文的各类软件,只需出版一种华文版本。计算机、电子字典等的手写输入可写成简形,显示繁形。输入软件的提示行只需要显示简形或繁形,不再需要将所有的简化字和繁体字一起显示出来。
在统一方案的制订过程中,本发明既兼顾到华文简化字和繁体字的现行规范和习惯,也兼顾到其文字的发展方向。既考虑至研究华文文字的专家学者的学术见解,又考虑到一般文字使用者的感受,使其“乐于使用、方便使用”。既考虑到母语为华文的学习和使用者,又考虑到母语为非华文的学习和使用者。
无论从用字范围,还是字义、字形、字音的角度界定,龚码既不是大五码的精简,也不是国标码的延伸。学习和使用龚码并达至严谨华文文字规范所花费的时间,要远远少于其他的华文文字单一内码。另一方面,虽然与国标码和大五码都有区别,但影响到简化字和繁体字使用者日常习惯的字分别都不算多。以新学习、适应少量字的努力,换取—种永久统一、更加规范和科学、简繁体字优势互补的华文文字体系,应当是—件具有历史价值的事。
龚码是一个承接过去、立足现在、面向未来的华文文字统一方案,以现代化的科学量化的筛选、整合、变通、规范及创新处理方法避开各种争议。按照每—个字都符合“选之有理有据”和“高效率地字尽其用”的原则,力争能经得起今后一定时间段的检验。龚码基本字符集(用字范围、字形)与《当代华语词典》的释义、拼注音(字词语义、字音)配合,构成一个统一、完整、科学、规范、稳定的华文文字体系,让华文字使用者“想错也不容易”,轻易能达至严谨的华文文字规范;让所有的用字者都没有“累”的感受“呀,原来用华文字可以这么轻松!”进而觉得使用华文字是一种享受。若本发明与华语拼音龚码统一方案等系列方案能得以推行,从理论上说,以方块字方式学习华语的平均时间将只需要现在的四分之一。如果海内外的华人把这些节省的时间拿来学习其他知识,或用于工作或研究,将能创造无法衡量的经济价值,大中华的综合国力、国际地位和国际发言权也将得到大幅提升。
既然现行简化字和繁体字存有较大的差异,不管华文文字统一方案规范与科学的程度如何,简繁两种文字使用区的文字使用者和文字专家学者在统一方案的推行中,就必定需要心平气和的理解与让步(避免长期无谓争议);同时,中华语言文字系列统一方案的推行中有可能会遇到的各种学术层面之外的问题,也有待相关政治家们以远见、风度和智慧去化解。大中华的复兴与腾飞所亟需的文字基础的打造,需要包括海外华人在内的当代所有中国人的共同协作与努力。
附1“华文文字龚码统一方案编码字符集基本集”(示例)说明华文字龚码基本字符集(Chinese Gugq Code-Basic Set)编码范围为A001-J994,分为100个区(Section),每个区94个位(Position),总计9,400个码位。收录华文字及一般符号、序号、数字、注音字母、汉语拼音、国际音标、拉丁字母、日文假名、希腊字母、俄文字母,共5,274个图形字符。其中华文字以外的图形字符730个,华文字4,544个(姓氏和人名因素之外的“华文核心字”只有3,000个),并留有用户自定义区。
龚码基本字符集的每一个文字内码都有一个简形字和一个繁形字(部分字同形),这两个字在同一义项下有完全相同的字义和字音(包括声调)。基本字符集按简左繁右或简上繁下对照排列,若需要对照列出单字,横排时简左繁右,中间以单竖线隔开,以“龚|龔、码|碼”的排列方式(语词也按此方式)出现;直排时简上繁下,中间以单横线隔开。
如果编码按部首和笔画排列,龚码的简形字和繁形字会形成两种不同的排列顺序,加之简繁体字使用区所使用的拼音方案也不同,因而龚码基本集及以下所提的扩充集的文字部分均按龚码华语拼音方案(另案提出)的字音和声调排列,每一声调内按综合字频排列。多音多调字排入特定音频较高的音节或声调内,如“朝、行、重”三字分别排入特定音频较高的cháo、xíng、zhòng音节,不排入特定音频较低的zhāo、háng、chóng音节。龚码基本字符集可满足除古籍书翻印、方言字出版等特殊用途以外的各种华文用字需要。
龚码扩充字符集(Chinese Gugq Code-Supplementary Set)用于古籍书翻印等特殊用途。扩充集亦为每一个文字内码都有一个简形字和一个繁形字(部分字同形),这两个字在同一义项下有完全相同的字义和字音(包括声调)。考虑到简化字使用区的用字习惯,龚码扩充集收录的简形字,必要时仍按简化字规则类推简化。龚码扩充集收录华文字使用者读得到用不到,并有必要收录(如有特定字词义或在特定时期有特定字词义)的字,包括部分古书用字。如唐朝女皇帝武则天为自己的名字所造之字“曌”,我们不可能称她为“武照”,当代人通常也不可能用此字命名(交流不方便),因而将“曌”收进龚码扩充集中。此类有些字是中国历史文化的一部分。再如一个“宝”字就有13种写法与“黑”重义的字就有43个;“鬥”字过去不同时期用过的曾有“ 閗 闘”等字,但字义并无区别。 虽在文字学上为“鬥”的正字,但没有必要在翻印古书时一定要将“鬥”排印成 字(考古或文字类学术论文等除外)。现在处于知识、信息快速更新的年代,华文字使用者可以利用学这些字的时间去学其他知识。因而龚码扩充集没有收录此类字。龚码扩充字符集编码范围为K001-P994,分为60个区(Section),每个区94个位(Position),总计5,640个码位。扩充字符集收录华文字1,576个。
作为变通方法,也可在龚码外的其他同种内码内或不同内码间建立简繁一一对应关系和相同用字范围,如在GB18030-2000、Unicode或Big5+之内,或在国标码与大五码之间。对于龚码特有的几十个字,向相关内码的备用码位加字。从而实现没有龚码,但与龚码相同或相近的简繁之间的用字范围和简繁一一对应的统一。
本发明可有效应用于涉及到华文的各种计算机软件(如操作系统、浏览器、文字处理、排版、打字及语音或手写输入、光学OCR识别、翻译、造字、校对等软件),国际互联网,平面、多媒体、电子出版品,电子字典、手机等,可支持所有平台,可用于主机Server端或客户Client端,可用于文件、电子邮件、页面。龚码可促使同一华文计算机软件的简化字和繁体字两个版本合二为一。
二、华文文字内码完整规范化快速转换在龚码推出后,还有可能在某些情况下使用异种内码之间的转换。比如原有以其他华文内码形成的计算机文件,没必要重新输入为龚码,只需要转换内码即可。致于同种内码转换,因其作用为统稿、编辑、校对、修正,使用范围更广。
1.异种内码转换词典示例以下先介绍“基本转换词典”的制订原理和使用。先看“基本转换词典”的“国标码转大五码”部分示例(随机抽取条目,并未按一定规则排序)◎既→既◎学→學◎证→證(不转“証”)◎闲→閒(不转“閑”)◎机→機(不转“机”)◎秋→秋秋千→鞦 ◎千→千◎英→英◎寸→寸英寸→吋◎后→后皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孙後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎台→台(不转“臺”)檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風1.高平建築物,器物座講台,窗台,燈台,登台,台詞2.量词一台戲,一台機器3.旧时敬词台端,兄台4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風颱風6.台湾省台中,台北市,在台協會7.特定地名天台山(浙江省),天台縣(浙江省),台州(浙江省)8.姓台先生◎志→志標誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.记在心里,不忘永誌不忘,誌哀3.记载的文字雜誌,縣誌4.记号標誌5.称轻重,量长短多少用秤志志以上的实际“基本转换词典”,包括了来源码中全部的字和图符(如国标码为6,763字,682个图符)。每个单字条目的第一行(紧接◎后),表示“来源码字→目的码字”,或“来源码字→目的码词”。有些单字条目下没有词组(只有第一行),表示只需要进行“一对一”的转换。单字条目下如有词组(从第二行开始),表示在目的码的环境中“词→词”,或“词→字”。对于不会引起误解的词,略去了转换前的部分,只列出了转换后的部分,如“皇后、檯布、標誌”,其完整形式应为“皇後→皇后、台布→檯布、標志→標誌”。对于需要特别指明的词,列出了转换的完整形式,如“秋千→鞦 英寸→吋”。
对于单一的“一对一”的可转字,直接排入即可,如大→大、学→學。
对于同一字义的“一对多”可转字,全部转为根据综合字频、词频和字频、词频方向平均值挑选的一个字,并明确指出“不转某字”,如证→證(不转“証”)、闲→閒(不转“閑”)。
对于不同字义的“一对多”可转字,全部先转为根据综合字频、词频和字频、词频方向平均值挑选的一个“主被选字”,并明确指出“不转某字”,如台→台(不转“臺”)。然后在目的码中,根据“基本转换词典”中提供的“词”,如本例中的“檯布,櫃檯……颱風”等,根据词的搭配转为不同字义的“一对多”其他“次被选字”。如本例,实际上是在目的码中将“櫃台”转为“櫃檯”,将“台風”转为“颱風”。以此将来源码中的“一”个字,正确转换为目的码中不同字义的“多”个字——“主被选字”和“次被选字”。
转换词典里列入的字和词需尽量不重复,不矛盾,并且只考虑字形不管其发音。如“鞦 ”在“秋”字条下出现,就不在“千”字条下出现。为了方便使用者了解文字规范,在写作、打字、编辑、校对、对转换词典自行增加字词等过程中,准确分辨、运用字义,在“基本转换词典”的多义字条下有解释和示例。同一字义的“一对多”字条按“被选字”解释。转换词典设计的完美与否,会直接影响到转换的准确度和转换效率,因而结构要合理,便于计算机高效搜寻转换。
2、同种内码转换词典示例由于在同种内码转换中,单一的“一对一”的可转字已经转换,因而在第一步转换时没必要将字全部转换。以下依照“基本转换词典”的“国标转大五码”部分示例字条,列出“基本转换词典”的“大五码内转换”部分示例,以便对照。
◎証→證◎閑→閒◎机→機秋千→鞦 英寸→吋◎后→後皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孙後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺→台◎檯→台◎颱→台檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風1.高平建筑物,器物座講台,窗台,燈台,登台,台詞2.量词一台戲,一台機器3.旧时敬词台端,兄台4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴风颱風6.台湾省台中,台北市,在台協會7.特定地名天台山(浙江省),天台縣(浙江省),台州(浙江省)
8.姓台先生◎誌→志標誌,碑誌,地理誌,方誌,府誌,日誌,省誌,县誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.记在心里,不忘永誌不忘,誌哀3.记载的文字雜誌,縣誌4.记号標誌5.称轻重,量长短多少用秤志志每个单字条目的第一行(紧接◎后),表示“目的码转前字→目的码转后字”。
对于单一的“一对一”的可转字,在目的码中已经无须再转。
对于同一字义的“一对多”可转字,将“落选字”转为“被选字”,如証→證、閑→閒。
对于不同字义的“一对多”可转字,先全部转为“主被选字”,再根据词的搭配转为不同字义的“一对多”其他“次被选字”。
3、多码多向转换词典示例在国际互联网(主机Sever端或客户Client端的动态、静态转换)和各类涉及到华文的软件中,其页面、在线、文件、电子邮件等多向内码转换中,为了使用方便,可把多种内码之间、某一内码之内的转换词典合并为一种。如大五码繁体字和国标码简化字之间的简转繁、繁转繁、繁转简、简转简的四种转换词典,可合并为一种。以下列出“基本转换词典”的“大五、国标双向”部分示例(字义解释从略)。
◎j真f真◎j学f學◎j证f證◎f証→f證◎j证←f証◎j闲f閒◎f閑→f閒◎j闲←f閑◎j机f機◎f机→f機◎j秋f秋f秋千→f鞦 ◎j秋←f鞦◎j千f千◎j千←f ◎j英f英◎j寸f寸f英寸→f吋◎j英寸←f吋◎j后f後→f皇后,太后,王后,后妃,天后,后王,后土◎f后←f后◎j台f台◎f臺→f台◎j台←f檯◎j台←f颱→f檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子
→f颱風◎j针f針f针鱼→f ◎j鱼f魚j鱼←j鱼鱼◎j针鱼←f ◎j干f乾◎f干f乾◎f幹→f乾→f干涉,何干,無干,相干,干擾,干預,干戈,若干,干支,江干→f幹活,公幹,幹部,幹校,幹才,幹練,強幹,才幹,幹嗎,幹什麽◎j乾→f乾◎j干←f干◎j干←f幹◎j干←j乾j乾坤←,乾图,乾网,乾道,乾象,乾宅,乾造,乾曜,乾隆,乾县基本转换词典的“大五、国标双向”部分,因具备简转繁、简转简、繁转简、繁转繁等功能,须包括互转之前两种内码的全部字和符号。如简繁双向转换,基本转换词典中既包括了国标码的6,763字和682个符号,也包括了大五码的13,053字和408个符号。为了不致引起混淆,以“j”代表简化字词,以“f”代表繁体字词。
每个单字条目的第一行(紧接◎后),表示“来源字”转为“目的字”或“目的词”。有些单字条目下没有词组(只有第一行),表示不需要进行该字条下的“来源词”转换。单字条目下如有词组(从第二行开始),表示在同一内码环境中“来源词”转“目的词”,或“来源词”转“目的字”。对于不会引起误解的词,略去了转换前的部分,只列出了转换后的部分,并且只在第一个词的旁边加了方向箭号,如“→f皇后、→f檯布、→f干涉、j乾坤←”,其完整形式应为“f皇後→f皇后、f台布→f檯布、f幹涉→f干涉、j乾坤←j干坤”。对于需要特别指明的词,列出了转换的完整形式,如“f秋千→f鞦 j鱼←j鱼鱼”。
词典中涉及到“左向箭号←”、“右向箭号→”和“双向箭号”。“左向箭号←”表示单向转为左侧的简化字或词,如“j鱼←j鱼鱼”,表示在繁转简或简转简时的第二步由简化字的“鱼鱼”转为简化字的“鱼”。“右向箭号→”表示单向转为右侧的繁体字或词,如“f机→f機”,表示在繁转繁时的第一步,由繁体字的“机”转为繁体字的“機”。“双向箭号”表示根据转换需要,既可转为左侧的简化字或词,也可转为右侧的繁体字或词,如“◎j机f機”,表示在繁转简时的第一步由繁体字的“機”转为简化字的“机”;在简转繁时的第一步由简化字的“机”转为繁体字的“機”。
下面结合附图
对本发明的三个实施例进行详细描述。附图中图2为本发明异种内码转换法之流程图;图3为本发明同种内码转换法之流程图;图4为本发明多码多向转换法之流程图。
下面描述本发明的华文文字内码完整规范转换的三个实施例。
一、异种内码转换法二、同种内码转换法三、多码多向转换法实施例一异种内码转换法首先,将来源码的每一个“字”和图符,按照“基本转换词典”的指引,全部转换为目的码的字、词和图符。可转字的(包括“合理对应字”)转为目的码的“字”,不能转字的转为目的码的“词”。
接着,在目的码的环境中,依照“基本转换词典”进行“词转词”,进行自动搜索替换。以此将不同字义的“一对多”可转字,由来源码的一个字,正确转换为目的码中的多个字(主被选字和次被选字)。若来源码的“词”对应目的码的“字”,在这一步中“词转字”。
第三步,选择合适的“用词、用语转换词典”和“译名转换词典”,将用词、用语和译名转换为文字使用者所需要的形式。之所以“选用合适的”,是因为不同的用户,对用词、用语和译名有不同的要求。如一份华文繁体字报纸,不一定采用台湾的用词、用语和译名;反之亦然。
最后,按照“复杂修正转换词典”的指引,将前几步没解决的极少数问题进行最后修正。
为了说明“复杂修正转换”,请看以下简化字例句1.三位天后都来了。
2.三天后她们都来了。
转为繁体字应为1.三位天后都來了。
2.三天後她們都來了。
“天后”一词,在海外指特受公众欢迎的女歌星或女明星,此处借用“帝王之妻”的解释,以示高贵。
参照“基本转换词典”示例,在第一步已将简化字的“后”全部转成了繁体字的“後”——因为在现时的繁体字综合字频中,“後”为0.2869%,“后”为0.0019%,前者远高于后者。第二步,在繁体字的环境中,将“皇後→皇后、天後→天后、後王→后王……”。第三步,选择运用“用词、用语转换词典”和“译名转换词典”。
现在“三位天后都來了”符合转换要求,第二个句子“三天後她們都來了”则因第二步转词时“天後→天后”使之成了“三天后她們都來了”,不合要求。现在用“#”代表数字,以“#天后→#天後”进行“复杂修正转换”,即可得到正确结果“三天後她們都來了”。这就是第四步。
再如简化字例句“他今天老板着脸”,第二步转词时“老板→老闆”使之成了“他今天老闆著臉”。用“老闆著臉→老板著臉”进行“复杂修正转换”即可。
把“#天后→#天後”、“老闆著臉→老板著臉”之类的词、短语或句子按“基本转换词典”的示例汇总到一起,即构成“复杂修正转换词典”。搜寻方式可采用“隔特定字词、加限定字词”等各种高阶方式进行搜寻转换,以使转换结果尽可能趋于完美。
这四步可简单归纳为第一步全转“来源字转目的字词”;第二步选转“来源词转目的字词”;第三步“转用词、用语、译名”、第四步“复杂修正”。
实施例二同种内码转换法参照实施例1,所不同的是从第一步转换开始就是在同种内码中进行,根据“基本转换词典”将原有的“有必要转换的字”从一个字转换为另一个字或一个词。后面的转换步骤都与“异种内码转换法”相同。同种内码转换法的用处是将不规范的来源字词转为规范的目的字词。如报刊和网络等平面、电子出版品,其稿件通常来自各个方面,E-mail等方式接收的稿件会涉及到不同内码。为了统一稿件的用字、用词、用语和译名,及进行编辑校对,不同内码间的转换和同种内码中的转换有时需要交叉运用。
这四步可简单归纳为第一步选转“来源字转目的字词”;第二步选转;“来源词转目的字词”;第三步“转用词、用语、译名”;第四步“复杂修正”。
实施例三多码多向转换法多码多向(多内码多方向)转换包括简转繁、繁转繁、繁转简、简转简等多种转换。在实际应用中,“转换指令”可以明确标示为以上四种或更多方式。下面以大五和国标的双向转换为例。为了方便可按目的码标示为两种,如标示为“规范繁体”(包括简转繁和繁转繁)和“规范简体”(包括繁转简和简转简),或标示为“简转繁”(实际包括繁转繁)和“繁转简”(实际包括简转简)。
英文字符等一般是以一个字节来表示的,最常用的编码方法是ASCII(American Standard Code forInformation Interchange,美国信息交换标准码)。由于ASCII一个字节最多只能区分256个字符(实际上只用了一个字节中的低7位,范围是32-126之间的95个),而华文字成千上万,很容易与ASCII重迭,无法分出哪是华文哪是印欧语系文字,于是规定将华文编码的高低字节的最高位均置1(Set the MSB,相当于加上128--16进制的80H),来使之区分于ASCII码。这样,在计算机中使用的华文字编码(国标码、大五码等)实际上是真正的华文字码的高位置1后的变形码。因而现在都以双字节来表示华文字,为了能够与英文字符等分开,每个字节的最高位一定为1,这样双字节最多可以表示64K格字符。
在简繁双向转换中,因简化字与繁体字的内码具有不同的编码位置(码位),首先据此自动识别出华文字所处的内码状态。然后根据“转换指令”要求确认转换方向,选择双向转换词典中的对应部分1.内码为简化字,点取“规范繁体”指令,选取双向基本转换词典中的“简转繁”部分,先转“来源字”,后转“来源词”。接着转用词、用语、译名,最后复杂修正,转换完成。
2.内码为简化字,点取“规范简体”指令,选取双向基本转换词典中的“简转简”部分转换。后续具体转换步骤与1同。
3.内码为繁体字,点取“规范繁体”指令,选取双向基本转换词典中的“繁转繁”部分转换。后续具体转换步骤与1同。
4.内码为繁体字,点取“规范简体”指令,选取双向基本转换词典中的“繁转简”部分转换。后续具体转换步骤与1同。
例如,简化字的“干”对应繁体字的“乾、幹、干”,而繁体字的“乾”又对应简化字的“乾、干”。对照“简繁双向转换词典示例”“简转繁”时,第一步“j干→f乾”,第二步“f乾涉→f干涉,f何乾→f何干……f乾嗎→f幹嗎,f乾什麼→f幹什麼”。
“簡轉簡”時,第一步“j干←j乾”,第二步“j乾坤←j干坤,j乾图←j干图……”。
“繁轉繁”時,第一步“f干→f乾,f幹→f乾”,第二步“f乾涉→f干涉,f何乾→f何干……f乾嗎→f幹嗎,f乾什麼→f幹什麼”。
“繁轉簡”時,第一步“j干←f乾,j干←f幹,j干←f干”,第二步“j乾坤←j干坤,j乾图←j干图……”Unicode码(等同国际编码标准ISO 10646),包括了中日韩(CJK)的全部华文字符。以Unicode等综合内码为中介,可做到华文简化字和繁体字共存,并且能对照显示于计算机屏幕上。
多码多向转换不仅可用于文档转换,而且可用于国际互联网(主机Sever端或客户Client端)的动态、静态在线和页面转换,可支持各种浏览器和平台,可多内码同屏显示。
本发明中所提及的“基本转换词典”、“用词、用语转换词典”、“译名转换词典”、“复杂修正转换词典”等,不仅涉及到语法意义上的“字”和“词”,有时也涉及到“短语”和“句子”。为了方便和名称统一,都叫作“词典”。基本转换词典、用词、用语转换词典、译名转换词典、复杂修正转换词典都是本发明重要的一部分。由于华文文字的丰富性和复杂性(如华文姓名和外文的华文译名在使用中的不确定性),及繁体字与简化字使用习惯的差异(如涉及到本发明的多种转换词典之外的字词)等原因,为了使转换尽量作到完美,本发明在各种转换词典的后面都为用户留有开放式的环境,方便用户自行将转换词典中未包括的词组或短语加入。用户还可以根据需要,将各方面来稿中经常会遇上的特定差错,按转换步骤加入以上的各种转换词典中,使转换过程同时具有纠正差错和编辑校对的功能。
以上概略地对本发明的华文文字龚码统一方案及内码完整规范转换作了描述。本技术领域内的熟练人员可以不经创造性劳动就能对本发明作出各种各样的修改和改进。发明人认为这种修改和改进都属于后面的权利要求书所定义的范围之内。
本发明可有效应用于涉及到华文的各种计算机软件(如操作系统、浏览器、文字处理、排版、打字及语音或手写输入、光学OCR识别、翻译、造字、校对等软件),国际互联网,平面、多媒体、电子出版品,电子字典、手机等,可支持所有平台,可用于主机Server端或客户Client端,可用于文件、电子邮件、页面。龚码可促使同一华文计算机软件的简化字和繁体字两个版本合二为一。
华文内码完整规范转换可有效应用于龚码、国标码、大五码及其他华文内码之间的简转繁、简转简、繁转简、繁转繁等异种内码、同种内码、多码多向等各类快速转换。亦可应用于华文字的古文与现代文,华文字与中国方言文字、少数民族语言文字,及与日文、韩文等其他亚洲语言文字之间的转换。
权利要求
1.一种华文文字统一方案,其特征在于提供一种科学的可行性高、易于推广的方案,在充分尊重现有各种华文单一内码使用规范和习惯的基础上,以现代化的科学量化的筛选、整合、变通、规范及创新方法避开各种复杂争议,实现华文文字在用字范围、字义、字音、语词、语法等方面的全面完整统一;以现阶段在中国大陆、中国台湾和中国香港特区使用最广泛的国标码、大五码和香港增补字符集为统一方案基本字符集选字的最大范围,根据综合字词频确认的不涉及“一对多”的常用字、次常用字全部收录;罕用字根据综合字词频、字词频方向平均值、构词率、字义、姓氏字频和人名字频等因素收录,无效字不收录;化学元素周期表用字全部收录;根据“同等情况下姓氏优先、不加字优先、高频字优先”原则处理姓氏专用字;作为变通方法,也可在龚码外的其他同种内码内或不同内码间建立简繁一一对应关系和相同用字范围;每一华文字内码都有一个简形字和一个繁形字(部分字同形),这两个字在同一义项下有完全相同的字义和字音(包括声调);简形字相对于国标码简化字,繁形字相对于大五码繁体字,都尽量作最少的字形变动,字义与字音也是在“必要”(如原简繁单一内码之间不一致)时才作“合理”的调整;每种字体都包括一一对应的简形和繁形;对于简繁体字使用区使用频度较高而差异较大的标点及其他符号,采用科学的统一名称和可转换形式,并同时保留不可转换形式;统一方案中各种出版品中的多种华文字体(包括图符)可以一次同步转换;对于涉及到华文的各类软件,只需要出版一种华文版本。
2.一种华文文字统一方案,其特征在于一种单一内码的一个字对应另一单一内码的同一字义(包括同一义项下)的多个字时,如果另一单一内码中的其中一个字的现时综合字频明显高于其他字,选择这个综合字频较高的字;如果这几个字的现时综合字频较为接近,选择字频方向平均值较高的一个字;统一方案繁形字选择“暗鏟吃考裡乃炮確汙閒煙豔耀喑證總”等,未收录“闇 喫攷裏迺砲确 閑菸艷燿瘖証縂”等字;尽量利用现有字形作简繁对应;对于极少数字频、词频较高的人名、生意行号用字等,虽与其他字同一字义,也酌情收录;一种单一内码的一个字对应另一单一内码的不同字义(或不同义项下)的多个字时,如果另一单一内码中的除了综合字频和字频方向平均值较高的一个字,其他字虽另有字义,但综合字频、字频方向平均值或构词率明显较低,只收录前者,统一方案繁形字选择“板抱杯並才彩草叉嘗出呆蕩抵澱咚夫個拐櫃果毁飢家鑒巨誇昆侖梁累麻渺你念娘匹撲秋千沈什屍搜他它台兔效熏燕扬癢岳欲札榨噪症致朱諮”等,未收录“闆菢盃并纔綵騲扠嚐齣獃盪牴淀鼕伕箇柺柜菓燬譭饑傢鑑鉅夸崑崙樑纍蔴痲淼妳唸嬢疋扑鞦韆瀋尸俬蒐祂牠臺菟傚燻鷰颺痒嶽慾劄搾譟癥緻硃咨”等字;对于未收录的字,尽量做到有理据有出处;一种单一内码的一个字对应另一单一内码的不同字义(或不同义项下)的多个字时,如果另一单一内码中的除了综合字频和字频方向平均值较高的一个字,还有其他字的综合字频、字频方向平均值及构词率也较高,若选用能有助于使字义的表述更明确,统一方案便选用该字;不同字义(或义项下)有多个字时,如果除了综合字频和字频方向平均值较高的一个字,还有其他字的综合字频和字频方向平均值也较高,组词能力较强,若选用能有助于使字义的表述更明确,便选用该字,统一方案繁形字同时选择了“參叁、采採、沖衝、斗鬥、發髮、復複、干幹乾、后後、划劃、歴曆、面麵、松鬆、術 托託、系係繫、游遊、于於、余餘、云雲、占佔、著着、制製、志誌、只隻、鐘鍾、注註、准準”等字及其对应的简形字如果国标码与大五码之间的多个字有复杂的对应关系(包括“多对多”),按“必要合理”的原则进行复杂调整。
3.一种华文文字统一方案,其特征在于统一方案的简形字尽量照顾简化字使用区的字形使用习惯,繁形字尽量照顾繁体字使用区的字形使用习惯“揹併佈採弔複迴姦捲睏裡慄○舖捨塗係兇遊佔週凖”等字的笔画不多或同相关字笔画差异小,统一方案简形字直接录入;“錶嚐噹噁譁儘釦囉闢鎔託輓餵讚誌註”等字的笔画较多或符合简化规则,按简化字规则类推简化后,统一方案简形字录入为“ 侭 啰”;对于少数由于原国标码与大五码“不同字义”一对多,而不得不在龚码中增加或调整字义的少数简形字,若因笔画多而与其他简形字不协调,统一方案按“兼顾相关字形,新字的字义、字音易理解,无歧义”的原则将其调整为“合理字形”,繁形字“蔔衝醜澱鬥髮範豐乾幹穀後劃彙穫幾薑曆黴麵樸籤鬆 鹹嚮傭 癒雲 髒徵製隻”等,调整为合理字形后录入为“ 笵夊 ”;统一方案的简形字和繁形字在各类出版品中不可以混用;统一方案的每一种字体要么是简形,要么是繁形,简形字与繁形字不在同一种字体中出现;所有与统一方案相关的输入或转换,都必须依照其相关词典的文字和语法规范设定语词。
4.一种华文文字统一方案,其特征在于对于有争议、敏感或矛盾的字义条,统一方案字、词典采用“客观对待、避免争议、中性语词释义”的方法处理,让简繁体字的所有使用者都能接受;统一方案的每一个华文字都有独特的字义,当一个字具有某种字义,其统一方案中的相关字(在原国标码或大五码中相关)即不再具有该义项,即“字义不作重复授权”;统一方案收录的字与字之间,不存在某字词或某字词的某义项“通”另一字词,或“亦作”另一字词的现象;对于某些字在简化字和繁体字中读音的差异,采用字音使用频度较高者;在同一义项下,多音多调字只保留特定音频和特定音频方向值较高的语音和声调;对于具有不同义项的多音多调字,若其中一义项的特定音频较低,且构词能力有限,将此字音对应的义项归入特定音频较高的义项内;所有偏旁部首均按现代语音标注;统一方案使用“科学简洁、通俗易懂、严谨合理、无歧义”、综合词频和词频方向值较高的语词,语词通过统一方案相关词典作系统性的规范解释;对于目前使用较广的几种华文单一内码(如国标码、大五码、香港增补字符集等)中的字,若统一方案未收录,在统一方案的相关字典和词典中按照“合理对应字、合理最简词”的方案给出与统一方案的使用对应指引并释义;合理对应字须符合“字义、字音、字形等关联性强、合理、无歧义”的原则;当统一方案的收录字中没有“合理对应字”时,用“合理最简词”的办法处理,合理最简词应符合“科学简洁、通俗易懂、严谨合理、无歧义”的原则;对于统一方案未收录的名称用字,按其他习惯名称;无其他习惯名称者采用“义音形最接近字+特征尾字”的方法解决,特征尾字可为“花草树木鸟虫鱼石”等;统一方案字符集(用字范围、字形)与相关字典、词典的拼注音、释义(字音、字词语义)配合,构成一个统一、完整、科学、规范、稳定的华文文字体系,让华文字使用者能轻易达至严谨的华文文字规范。
5.一种对华语文冗余信息进行变通处理的方法,其特征在于对构词率极低的不涉及姓氏、有效人名的华文冗余字进行适当变通,合理减少华文用字;文字贵精、贵巧、贵搭配,字必尽其用;同音同义而不同形的异体字和异形词,并列关系语词的多种形式,用综合字词频和字词频方向平均值的方法解决;对于统一方案未收录的名称用字,按其他习惯名称,无其他习惯名称者采用“义音形最接近字+特征尾字”的方法解决,特征尾字为“花草树木鸟虫鱼石山河湖岛渠泉”等;冗余字(或近似于冗余字)用“字义、字音、字形等关联性强、合理、无歧义,变通后的组词不与其他同类语词重复”的“合理对应字”方法调整;词义变通法根据词义,将语词中的冗余字加以变通;近音、近形变通法根据相近的字音或字形,将语词中的冗余字加以变通;特征首、尾字识别变通法对于含有冗余信息的的双字词和多字词,利用保留特征首字或尾字便于识别的方法,将其他字加以变通;并列关系语词变通法对于因可改变顺序而产生冗余方式的并列关系语词,按综合字词频和字词频方向平均值录入相关词典;较常用字以外的有机化学专用字全部按近音、近形、无歧义方式加以变通;除省和中央直辖市的名称及代名称保留原用外,地名和山河湖海岛渠泉名等一般不使用“专字、专音”,变通方案报相关机构审批后录入工具书;当有新的文字需要出现,原有字的义项不能表述时,以现有的合理对应字增加义项,或采用“义音形最适合字+特征尾字”的方法解决,以避免产生新的冗余字;相关词典不收录现在不用或罕用的字词条和义项,不注古音古意,除特需外对词条原则上不标注出处;对于白话与文言多音字,全部或部分完成向白话音过渡的字按白话音,未转换成功的字按文言音,有其他义项的字另行解决;对于北京与京外多音字,两个音中选择综合音频较高的字音,综合音频相近时按北京音;对于多音多义字,部分字进行“义项合理转移”,部分字“罕义并常义”,部分字“义项拆分”,不能转移、归并或拆分的则保留原多音;简繁交叉多音字按“关联义项字音”和综合音频归并;姓氏多音字只保留综合音频较高的一个姓氏字音;为有助于记忆,尽量按音旁归并字音;部分多音字(包括简繁交叉多音字)变通为以下的单音字(以汉语拼音标注调整后的字音)哎āi唉āi挨āi捱ái癌ái嗳ài 艾ài嗌yì唵ǎn凹āo熬áo拗ào扒bā吧ba钯bǎ罢bà鲅bà掰bāi呗bài扳bān般bān榜bǎng膀bǎng蚌bàng蒡páng磅bàng堡bǎo趵bào暴bào背bèi奔bēn贲bēn绷bēng吡bǐ裨pí辟bì臂bì扁biǎn缏biàn杓sháo骠piào摽biào别bié瘪biě槟bīn并bìng剥bō播bō伯bó孛bèi泊pó薄bó簸bǒ擘bò卜bǔ不bù嚓cā采cǎi伧cāng操cāo侧cè噌cēng叉chā杈chā馇chā碴chá衩chà拆chāi瘥chài掺chān孱chán禅chán镡tán铲chǎn颤chàn厂chǎng场chǎng倡chàng焯chāo嘲cháo吵chǎo车chē沉chén谌chén称chēng铛dāng乘chéng裎chéng澄chéng秤chèng匙chí尺chǐ冲chōng帱choú绸choú臭choù褚chǔ揣chuǎi啜chuò嘬zuō创chuàng绰chuò呲cī茈zǐ刺cì枞cōng酢zuò蹴cù撮cuō嗒dā沓tá答dá打dǎ大dà呔tài待dài逮dǎi瘅dān疸dǎn掸dǎn澹tán挡dǎng叨dāo焘tāo蹬dēng镫dèng嘀dí镝dí氐dī坻dǐ底dǐ弟dì踮diǎn佃diàn钿tián喋dié揲dié丁dīng酊dīng侗tóng垌tóng峒tóng恫dòng斗dǒu逗dòu读dú肚dù度dù镦dūn敦dūn蹲dūn囤tún沌dùn顿dùn哆duō垛duǒ堕duò舵duò蛾é呃e恶è儿ér佴èr发fā法fǎ番fān蕃fān繁fán氾fán泛fàn坊fāng彷páng菲fēi蜚fēi分fēn玢fēn葑fēng冯féng佛fó否foǔ夫fū芾fú服fú莩fú桴fú脯pú父fù伽jiā嘎gā盖gài杆gān岗gǎng钢gāng杠gàng膏gāo镐gǎo纥hé胳gē搁gē革gé格gé鬲gé葛gě蛤há膈gé个gè各gè硌gè给gěi艮gèn勾gōu枸gǒu估gū蛄gū毂gū谷gǔ骨gǔ鹄gǔ呱guā观guān桄guāng广guǎng龟guī鲑guī柜guì炅guì掴guó嗨hāi胲hǎi擀gǎn汗hàn夯hāng号hào呵hē合hé和hé核hé荷hé颌hé貉hé阖hé嘿hēi哼hēng横héng哄hǒng红hóng虹hóng蕻hòng侯hóu糊hú虎hǔ浒hǔ唬hǔ华huá哗huā化huà划huá徊huái坏huài郇xún虺huǐ珲hún哕yüē浍kuài桧kuài荤hūn混hùn豁huō缉jī稽jī亟jí几jī纪jì济jì偈jì祭jì夹jiá家jiā贾jiǎ价jià监jiān犍jiān囝jiǎn锏jiǎn见jiàn渐jiàn溅jiàn槛jiàn浆jiāng糨jiàng蕉jiāo角jiǎo侥jiǎo矫jiǎo脚jiǎo湫qiū剿jiǎo徼jiǎo缴jiǎo峤jiào节jié诘jié结jié解jiě芥jiè藉jiè矜jīn仅jǐn廑jǐn尽jìn劲jìng禁jìn经jīng颈jǐng靓jìng趄jǖ锔jǘ桔jǘ咀jǚ沮jǘ句jǜ苣jǜ俱jǜ据jǜ锯jǜ瞿qǘ卷jüàn隽jüàn倔jüè噱xüé蹶jüě嚼jiáo菌jǜn筠jǖn 麜jǖn俊jǜn浚jǜn咔kā咖kā卡kǎ楷kǎi看kàn阚kàn扛káng亢kàng闶kàng坷kē轲kē颏ké壳ké咳ké可kě克kè嗑kè啃kěn吭kēng倥kōng悝kuī傀kuǐ溃kuì栝guā拉lā啦la喇lǎ剌là腊là蜡là徕lái癞lài郎láng莨liáng阆lǎng唠láo姥lǎo潦liáo烙lào勒lè肋lè擂lèi嘞lei棱léng厘lí蠡lí哩lī丽lì栎lì跞lì俩liǎ凉liáng踉liàng量liàng撩liáo燎liáo钌liǎo蓼liǎo撂liào瞭liǎo咧liē裂liè淋lín令lìng溜liū遛liù馏liù镏liú六liù咯gē泷lóng笼lóng隆lóng偻lóu喽lóu搂lǒu露lù芦lú碌lù率lǜ绿lǜ掠lüè抡lūn纶lún论lùn捋luō啰luō泺luò络luò落luò漯luò麻má蚂mǎ吗ma嘛ma埋mái脉mài谩màn蔓màn猫māo冒mào么me闷mèn氓máng蒙méng谜mí糜mí靡mǐ眯mī泌mì黾mǐn娩miǎn乜miē缪móu模mó摩mó抹mǒ末mò牟móu姆mǔ哪nǎ那nà娜nà囡nān南nán囊náng馕náng呶náo呢ne嗯en泥ní溺nì碾niǎn鸟niǎo尿niào宁níng拧níng弄nòng努nǔ疟nüè暖nuǎn喏rě沤òu耙bà排pái派pài胖pàng刨páo炮pào跑pǎo泡pào喷pēn澎péng坯pī铍pí劈pī埤pì匹pǐ缥piǎo撇piě拼pīn苹píng屏píng迫pò魄pò掊poú仆pú朴piáo埔pǔ瀑pù曝pù七qī妻qī栖qī期qī蹊xī齐qí圻qí其qí奇qí綮qǐ契qì砌qì荠jì荨xún浅qiǎn慊qiǎn茜qiàn嵌qiàn呛qiāng跄qiāng镪qiāng强qiáng抢qiǎng悄qiāo谯qiáo诮qiào翘qiào鞘qiào茄qié且qiě亲qīn溱qín鲭qīng蝤qiú区qǖ觑qǜ券qüàn炔qüē阙qiè嚷rǎng娆ráo任rèn恁rèn葚shèn若ruò塞sāi糁sǎn丧sāng缫sāo臊sào扫sǎo色sè沙shā嗄shà刹shà莎shā煞shà杉shān钐shān苫shān剡yǎn扇shàn上shàng捎shāo梢shāo蛸xiāo勺sháo苕sháo蛇shé舍shě沈shěn甚shèn椹shèn胜shèng渑mǐn省shěng晟chéng什shén石sh2识shí拾shí食shí莳shí氏shì适shì熟shóu术shù腧shù刷shuā衰shuāi谁shéi说shuō思sī伺cì似sì俟sì忪sōng擞sǒu宿sù遂suì挲suō缩suō铊tā塔tǎ踏tà骀tái台tái苔tái覃qín锬tán汤tāng镗táng倘tǎng傥tǎng趟tàng掏tāo陶táo淘táo忒tè绨tí提tí体tǐ裼tì挑tiāo铫iáo帖tiě町dīng梃tǐng铤tǐng通tōng同tóng童tóng僮tóng菟tù褪tuì屯tún驮tuó柁tuó砣tuó拓tuò哇wā瓦wǎ莞wǎn菀wǎn万wàn王wáng圩y唯wéi尾wěi委wěi隗wěi尉wèi蔚wèi纹wún璺wùn挝wō涡wō喔wō乌wū无wú唔wú捂wǔ兀wù郗xī歙xī洗xǐ铣xǐ禧xǐ戏xì系xì呷xiā吓xià厦xià纤xiān鲜xiān闲xián现xiàn巷xiàng削xüē嚣xiāo肖xiào校xiào协xié挟xié写xiě芯xīn莘xīn戌xǖ砉huò嘘xǖ旋xüán血xiě熏xǖn窨yìn压yā呀yā疋yǎ哑yǎ雅yǎ咽yān烟yān湮yān腌yān芫yüán研yán燕yàn鞅yāng烊yáng幺yāo繇yáo药yào耶yē叶yè曳yè掖yè一yī衣yī欹yī荑yí眙chì遗yí仡gē屹yì洇yīn荫yìn 殷yīn吟yín龈yín饮yǐn荥yíng喁yǘ涌yǒng柚yòu有yǒu于yǘ予yǚ於yǘ俞yǘ与yǚ雨yǚ语yǚ吁yǜ育yǜ员yán圜yán媛yán约yüē晕yǖn熨yǜn拶zǎn载zài载zài崽zǎi咱zǎn攒zǎn髒zāng奘zàng凿záo择zé笮zé缯zēng吒zhā咋zhā喳zhā楂zhā扎zhā轧yà咤zhà栅zhà炸zhà翟zhái粘zhān辗zhǎn占zhān啁zhoū召zhào蜇zhé这zhè征zhēng怔zhēng铮zhēng正zhèng帧zhēn症zhèng吱zhī殖zhí只zhǐ峙zhì粥zhōu轴zhóu属shǔ著zhù爪zhǎo拽zhuài赚zhuàn琢zhuó仔zǐ兹zī粢zī觜zī龇zī訾zī综zōng卒zú作zuò柞zuò
6.一种华文文字内码完整规范化智能转换方法,其特征在于当进行不同华文内码间的文字转换时,如来源码的一个字对应目的码中“同一字义”的多个字时,转换为现时综合字频较高的一个“被选字”,其他字为“落选字”;如来源码的一个字对应目的码中“不同字义”的多个字时,首先将其转换为根据现时字频挑选的一个“主被选字”,然后在目的码的环境中,利用词的搭配转换为“不同字义”的其他“次被选字”;当来源码的字在目的码中无“字”可以对应时,转为“合理对应字”或“合理最简词”;如果来源码的“词”对应目的码的“字”,用先“字转字”、后“词转字”的方法解决;在进行异种内码转换时,第一步,将来源码的每一个“字”和图符,按照“基本转换词典”的指引,全部转换为目的码的字、词和图符,可转字的(包括“合理对应字”)转为目的码的“字”,不能转字的转为目的码的“词”;第二步,在目的码的环境中,依照“基本转换词典”进行“词转词”的自动搜索替换,以此将不同字义的“一对多”可转字,由来源码的一个字,正确转换为目的码中的多个字;若来源码的“词”对应目的码的“字”,在这一步中“词转字”;第三步,选择合适的“用词、用语转换词典”和“译名转换词典”,将用词、用语和译名转换为文字使用者所需要的形式;第四步,按照“复杂修正转换词典”的指引,将前几步没解决的极少数问题进行最后修正;由以上方法和步骤得到的转换结果与目的单一内码的文字规范、文字使用习惯和用字范围严格对应;
7.一种华文文字内码完整规范化智能转换方法,其特征在于当进行同种华文内码间的文字转换时,对于同一字义的“一对多”可转字,将“落选字”转为“被选字”;对于不同字义的“一对多”可转字,先全部转为“主被选字”,再根据词的搭配转为不同字义的“一对多”其他“次被选字”;在进行同种内码转换时,第一步,根据“基本转换词典”的指引,在同种内码环境中,将来源文本中的“有必要转换的字”从一个字转换为另一个字或一个词;第二步,依照“基本转换词典”进行“词转词”的自动搜索替换;若来源码的“词”对应目的码的“字”,在这一步中“词转字”;第三步,将用词、用语和译名转换为文字使用者所需要的形式;第四步,按照“复杂修正转换词典”的指引,将前几步没解决的极少数问题进行最后修正;转换结果与目的单一内码的文字规范、文字使用习惯和用字范围严格对应。
8.一种华文文字内码完整规范化智能转换方法,其特征在于当进行多码多向的异种内码和同种内码间的文字转换时,包括简转繁、繁转繁、繁转简、简转简等多种形式的转换;在实际应用中,为了方便可将“简繁转换指令”标示为两种,如标示为“规范繁体”(包括简转繁和繁转繁)和“规范简体”(包括繁转简和简转简),或标示为“简转繁”(实际包括繁转繁)和“繁转简”(实际包括简转简);以Unicode码为中介,可做到华文简化字和繁体字共存,并且能对照显示于计算机屏幕上;在进行简繁双向转换时,首先根据简化字与繁体字所不同的编码位置(码位)自动识别出华文字所处的内码状态;然后根据“转换指令”要求确认转换方向,选择双向转换词典中的对应选项(1)内码为简化字,点取“规范繁体”指令,选取双向基本转换词典中的“简转繁”选项,先转“来源字”,后转“来源词”;接着转用词、用语、译名,最后复杂搜寻修正;(2)内码为简化字,点取“规范简化”指令,选取双向基本转换词典中的“简转简”选项转换;接着转用词、用语、译名,最后复杂搜寻修正;(3)内码为繁体字,点取“规范繁体”指令,选取双向基本转换词典中的“繁转繁”选项进行转换;接着转用词、用语、译名,最后复杂搜寻修正;(4)内码为繁体字,点取“规范简化”指令,选取双向基本转换词典中的“繁转简”选项进行转换;接着转用词、用语、译名,最后复杂搜寻修正,转换完毕;转换结果与目的单一内码的文字规范、文字使用习惯和用字范围严格对应。
全文摘要
本发明为一种华文文字龚码统一方案及内码完整规范转换。用现代化的科学量化的方法从综合字词频、字词频方向平均值等方面进行筛选、整合、变通、规范及创新处理,内码同时兼顾简繁字形,实现华文文字在内码、用字范围、字义、字形、字音、语词、语法等方面的全面完整统一。通过合理最简字词等方法及来源字词转目的字词、转用语译名、复杂修正等步骤得到完整规范化的多码多向快速转换结果。本发明可有效应用于各种涉及到华文的计算机软件与平面、电子、多媒体出版品,可支援所有平台,可促使华文软件简繁版本合一。
文档编号G06F3/023GK1490711SQ0310130
公开日2004年4月21日 申请日期2003年1月1日 优先权日2002年1月26日
发明者龚学胜 申请人:龚学胜