专利名称:电子计算机中文信息词识别码处理技术的制作方法
技术领域:
本发明涉及电子计算机中文信息处理技术。
背景技术:
中文信息处理按语言化程度分为三个层次(1)机内码字处理层;(2)中间文字处理层;(3)拼音文字词处理层。
中文信息字处理技术已较成熟。国标一二级汉字的机内码,共包含6763个汉字,其中,有一级汉字含汉语拼音音序,但不完善,因为机内码是一字一音,多音字无法包容,也就无法处理。
中间文字也对着一二级国标汉字,但它包含带调的全部音节,和多音字在内的7585个汉字。因此,它可以综合处理汉语的语音和汉字信息。该处理层技术1993年已获国家发明专利权(专利号90105411.9)。
第90105411.9号专利用字母(ASCII码)表达了汉语语音和汉字,而国标一二级机内码是用图形符号(扩展ASCII码)表达汉字。这样,图形符号只能作字符串用,不能帮助编写程序,特别是靠近CPU的汇编语言编程。汇编语言程序在运行速度,存储空间,处理精确度,以及安全可靠性等,都居其他语言的绝对优势。但是,汇编语言标识符只能用字母数字,而且不能超过8个字节。上述发明专利的音图拼法,就有效地解决了这个问题。
但是,所述发明专利对中文信息词处理的深度是有限的。因为它用PPA公式描述的汉语,本身仍是字为单位,音图拼法也没有脱离汉语拼音的音节标调。另外,PPA词的表达,也是用空格作词界。而汉字文本中的空格还有许多用,不可能是词的唯一分界。这样,它显然存在两个缺陷(一)词的保存(包括存磁盘和存缓冲区)解决不了,因而无法进一步分析词性,词义,并进到中文语意理解,及其他语言智能(如翻译机)等。
(二)词的输出(汉语拼音)解决困难,因而关键词,主题词等索引制作不能自动实现。
现有技术中,电子计算机的词处理技术仍停留在汉字文本分词和查词性方面。问题出在汉字表述的词,机器不能识别,无法自动处理。
电子计算机对汉语词处理技术,有着极重要的用途一是制作书本式检索工具;二是制作计算机智能软件。
发明内容
本发明要解决的技术问题是,针对现有技术存在的缺陷,提出一种电子计算机中文信息词识别码处理技术,应用它能使电子计算机对中文信息处理既保持高效率,又能实现高智能化,还可用于标引文献主题词而使中文资讯利用率大幅度提高。
本发明的技术解决方案是,所述电子计算机中文信息词识别码处理技术是在采用通用汉语拼音表达汉语词的基础上,按如下方法赋予单词尾声调识别码(1)建立以下行、列结构的单词尾声调识别码表
b p m fd t k lj q h xz c s r(2)将上述识别码表中的行(即从左至右的行)、列(即从上至下的列)信息转换为单词的声调信息,其中一、二、三、四行字符分别表示单词第一音节的一、二、三、四声,一、二、三、四列字符分别表示单词第二音节的一、二、三、四声;(3)按上述信息转换规则确定而位于相关行、列交点位置的字符即为该单词的声调识别码。
以下对本发明做出进一步说明。
本发明技术中1.将识别码表的行列信息转换成单词的声调信息。一二三四行表示单词第一音节的一二三四声;一二三四列表示单词第二音节的一二三四声。例如,c-42 ketangc(课堂),f-14 zhidaof(知道),j-31 shoujij(手机),t-22 tongxuet(同学)。
只有一个音节的单词,相当于第二音节为○,列的信息为○,所以只标行首字母b-d-j-z分别表示一二三四声。例如,b-1 jib(鸡)d-2 niand(年)j-3 woj(我)z-4 huaz(画)。
2.辅音识别码不含韵母音素(n,g),任何时候都不与前面音节混淆,因此,识别码可标识国标正词法中的任何词,包括三字词四字词及成语熟语等。例如,gonghecguod(共和国),shehuirzhuyix(社会主义),qixiangrxued(气象学),qixiangrwanqianz(气象万千),tongxinzjishouk(痛心疾首),aizbuzshizshouj(爱不释手)。
3.外国名词一般不标识别码;汉语实词中的儿化,子化,助词及其他虚词成份不计入识别码,确保单词识别码所具有的词汇意义。例如,gesidalijia(哥斯达黎加),hemusi(霍姆斯);zhezer(这儿),duzzi(肚子),paojle(跑了),nadzhe(拿着)wojmen(我们),shendme(什么)。
本发明为中文信息处理的拼音文字词处理层,它是基于“汉语句子分析和汉语语意理解”需要而提出的方法技术,也是发明人前述发明专利的接续成果。当发明人将“分词”,“抽词”,“(自然语言)检索”等技术总成,解决″汉语句子分析″及″汉语语意理解″的时候,发现汉语词的表达和存储等问题难以解决,因此提出本发明的技术。
中国没有字母文字,只有方块汉字。而汉字机内码为两个字节,且每个字节的8个bit位高位都置1,本来高位是作校验位(奇偶,正负等)的,汉字占用后,就无法由计算机识别和处理;机内码两个字节的值和值域也不一样,第一字节176-247,第二字节161-254,也就无法按字节比较处理及排序等,因而发明用字母描述汉语语音和汉字的前述专利<电子计算机汉语>,将它作为中间文字,与国标机内码相互转换,处理时转换成字母文字,输出时转换成汉字。
中国没有拼音文字,只有汉语拼音。汉语拼音声韵相拼的400个音节,跟6763个汉字相比,一个音节包含了1-20个汉字,拼音和汉字不具备一一对应的关系,也就无自动转换能力。音节标声调也只1200多个,一个带调的音节仍包含5-6个汉字,二者之间也不能自动转换。发明就是用字母给单词标调,传统是为音节标调,这是一种创新意识。采用声母给单词标调,是利用了声母与韵母互补的关系声母总是在前,韵母总在后;如果韵母后有两个声母呢?显然不能相拼,这样就提供人和机器识别单词尾的那个声母既是单词的分界,又是这个单词的声调码。
另一个重要思想是汉语的词总可以分成双音节词和单音节词。由单音节和双音节词构成三音节,四音节及更多音节的词。发明者对尹斌庸约20万字的<汉语拼写词典>进行实验,这一思想是肯定的,因而单词尾标声调识别码,可以解决所有词标调的问题。
上一思想的引伸,又提供寻找汉语基本词汇的方法。机器可由有限的基本词汇,生成汉语全部词汇,那么基本词汇对应汉字的表也是有限的存储空间,进而解决词的存储问题。
以上的思考路线,落实在声调识别码的设计。如何获得双音节词4×4=16个不同声调组配的字母?这是一种巧合,使得本发明的声调识别码具有唯一性和规律性。我们看<汉语拼音方案>声母表的构成b p m fd t n l
g k hj q xzh ch sh rz c s表面上看,声母有21个,实际上zh ch sh中的″h″已作了声母,那么不同符号的声母只有18个b p m fd t n lg k hj q xz c s r然而,声母g和n又可以构成韵母,因此,这两个字母必需删去,否则,打破声母与韵母的互补关系,丧失声调识别码的功能。舍去g,声母表就少了一行,剩下的k,h,k取换n位置,h插入jq与x之间,从而生成bpmf dtkl jqhx zcsr16个声调识别码。
本发明技术结合前述发明专利技术,可自动产生句子的词识别码存储方式,如句子“马强是我的专利代理人”的词识别码存储方式为maqiangqshizwodejzhuanlifdailisrend。
(词识别码) q zj f s d句子成分词识别码的存储方式,则要用第一发明的分词,抽词和检索三个技术,方能找出语界词(主要是动词,副词和其他虚词),并自动分析产生相应成分(主谓宾动状补)的词识别码存储方式。
但不管哪种存储方式,词识别码中的音节与汉字字段中的字,都是一一对应的,因此,词识别码的每个词都能得到汉字输出;每个汉字词又都能输出汉语拼音;如果是关键词或主题词,通过机器自动排序,又可使汉语拼音词与汉字词一一对应,免去现在拼音检索以音节为单位,同音节相同的汉字要一个个手工移动。
由以上可知,本发明为一种电子计算机中文信息词识别码处理技术,它具有完整的汉语音素拼音和完整的音节(ü用yu)以及完整的单词;本发明的作用和技术特点有1.与第90105411.9号专利<电子计算机汉语>(PPA)接轨。用PPA公式描述的电子计算机汉语,与汉字和汉语语音都一一对应,机器处理中文信息时,将汉字文本转成PPA,处理完后,再按汉字输出,因而使中文信息处理的效率达到最高。但是PPA没有词的表述,无法将中文信息处理高智能化。因此,PPA跟本发明相结合,将使中文信息处理既保持高效率,又能进到高智能化。
2.提高中文资讯利用率。
目前中文资料很少制作索引,无论关键词,主题词都是用400个拼音音节排序,主要靠手工将相应的汉字词集中,所以除了大词典辞书外,一般资料很少建主题词或关键词索引。如果用“汉语拼音词+声调识别码”标引文献的主题词或关键词,将有数百万拼音词与不到十万的汉字词相对应,机器一次排序,即可将相应的汉字词集中在一起,不必手工移动,大大提高了索引制作效率,也就大大提高中文资讯利用率了。
(1)汉语拼音词计算400×400×16=2560000(2)汉字词统计<现代汉语词典>收词6万多一点,北京大学信息处理用<大语料库>收词也只7.3万。
具体实施例方式
实施例1例如下列句子一切文化发展离不开发明与创造。运行前一发明开发的分词技术(罗海清<隐性生成性小词表分词技术>),将产生一切文化发展离不开发明与创造。
再将本发明与前发明的抽词检索技术结合,可以找出句中的语界词,并分析出句子成分(数字标识),全部信息通过pinyin.exe程序,用词识别码记录下来1yiqiefwenhualfazhanm2lidbzkai3famingpyujchuangzaor.
1-主语 2-谓语 3-宾语由此提供词义分析,语意理解和其他智能软件的开发。
实施例2文献资料自动索引编制。
在用户提供词表的情况下,可用前一发明自动抽词并带句段页码等编制索引,例如<环境大事典>的索引编制,机器一次性排序,可将拼音词与相应汉字词集合一起,由拼音词而不是音节查入anleir-胺类343baihel-白鹤004 526baineilzhangz-白内障036 087baipitshu-白皮书338 386 544 875baiselcezhis-白色厕纸576baiselwuranm-白色污染348 349 350 560banzganhanf-半干旱053 056 063 309 713 744banzhanshengz-半旱生713baochiqshuituh-保持水土077 712 713 716baohuxhaiyangq-保护海洋031 247 249 802 812baohuxsenlinp-保护森林034baohuxshengtaif-保护生态216 358 543 591 701baohuxshuiyuanq-保护水源009在用户用识别码标引关键词或一般词的情况下,机器一次排序,也可产生汉语拼音查入的检索工具.例如,对尹斌庸的书是<新华拼写词典>用词识别码描述,机器一次排序,可得到<汉语正词表>,即将分词,拼音,定调,辨义,查字揉合一体的检索工具ganyuq敢于ganzouh赶走gao fangd高房gao shencaip高身材
gao shuz高树gao weiqiangt高围墙gao-digangf高低杠gao-xin jishur高新技术gaobfenzim huahewucwuz高分子化合物gaobmaozzi高帽子gaobxueyaz高血压gaodaf高大gaogaobxingxingr高高兴兴
权利要求
1.一种电子计算机中文信息词识别码处理技术,其特征是,它是在采用通用汉语拼音表达汉语词的基础上,按如下方法赋予单词尾声调识别码(1)建立以下行、列结构的单词尾声调识别码表bpmfdtkljqhxzcsr(2)将上述识别码表中的行、列信息转换为单词的声调信息,其中一、二、三、四行字符分别表示单词第一音节的一、二、三、四声,一、二、三、四列字符分别表示单词第二音节的一、二、三、四声;(3)按上述信息转换规则确定而位于相关行、列交点位置的字符即为该单词的声调识别码。
全文摘要
一种电子计算机中文信息词识别码处理技术,它是在采用通用汉语拼音表达汉语词的基础上,按如下方法赋予单词尾声调识别码(1)建立以下行、列结构的单词尾声调识别码表bpmfdtkl jqhxzcsr(2)将上述识别码表中的行、列信息转换为单词的声调信息,其中一、二、三、四行字符分别表示单词第一音节的一、二、三、四声,一、二、三、四列字符分别表示单词第二音节的一、二、三、四声;(3)按上述信息转换规则确定而位于相关行、列交点位置的字符即为该单词的声调识别码。本发明可使中文信息处理进入高度智能化,并可标引文献主题词而大大提高中文资讯利用率。
文档编号G06F17/28GK1700206SQ20041002321
公开日2005年11月23日 申请日期2004年5月19日 优先权日2004年5月19日
发明者罗海清, 罗万 申请人:湖南大学