专利名称::汉语文本全分词的一种递归方法
技术领域:
:本发明涉及一种汉语文本的全切分技术,属于计算机应用和中文信息处理领域。
背景技术:
:中文文本没有类似英文空格之类的显式表标示词的边界标志。汉语自动分词的任务,通俗地说,就是要由机器在中文文本中词与词之间自动加上空格。中国正在向信息化社会迅速前进,其突出表征是Internet上中文网页的急剧增加和中文电子出版物、中文数字图书馆的迅速普及。而汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本"工序",其作用十分重要。只有逾越这个障碍,中文处理系统才称得上初步打上了"智能"的印记,构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。具体来说,自动分词在很多现实应用领域(中文文本的自动检索、过滤、分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等)中都扮演着极为重要的角色。中文分词是把一个无间隔的汉字串映射到有间隔的汉字词串的问题。该问题的难点在于歧义切分和未登录词问题。目前通常的分词方法有三大类机械分词、统计分词和规则分词,或者几种方法的结合运用。汉语分词中的全切分问题是指对于长度为N的汉字字符串,在不考虑语义的情况下,找出其所有可能的切分形式。随着字符串长度N的增长,其全切分形式的数目呈指数级增长。针对这个问题,已经提出了基于有限自动机和无向图的求解算法,但这些算法一般使用词频作为边的权值或状态转移的重要依据,因此,其得出的结果是依赖于词频或词库的切分结果,而不是理论上的所有可能的切分形式。从理论上说,汉字字符串的全切分是不依赖于任何词典或词频的,其假设前提是任何有限个汉字可以切分为一个汉字词或作为一个切分单位。因此,其全切分的形式在理论上有2W—'种。针对全切分问题,本发明构造性地给出了实现全切分的一种递归方法。该方法与基于有限自动机或无向图的全切分方法相比,更加简洁高效,可应用于汉语文本分词或汉语拼音分词等。
发明内容本发明是一种汉语文本的全切分技术,用来实现对汉语文本的全切分,主要包括汉语文本的全切分方法、全切分的剪枝、基于全切分的歧义消除。1.长度为N的汉字字符串的全切分方法CSA如下(本文下称CSA方法)(1)对于长度为N的汉字字符串S^,取其第一个字符《,构造Z/的全切分(只有一种,即自身)。为方便起见,我们记汉字字符串&的子串s,=^i:2...i,(la《AT)(2)对于z'=2,…,W,Sw的子串t的全切分己经得到,对于子串的每一种切分形式,按照定理1中的方法构造出2种子串S,的切分形式。从而得到子串S,的2'-1种切分形式。(3)当/=7^时,我们得到汉字字符串^的所有2"—4巾切分形式。(4)列出汉字字符串&的所有2W-^中切分形式,结束。例如,我们已知长度为3的汉字字符串全切分形式有4种:(l)(l)(l),(2)'(1)'(1)(2),(3),其中括号内的数字表示一个切分单元里汉字字符的数目。那么,根据上述全切分方法,可以得到长度为4的汉字字符串全切分形式有8种,分别为<table>tableseeoriginaldocumentpage4</column></row><table>2.全切分的剪枝全切分剪枝的目的是删除不符合汉语语义的切分形式,降低计算量。基于词典Lex剪枝的全切分方法如下(1)同CSA方法的(1)。(2)同CSA方法的(2)。(3)对于从上述步骤(2)得到的子串《的全切分形式,考察其中的每一种切分形式。假设在子串《的某一种切分形式S,'中存在某个切分单元^既不属于词典Lex,也不是词典Lex中某个词条的前缀,那么,删除子串《的切分形式《,因此,在构造子串S,+,的全切分时,&的切分形式《不再被扩展。当删除了所有这些不符合汉语语义的子串《的切分形式之后,余下的部分是符合汉语语义的切分形式,在构造子串&+1的全切分时进行扩展。(4)同CSA方法的(3)。(5)同CSA方法的(4)。例如,对于汉字串"氧原子结合成分子",在对其长度为2的子串"氧原"的全切分中,得到两种切分形式(氧)(原)和(氧原)。在第一种切分形式中,切分单元(氧)和(原)都属于词典Lex(规定任何单字属于词典Lex),所以保留这种切分形式;在第一种切分形式中,切分单元(氧原)不属于词典Lex,但它是词典Lex中的词条"氧原子"的前缀,所以也保留这种切分形式。在对该汉字串长度为4的子串"氧原子结"的全切分中,得到切分形式(氧原子结),而切分单元"氧原子结"既不属于词典Lex,也不是词典Lex中某个词条的前缀,故删除之。根据我们的统计结果,上述剪枝方法大约可以删除50%左右的全切分形式。基于全切分结果以及词频的统计知识等,可以给出汉语分词过程中消除歧义的方法。假设在分词过程中我们检测到原汉字串中的一个子串存在歧义切分,该子串记为&=^;^...《(i&^ao。那么,首先对该子串进行全切分,得到其所有全切分形式,然后,基于本文介绍的剪枝方法对全切分结果进行剪枝,得到精简后的全切分结果。最后,利用词频的统计知识从精简后的全切分结果中选出概率最大的切分形式。考虑到汉语分词中的最少分词原则,在选择概率最大的切分形式时应该对分词数目较少的切分形式赋予较大的权重,反之,则赋予较小的权重。经过多次实验发现,将词频縮小iooo倍左右,再利用马尔可夫链计算每个分词形式的概率,可以得到满意的结果。权利要求1.本发明涉及一种汉语文本的全切分技术,用来实现对汉语文本的全切分,主要特征包括汉语文本的全切分方法、全切分的剪枝、基于全切分的歧义消除方法。2.根据权利要求l,汉语文本的全切分方法的技术特征是基于递归技术,逐步将长度为N的汉字字符串的全切分问题转化为长度更短的汉字字符串的全切分问题,直到转化为长度为1的汉字字符串的全切分问题,然后再通过组合和添加两种方式实现长度为N的汉字字符串的全切分。3.根据权利要求1,全切分剪枝的技术特征是基于词典以及子串S,的全切分形式,考察其中的每一种切分形式。如果在子串S,的某一种切分形式S,'中存在某个切分单元K既不属于词典,也不是词典中某个词条的前缀,那么,删除子串《的切分形式《,在构造子串&+]的全切分时,&的切分形式《不再被扩展。4.根据权利要求l,基于全切分的歧义消除方法的技术特征是首先对该子串进行全切分,得到其所有全切分形式,然后,基于本文介绍的剪枝方法对全切分结果进行剪枝,得到精简后的全切分结果。最后,利用词频的统计知识从精简后的全切分结果中选出概率最大的切分形式。考虑到汉语分词中的最少分词原则,在选择概率最大的切分形式时应该对分词数目较少的切分形式赋予较大的权重,反之,则赋予较小的权重。经过多次实验发现,将词频縮小1000倍左右,再利用马尔可夫链计算每个分词形式的概率,可以得到满意的结果。全文摘要一种汉语文本的全切分技术,用来实现对汉语文本的全切分,主要包括汉语文本的全切分方法、全切分的剪枝、基于全切分的歧义消除方法,其特点是基于递归技术,逐步将长度为N的汉字字符串的全切分问题转化为长度更短的汉字字符串的全切分问题,直到转化为长度为1的汉字字符串的全切分问题,然后再通过组合和添加两种方式实现长度为N的汉字字符串的全切分。在本发明的全切分结果的基础上,实现全切分的剪枝和歧义消除。该方法计算量小,容易实现,比基于有限自动机或无向图方法的全切分技术有更高的效率。文档编号G06F17/28GK101655841SQ20091017716公开日2010年2月24日申请日期2009年9月28日优先权日2009年9月28日发明者森章申请人:森章