专利名称:汉语语句切分的方法及其系统的制作方法
技术领域:
本发明涉及语音处理技术,特别是涉及一种能对汉语语句切分予以最佳化的方法及其系统,借以提高汉语语句经切分后词语的精确度。
汉语语句切分处理属语音处理程序预处理阶段中相当重要的一环,是对语音发声的汉语语句所代表的文字字串(字串由若干字符所组成),进行适当地切分。若经切分后的文字字串能精确地表达出原语义的话,接下来便可据此表达出此汉语语句的抑扬顿挫,再经语音处理后,便能产生接近真人发声的质量效果。
目前,对于汉语语句切分的方法包括正向最大匹配法、逆向最大匹配法、双向最大匹配法、逐词遍历匹配法、以及切割标志法等数种。其中,正向最大匹配法是从文字字串的字首开始匹配,每次切分出可匹配的最长词,再对剩余字串重复这一步骤,直至全部文字字串都经过切分止。逆向最大匹配法是从汉语文字字串字尾开始匹配,每次切分出可匹配的最长词,再对剩余字串重复这一步骤,直至全部文字字串都经过切分止。双向最大匹配法为正向最大匹配法和逆向最大匹配法的综合运用,分别执行正向最大匹配法和逆向最大匹配法,若二者所切分的结果不同,则需采用别的方法处理。而逐词遍历匹配法是对整个文字字串搜寻出最长词,切分出可匹配的最长词后,再对剩余字串重复这一步骤,直至全部文字字串都经过切分止。切割标志法则先分析文字字串中仅能做为词首或词尾的字符,将其做为分词标志,据此将字串分割成较短的字串,然后配合其他方法进行切分。
由于正向最大匹配法和逆向最大匹配法,是以单向分别自字首和字尾起进行匹配,其时间复杂性与语句内所含的字符数(以自然数n表示)成正比。然而,以此既定顺序单向进行匹配的方法,并不能确保全部语句切分的最佳化。譬如,以语句“他说出去一下”为例,若以正向最大匹配法分析,则经切分后为“他//说出//去//一下//”(注,本说明书皆以“//”做为经切分后各词语间的间隔符号);而以语句“他说出去公园的目的”为例,若以逆向最大匹配法分析,则经切分后为“他//说//出去//公园//的//目的//”。由此可知,正向最大匹配法和逆向最大匹配法,虽属一种局部最佳化的方法,却无法确保全部语句切分的最佳化。
对于双向最大匹配法,其以正向最大匹配法和逆向最大匹配法进行分析,虽能给出一些可能出错的词语成分,譬如以语句“他说出去一下”为例,若以双向最大匹配法进行,则经切分后为“他//说出//去//一下//”、“他//说//出去//一下//”等两种,然后配合别的方法另行处理。然而,对于不能由正向最大匹配法或逆向最大匹配法切分出的情况,同样地,也不能确保全部语句经切分后得以最佳化,其时间复杂性比正向最大匹配法或逆向最大匹配法多出了一倍。
而逐词遍历匹配法不仅不能保证全部语句最佳化,其时间复杂性也与语句内含字符数的平方(譬如以n2表示)成正比、甚或更高,故实际上很少被采用。至于切割标志法的时间复杂性与语句内所含的字符数(以n表示)成正比。然而由于普遍存在的分词标志并不多见,故据以将文字字串分割成较短字串的效果,也相当地有限。
因此,本发明的一个目的,是提供一种能将汉语语句切分的方法及其系统,其经切分后所得到的词语精确度,比正向或逆向最大匹配法等单向最大匹配法高出两个数量级。
本发明的另一个目的,是提供一种能将汉语语句切分的方法及其系统,其经切分后所得到的词语精确度,比双向最大匹配法高。
本发明的再一个目的,是提供一种能将汉语语句切分的方法及其系统,其时间复杂性与语句内所含的字符数成正比。
为了达到上述目的,本发明可通过提供一种汉语语句切分的方法来完成。首先输入一个汉语语句,此汉语语句是由多个字符所组成的一个文字字串。再根据一词语库,对此文字字串进行词语匹配。接着,判断经匹配后的分词路径是否唯一;若是,则完成汉语语句切分的方法;若否,则选择此分词路径中最短的一个,然后,判断此最短分词路径是否唯一;若是,则完成汉语语句切分的方法;若否,则根据一词语词频库,计算该最短分词路径相对应的词语数量,确定该最短分词路径中最佳的一个。最后,将最佳的最短分词路径输出。
另外,本发明也可通过提供一种汉语语句切分系统来完成。该系统包括一词语库、一词语词频库、一输入装置、一切分处理器、以及一输出装置。词语库和词语词频库分别提供进行切分处理时匹配所需的词语及词频资料。输入装置则提供一汉语语句的输入。切分处理器接收此汉语语句,根据词语库提供的词语资料,依次进行词语匹配、选择最短路径、以及词语数量计算等步骤。若在进行词语匹配、选择最短路径、以及词语数量计算等步骤中,所得到的分词路径已属唯一,则得到一个分词结果。此分词结果再经输出装置输出。
为使本发明的上述和其他目的、特征、和优点能更明显易懂,下文将通过一个较佳实施例,并结合附图,作如下详细说明
图1是根据本发明的汉语语句切分系统方块图;图2是根据本发明的汉语语句切分方法的流程图;图3是应用本发明方法切分一汉语语句“立即解决战斗”的示意图;以及图4是显示F(t,N,W)的一个实施例的流程图。
本发明的汉语语句切分方法采用三个主要原则第一是分词与语义无关原则,第二是最少分词优先原则,第三是将词语可能性予以量化原则。
人类在将语句切分成词语时,可借助对语义知识的累积,以及考虑其与整个语句语义间的关系,但是如果让计算机系统同时考虑语句与整个语句的语义关系,则易陷入互为因果的无穷循环中。为避免这种因果循环的现象,本发明采用分词与需经切分语句语义无关的原则,该原则指将语句切分成词语时,不考虑其与整个语句语义间的关系,而仅考虑词语的匹配和排序。再者,本发明利用了最少分词优先原则,该原则是指在各种可能的分词结果中,优先选取词语数量最少者,换言之,就是选取最短分词路径。另外,将词语可能性予以量化的原则,是指采用词频和词长做为可能性量度的参数,据以计算出分词路径的词频加权值,以此确定出最佳的最短分词路径。因此无须人类智能的参与,以一般计算机处理器及其相关硬件,便能精准地切分汉语语句。
参照图1,所示为根据本发明的汉语语句切分系统方块图。该汉语语句切分系统包括切分处理器10、输入装置12、词语库14、词语词频库16以及输出装置18等等。图2所示为根据本发明的汉语语句切分方法的流程图。下文结合图1,详细说明图2的汉语语句切分方法。
参照图2,此方法流程开始后,在步骤20从输入装置12输入汉语语句。然后进行到步骤21,由切分处理器10根据词语库14所具有的词语资料进行词语匹配,此时按照前面所述的“分词与语义无关原则”做切分,该原则指在切分汉语语句成若干词语时,并不考虑其与整个语句语义间的关系,而仅考虑词语的匹配和排序,此经词语匹配后的分词路径可能是唯一,也可能匹配出多种可能的分词路径。
接着,在步骤22判断经步骤21匹配后得出的分词路径是否唯一。若所匹配后得到的分词路径是唯一的,则前进至步骤26,将该分词结果经输出装置18输出,完成此汉语语句切分过程;若所匹配后得到的分词路径不是唯一的,则前进到步骤23,根据最少分词优先原则,判断各种匹配所得到的分词路径中哪一个分词路径词语数量最少,从而据以选取出分词路径最短的一个。
然后前进至步骤24,判断经步骤23所选取的最短分词路径是否唯一。若所选取的最短分词路径唯一,则直接转至步骤26,将分词结果经输出装置18输出,完成此汉语语句切分过程;如果所选取的最短分词路径不是唯一的,则切分处理器10前进到步骤25,根据词语词频库16选择最短分词路径中最佳的一个。步骤25是根据词语可能性量化原则,采用词频和词长做为可能性量度参数,据以计算出分词路径的词频加权值,据以确定出最佳最短分词路径。步骤25选出最佳最短分词路径,然后经输出装置18输出,完成此汉语语句切分过程。
以下就步骤21分词与语义无关原则、步骤23最少分词优先原则、步骤25将词语可能性予以量化原则等,以举例方式详细说明。
分词与语义无关原则为能实现步骤21的词语匹配,本发明的较佳实施例定义一函数Ma(t,L,V),其以t为输入参数,L和V为输出参数。其中,t表示汉语语句的文字字串内某字符前的节点(后面详述)序号;L表示以该字符起始,所匹配成功的最长词语的词长;V表示词长为L的可变匹配向量,可表为V={V(1),V(2),……,V(L)}。具体地说,对于节点t与其后L个节点间所包含的L个字符,若匹配成功的词长为k(k=1,2,……,L),则V(k)=1,若匹配不成功的词长为k(k=1,2……,L),则V(k)=max。例如,以语句“乱七八槽”为例,以字符“乱”起始,所能匹配成功最长词语的词长为四,其中,字符“乱”可以看做是一单字词,故V(1)=1;“乱七”无法匹配构成词语,故V(2)=max;“乱七八”也无法匹配构成词语,故V(3)=max;“乱七八槽”可匹配构成词语,故V(4)=1。因此,V={1,max,max,1}。
再者,参照图3,其以一汉语语句为例解释分词语义无关原则。假设所需切分的语句具有n个字符,则节点数为n+1个。图3所示的汉语语句为“立即解决战斗”,包括六个字符,分别为“立”、“即”、“解”、“决”、“战”、“斗”等六字,故节点数为七个,分别以标号“1、2、3、4、5、6、7”表示。如图3所示,节点1位于“立”之前,节点2位于“立”和“即”之间,节点3位于“即”和“解”之间,节点4位于“解”和“决”之间,节点5位于“决”和“战”之间,节点6位于“战”和“斗”之间,而节点7位于“斗”字之后。
如图2步骤21所示,由切分处理器10根据词语库14所具有的词语资料进行词语匹配,即直接以分词语义无关原则做切分。值得一提的是,根据本发明的较佳实施例,每一个字符都可以看做是一单字词。故经步骤21处理后,可能切分成如图3所示的分词路径8,由节点1→节点3→节点5→节点7,切分成“立即//解决//战斗//”;亦或可能如图3所示的分词路径9,由节点1→节点3→节点4→节点6→节点7,切分成“立即//解//决战//斗”。当然也可依节点1→节点2→节点3→节点4→节点5→节点6→节点7的路径,就每一单字词切分,即成“立//即//解//决//战//斗//”,然这种切分结果通常不是最短路径,故不予考虑。
然而为能清楚说明起见,首先定义几个术语。“段点”指两节点间依特定方向,自起始节点至末端节点间,依据分词与语义无关原则切分后,任一分词路径都需经过的节点。“字段”指两相邻段点间所包括的字串。“段长”指字段所具有的字符数。如图3所示,节点1、3、7即为段点,“立即”和“解决战斗”分别属一字段,而这二字段的段长分别为二和四。
若以Ma(t,L,V)表示图3段点、字段、以及段长等概念,则对于段点1而言,以Ma(1,L,V)函数表示后,其L等于二。字符“立”可以看做是一单字词,故V(1)=1;“立即”亦可匹配构成词语,故V(2)=1,因此V={1,1}。就段点3而言,以Ma(3,L,V)函数表示后,其L等于四。字符“解”可以看做是一单字词,故V(1)=1;“解决”可匹配构成词语,故V(2)=1;“解决战”也无法匹配构成词语,故V(3)=max;“解决战斗”可匹配构成词语,故V(4)=1。因此,V={1,1,max,1}。若t为字段的终点,则需满足以下两个条件(1)执行Ma(t-1,L,V)后,L=1,V={1};以及(2)对任一节点t1,若t1<t,则执行Ma(t1,L,V)后,t1+L≤t。
条件(1)表示字段终点前的字符可以是单字词,但不能与后一个字符构成词语。条件(2)表示字段终点前的字符可以是词尾,但不能连同前一字符和后一字符构成词语。因此,根据上述方法,便可依据分词与词义无关原则,实现步骤21根据词语库14进行词语的匹配。由于根据词语库14切分汉语语句成若干词语时,仅考虑词语的匹配和排序,此经词语匹配后的分词路径可能是唯一的,也可能匹配出多种可能的分词路径。图3示出两种分词路径8和9。
最少分词优先原则如图2所示,步骤22判断经步骤21匹配后的分词路径是否唯一。若所匹配得到的分词路径是唯一的,则直接至步骤26,将分词结果经输出装置18输出,完成此汉语语句切分的方法;若所匹配得到的分词路径不是唯一的,则前进到步骤23,配合最少分词优先原则,在各种匹配得到的各分词路径中,优先选取词语数量最少的一个,换句话说,即选择最短路径者。如图3所示,存在两种分词路径8和9,故前进到步骤23,以最少分词优先原则选择分词路径最短的一个。
本发明所采用的最少分词优先原则,在于寻求解决包含n个字符的汉语语句切分后最短路径的问题,简言之,即为寻求K个段长分别为L1、L2、……、LK等字段的最短路径问题。因此,可以定义函数F(t,N,W),其以t为输入参数,N和W为输出参数。其中,t表示汉语语句文字字串的节点序号;N为包含两个元素的一维数值,其中,N[1]表示以该字符为首的字段长度,N[2]表示该字段所含词语的个数。W为一个可变长数值,其维数表示最短路径所包含的词语数,而数组中每一元素依序表示相对应词语的长度。此步骤的时间复杂性与语句内所含的字符数成正比。
现在参照图4对F(t,N,W)的一个实施例进行说明。在此流程图中除了使用前面描述的几个符号外,还用到另外几个变量,下面对它们略作解释。
r是一个计数器,表示对V中第几个字符进行操作,在V(r)=1时,r表示匹配成功的词长;I表示当前所操作的节点指针;buffer是一个分词路径缓冲区,用于保存多个中间分词路径;m是W的初值,m=(1,1,1,1……)。
下面参照图4,并以“乒乓球拍卖完了”为例对最少分词优先原则进行解释。对于“乒乓球拍卖完了”这个语句,在利用Ma(t,L,V)判断后可分成两个字段乒乓球拍卖//完了。下面仅对第一个字段“乒乓球拍卖”的处理过程进行说明,对其他字段的处理可以同样的方式进行。
在步骤41,将有关变量,I,N,buffer置为0,字段起点指向节点t,W=m=(1,1,1,1,1)。
在步骤42,将I增1,I+t指向要处理的字段“乒乓球拍卖”,然后执行Ma(I+t,L,V)。对所例示的字段进行所述处理的结果是L=4,V=(1,1,1,1)。
在步骤43,判断当前字段是否处理完,即L是否为0;如果当前字段尚未处理完,则进入步骤44,否则转入步骤50。对于例示的字段,由于L=4,因此进入步骤44。
在步骤44,判断当前处理的字符串是否为单字,即L是否为1;如果L为1,则不进行最少分词处理,返回步骤42。在本例中,由于L=4,因此流程进入步骤45。
在步骤45,令变量r=2,即从当前指针所指向的字符的后一个字符开始后续处理。
在步骤46,判断当前字符是否可与其前面的相关字符匹配成短语,即判断V(r)是否等于1。
如果步骤46的判断结果为是,则进入步骤47,48进行路径计算,否则转入步骤49。
在解释步骤47,48之前,我们首先介绍buffer的结构。变量buffer用于存储要进行处理的所有路径(包括W,但是W是一个特殊的路径,我们在下面要对其介绍),以n表示其中所存储的路径个数。分别以temp
,temp[1],…,temp[n-1]表示其中存储的n条路径。
我们现在用伪码表示步骤47,48的处理过程。
FOR i=0;i<n;i++//搜索buffer中的全部路径IF(temp[i]
+temp[i][1]+…+temp[i][k])=I&&temp[i][k]=1//寻找变量kTHEN用r取代temp[i]中从第k个元素开始的r个元素生成一个新的路径;将该新路径存入buffer以取代temp[i];ENDIF简言之,就是寻找出在buffer中所存储的一个路径中与当前I对应的一个变量k,然后用r取代在所寻找出的路径中的从第k个元素开始的r个元素,生成新的路径。这里需要说明的是,W虽然是buffer中的一个路径,但它是一个特殊的路径,主要用于在寻找变量k时进行比较,并且不被新的路径更新。
在步骤49,判断是否已将V中的元素处理完毕,如果处理完毕,则转移到步骤42,否则重复步骤46,47,48。
现在仍然以上面的例子“乒乓球拍卖”,说明步骤46,47,48的处理过程。
在对于字段“乒乓球拍卖”初次进入循环46,47,48时,I=1,W=(1,1,1,1,1),buffer中只有一个路径W。由于V(2)=1,因此进入步骤46,参看上述伪码,我们发现只有k=0才符合IF中的判断条件,因此用r=2取代W中的从k=0开始的两个元素,因为W不能被更新,所以建立一个新的路径(2,1,1,1)。
由于L=4,r++=3<L,V中的元素尚未处理完,该过程返回步骤46,由于V(3)=1,重复步骤47,48,其结果是k=0,产生第二个路径(3,1,1)。然后r++=4<=L,该过程再次返回步骤46,由于V(4)=1,再次进入步骤47,48。其中发现k=0,产生第三条路径(4,1)。
接下来,由于r++=5>L,该过程返回步骤42,在执行了步骤42之后,I=2(对“乓”进行操作),L=1,V=(1)。由于L=1表示该字为单字,经过步骤44后该过程返回步骤42。
再次执行步骤42之后,I=3(对“球”进行操作),L=2,V=(1,1)。然后过程又进入45,46,47,48对V,buffer,W操作,其处理方式与上面的描述完全相同,这里不再赘述,对I=3处理的结果是在buffer中存储了四条路径(1,1,2,1),(2,2,1),(3,1,1),(4,1)。然后该过程返回步骤42。对I=4处理的结果是在buffer中存储有五条路径(1,1,1,2),(1,1,2,1),(2,2,1),(3,2),(4,1)。然后该过程又返回步骤42。
对于I=5,L=1,V=(1),由于L=1,对于单字不进行路径处理,过程返回步骤42。
对于I=6,执行Ma(I+t,L,V)之后,由于L=0,该过程从步骤43转移到步骤50。
在步骤50中,选出buffer中所有最短路径,并将其存入W。从上面的说明中,我们知道在buffer中共有五条路径,其中最短的路径有两条(3,2),(4,1)。
因此在步骤50,51之后,W中有两条路径路径1W=(3,2),N[1]=5,N[2]=2;路径2W=(4,1),N[1]=5,N[2]=2;其中W=(3,2)表示该字段分为长度分别为3和2的两个词。W=(4,1)表示该字段分为长度分别为4和1的两个词词语可能性量化原则然而,经过步骤23处理后,所选取的最短分词路径不是唯一时,例如,语句“乒乓球拍卖完了”经步骤23处理后,可切分为“乒乓球//拍卖//完//了//”或“乒乓球拍//卖//完//了//”。较有争议的字串“乒乓球拍卖”,在经执行F(1,N,W)后,虽然N[1]等于5、N[2]等于2、W也是二维,但是,W值一个为{3,2},另一个为{4,1},由此可知,上述两种切分方式均属最短路径。因此,必须再经步骤25进行词频加权值的计算,以确定出最佳的最短分词路径。
为实现对最佳的最短分词路径的确认,本发明利用词语词频库16,将词语的可能性予以量化,采用词频和词长作为可能性量度的参数。假设语句的文字字串S=X1X2X3……Xn,X1、X2、X3、……、Xn表示构成语句的n个字符,经步骤23处理后,最短分词路径A将字串S切分为W1W2W3……Wk等k个词语,而这k个词语的频度分别为P1、P2、P3、……、Pk,其词长分别为L1、L2、L3、……Lk,L1+L2+L3+……+Lk=n。据此,定义一词频加权函数g(S,A)如下g(S,A)=f(L1,P1)+f(L2,P2)+f(L3,P3)+……+f(Lk,Pk)。
此式表示以最短分词路径A切分字串S的词频加权函数,而f(L,P)称为关于词频P和词长L的词频加权函数。根据本发明方法,词频加权函数f(L,P)定义成若L=1,f(L,P)=P;若L>1 f(L,P)=CP,C为一常数,最好是5以上的正整数。因此,只要确定适当的词频加权函数f(L1,P1)、f(L2,P2)、f(L3,P3)……或f(Lk,Pk)等,即可计算出每个切分词语的词频加权数值,再将每个词语的词频加权数值相加,就可以对各种可能切分结果进行可能性的排序,据此选择最短分词路径中可能性最高的。因此,步骤25根据词语词频选择最短路径中最佳的一个,根据本发明的较佳实施例,就是选择将每个词语的词频加权数值相加后得到的词频加权函数g(S,A)为最大的一个。
若以上述语句“乒乓球拍卖完了”为例,经步骤23处理后,有两种切分情况,分别为“乒乓球//拍卖//完//了//”或“乒乓球拍//卖//完//了//”。若词语“乒乓球”、“拍卖”、“完”、“了”相对应的词频分别为0.00080、0.00019、0.03425、1.81942等,常数C等于7,则切分“乒乓球//拍卖//完//了”的词频加权数值即为g1=0.00080×7+0.00019×7+0.03425+1.81942=1.8606;若词语“乒乓球拍”、“卖”、“完”、“了”相对应之词频分别办0.00012、0.01127、0.03425、1.81942等,常数C等于7,则切分“乒乓球拍//卖//完//了//”之词频加权数值即为g2=0.00012×7+0.01127+0.03425+1.81942=1.86578。
由于g2>g1,故选择切分结果“乒乓球拍//卖//完//了//”输出。
当然,以词频加权数值做为选择最佳最短分词路径的依据,其精确度要依赖词语词频库内各词语的词频资料。词频资料来自于实际上对语言使用的统计,和本发明方法无关,故对于如何建立词语词频库在此不再赘述。
综合上述,本发明的汉语语句切分的方法,采用分词与需经切分语句的语义无关原则、以及最少分词优先原则,按照切分所需运行时间的长短来排序,优先选择运行时间最短者,寻求最短分词路径。若所获得的最短分词路径不唯一,则以词语的可能性量化原则,采用词频和词长做为可能性量度的参数,计算各个最短分词路径的词频加权数值,换句话说,就是按照可能性大小排序,选择出最佳的最短分词路径。因此,本发明的汉语语句切分的方法,同时兼具运行时间短、切分词语精确度高等优点。
虽然本发明以一个较佳实施例的方式进行了说明,然而其目的并非限制本发明,本领域的普通技术人员在不脱离本发明的精神和范围的情况下,可进行各种修改和变形,因此本发明的保护范围应以所附的权利要求书为准。
权利要求
1.一种汉语语句切分方法,包括下列步骤(a)输入一汉语语句,该汉语语句是由多个字符所组成的一文字字串;(b)根据一词语库,对该文字字串进行词语匹配;(c)判断经匹配后的分词路径是否唯一;若是,则完成该汉语语句切分过程;否则,(d)选择该分词路径中最短者;(e)判断该最短分词路径是否唯一,若是,则完成该汉语语句切分过程;否则(f)根据一词语词频库,选择该最短分词路径可能性最高者;以及(g)输出该可能性最高的最短分词路径。
2.如权利要求1的方法,其中,步骤(b)是采用词语与该语句的语义无关原则。
3.如权利要求1的方法,其中,步骤(d)是采用最少分词优先原则。
4.如权利要求1的方法,其中,步骤(f)是以词频加权数值来决定。
5.如权利要求4的方法,其中,该词频加权数值是根据该最短分词路径中,所匹配而得到的该词语的词长与词频而定。
6.如权利要求5的方法,其中,若该词语为单字词,该词频加权数值仅包含相对应的该词频;若该词语为非单字词,则该词频加权数值为相对应的该词频与一加权常数的乘积。
7.如权利要求6的方法,其中,该加权常数为大于5的正整数。
8.一种汉语语句切分系统,包括一词语库和一词语词频库,它们分别提供在切分处理时匹配所需的词语及词频资料;一输入装置,用于输入一汉语语句;一切分处理器,接收该汉语语句,根据该词语库中该词语的资料,依序进行词语匹配、选择最短路径、以及词频加权数值计算;若在进行该词语匹配、选择最短路径、以及词频加权数值计算中,所得到的分词路径为唯一,即属一分词结果;以及一输出装置,用以输出该分词结果。
9.如权利要求8的汉语语句切分系统,其中,在该词语匹配的步骤中采用词语与该语句的语义无关原则。
10.如权利要求8的汉语语句切分系统,其中,在该选择最短路径的步骤中采用最少分词优先原则。
11.如权利要求8的汉语语句切分系统,其中,该词频加权值是根据该最短分词路径中,所匹配而得到的该词语的词长与词频而定。
12.如权利要求11的汉语语句切分系统,其中,若该词语为单字词,该词频加权数值仅包含相对应的该词频;若该词频为非单字词,则该词频加权数值为相对应的该词频与一加权常数的乘积。
13.如权利要求12的汉语语句切分系统,其中,该加权常数为大于5的正整数。
全文摘要
一种汉语语句切分的方法及系统。其先提供一汉语语句的输入,此汉语语句是由多个字符所组成的一文字字串。再根据一词语库,对此文字字串进行词语匹配。接着,判断经匹配后的分词路径是否唯一;若是,则完成该汉语语句切分的方法;若否,则选择该多个分词路径中的最短者。然后,判断该最短分词路径是否唯一;若是,则完成该汉语语句切分的方法;若否,则根据一词语词频库,计算该最短分词路径相对应的词语数量,确定该最短分词路径之中的最佳者。最后,将最佳最短分词路径输出。
文档编号G06F17/20GK1204811SQ9811841
公开日1999年1月13日 申请日期1998年8月13日 优先权日1998年8月13日
发明者张景嵩, 张金玉, 郑奕 申请人:英业达股份有限公司