本发明涉及数据挖掘
技术领域:
,具体涉及一种热点信息发现方法及系统。
背景技术:
:随着互联网的迅猛发展及存储技术的不断进步,越来越多的文本信息充斥着我们的周围。但是,这些信息中存在着大量的冗余,按部就班的阅读显然会浪费用户大量的时间和精力。热点分析方法可以迅速地从大量的文本信息中提取出关键的词汇或句子信息,即热点信息,让用户可以方便快捷地了解到文本中所包含的重要信息,从而成为了研究人员的研究热点,因此,如何可以高效准确地对文本进行热点分析,找到待处理文本中相应的热点信息成为了热点分析的首要任务。现有的热点分析方法一般是基于词汇共现方法构建小世界网络,根据所述网络计算网络中每个节点的重要度,根据所述重要度信息确定待处理文本的热点信息。所述重要度的计算是根据所述网络的平均最短路径变化量来确定的。现有方法进行所述网络构建时,一般不考虑词汇之间的语义信息,构建的网络只根据相邻词汇的距离进行度量。然而,如果两个词汇在文本中相隔较远,但是在语义上联系很紧密,现有的方法则无法发现这种联系。此外,现有方法在计算每个节点的重要度时,仅仅使用最短路径来度量每个节点的重要度,特征较单一。使用现有方法得到的重要度较高的词汇,不一定能够代表原文本语义信息。同时计算每个节点的重要度时,每次都需要对网络中所有的最短路径进行计算,效率较低。技术实现要素:本发明实施例提供一种热点信息发现方法及系统,以便高效、准确地发现待处理文本中的热点信息。为此,本发明实施例提供如下技术方案:一种热点信息发现方法,包括:获取待处理文本;对所述待处理文本进行分词及词性标注;对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树;去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树;利用所述待分析依存句法树构建小世界网络;根据所述待分析依存句法树及所述小世界网络进行热点分析;根据热点分析结果获取所述待处理文本中的热点信息。优选地,所述对所述待处理文本进行分词及词性标注包括:采用基于条件随机场的方法对所述待处理文本进行分词及词性标注。优选地,所述对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树包括:采用最大生成树算法或者基于神经网络的方法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的依存句法树。优选地,所述去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树包括:对于待处理文本中每句话的依存句法树,根据相同的原则去除其中的停用词,并将去除停用词后的节点进行连接;将去除停用词之前的每条边所表示的依存关系,全部转移到新生成的边上,并将对应的依存关系重要度设置为新生成边上所有依存关系重要度的平均值。优选地,所述根据所述待分析依存句法树及所述小世界网络进行热点分析包括:根据所述待分析依存句法树计算所述待分析依存句法树中每个节点和每条边的依存频度,所述节点的依存频度指所述待处理文本的所有待分析依存句法树中与所述节点相同的节点的重要度之和,所述边的依存频度指待处理文本的所有待分析依存句法树中出现的与当前边相同的所有边的依存关系重要度之和,所述相同边指所述边连接的节点相同;根据所述小世界网络计算所述小世界网络中每个节点和每条边的网络相关特征,所述网络相关特征包括:依存度和/或介数中心性,所述节点的依存度指所述小世界网络中与该节点相连的边的依存关系重要度之和,所述边的依存度指所述边连接的两个节点依存度的和,所述介数中心性指所述节点或边出现在所述小世界网络中其他任意两个节点的最短路径上的次数;根据所述依存频度及所述网络相关特征计算所述小世界网络中每个节点和/或边的重要度得分。优选地,所述根据热点分析结果获取所述待处理文本中的热点信息包括:选择重要度得分大于设定阈值的节点或边所表示的词组的连接作为所述待处理文本中的热点信息;或者根据重要度得分由高到低选择设定个数的节点或边所表示的词组的连接作为所述待处理文本中的热点信息。一种热点信息发现系统,包括:文本获取模块,用于获取待处理文本;预处理模块,用于对所述待处理文本进行分词及词性标注;句法分析模块,用于对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树;整理模块,用于去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树;网络构建模块,用于利用所述待分析依存句法树构建小世界网络;热点分析模块,用于根据所述待分析依存句法树及所述小世界网络进行热点分析;热点信息获取模块,用于根据热点分析结果获取所述待处理文本中的热点信息。优选地,所述预处理模块采用基于条件随机场的方法对所述待处理文本进行分词及词性标注。优选地,所述句法分析模块采用最大生成树算法或者基于神经网络的方法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的依存句法树。优选地,所述整理模块,具体用于对于待处理文本中每句话的依存句法树,根据相同的原则去除其中的停用词,并将去除停用词后的节点进行连接;将去除停用词之前的每条边所表示的依存关系,全部转移到新生成的边上,并将对应的依存关系重要度设置为新生成边上所有依存关系重要度的平均值。优选地,所述热点分析模块包括:依存频度计算模块、特征计算模块及重要度得分计算模块;所述特征计算模块包括:依存度计算模块和/或介数中心性计算模块;所述依存频度计算模块,用于根据所述待分析依存句法树计算所述待分析依存句法树中每个节点和每条边的依存频度,所述节点的依存频度指所述待处理文本的所有待分析依存句法树中与所述节点相同的节点的重要度之和,所述边的依存频度指待处理文本的所有待分析依存句法树中出现的与当前边相同的所有边的依存关系重要度之和,所述相同边指所述边连接的节点相同;所述依存度计算模块,用于根据所述小世界网络计算所述小世界网络中每个节点和每条边的依存度,所述节点的依存度指所述小世界网络中与该节点相连的边的依存关系重要度之和,所述边的依存度指所述边连接的两个节点依存度的和;所述介数中心性计算模块,用于根据所述小世界网络计算所述小世界网络中每个节点和每条边的介数中心性,所述介数中心性指所述节点或边出现在所述小世界网络中其他任意两个节点的最短路径上的次数;所述重要度得分计算模块,用于根据所述依存频度及所述网络相关特征计算所述小世界网络中每个节点和/或边的重要度得分,所述网络相关特征包括:所述依存度、和/或介数中心性。优选地,所述热点信息获取模块,具体用于选择重要度得分大于设定阈值的节点或边所表示的词组的连接作为所述待处理文本中的热点信息;或者根据重要度得分由高到低选择设定个数的节点或边所表示的词组的连接作为所述待处理文本中的热点信息。本发明实施例提供的热点信息发现方法及系统,根据依存句法分析进行小世界网络的构建,可以更好地保留原文本的语义信息。所述网络构建完成后,计算网络相关特征并排序,根据排序后的结果进行热点分析,根据热点分析结果得到待处理文本中的热点词汇相关信息,从而可以高效、准确地分析出待处理文本的热点信息,进而有效提升用户文本阅读的速度,节约阅读时间。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本发明实施例热点信息发现方法的一种流程图;图2是本发明实施例中去除停用词前的依存句法树示例一;图3是本发明实施例中去除停用词后的依存句法树示例一;图4是本发明实施例中依存句法树示例二;图5是本发明实施例中依存句法树示例三;图6是本发明实施例中构建的小世界网络部分图示例;图7是本发明实施例热点信息发现系统的一种结构示意图。具体实施方式为了使本
技术领域:
的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。如图1所示,是本发明实施例热点信息发现方法的一种流程图,包括以下步骤:步骤101,获取待处理文本。步骤102,对所述待处理文本进行分词及词性标注。比如,可以采用基于条件随机场的方法对所述待处理文本进行分词及词性标注。当然,也可采用其它方法进行分词及词性标注,如分词可以用最长词匹配,词性标注可以用基于HMM(HiddenMarkovModel,隐马尔可夫模型)的方法等。步骤103,对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树。比如,可以采用最大生成树算法或者基于神经网络的方法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的依存句法树。比如,待处理文本中的第一句话为“小世界网络是一类特殊复杂网络的结构”,其依存句法树如图2所示。其中,边上的字母缩写为依存关系,每种依存关系被赋予不同的重要度,如下表1所示。表1:依存关系重要度定中关系ATT1.0主谓关系SBV1.0动宾关系VOB1.0数量关系QUN0.9“的”字结构DE0.5步骤104,去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树。所述停用词是指待处理文本中没有意义的词,如“这个”,“是”,“嗯”。在去除停用词时,对于待处理文本中的所有依存句法树,基于相同的原则,去除其中的停用词。比如,根据右节点依赖左节点的原则,将去除停用词后的节点进行连接。再比如,还可以根据左节点依赖右节点的原则,将去除停用词后的节点进行连接。另外,还可以将去除停用词之前的每条边所表示的依存关系,全部转移到新生成的边上,对应的依存关系重要度为新生成边上所有依存关系重要度的平均值,当然,也可以选择一个代表性的依存关系重要度作为新生成边的依存关系重要度,对此本发明实施例不做限定。如图3所示,为待处理文本中第一句话“小世界网络是一类特殊复杂网络的结构”去除停用词后的依存句法树。其中,“网络”节点和“结构”节点去除停用词之前与“是”节点有两种依存关系,即SVB和VOB,参见图2。去除停用词之后,这两种依存关系转移到新生成的边上,新生成边的依存关系重要度为所述两种依存关系重要度的平均值。步骤105,利用所述待分析依存句法树构建小世界网络。根据每句话去除停用词后的依存句法树构建小世界网络,具体过程如下:1)初始化空网络G=(V,E);V表示节点的集合,E表示边的集合;2)依次获取待处理文本中每句话去除停用词后的依存句法树;3)根据深度优先或广度优先的原则,从根节点开始依次遍历每棵依存句法树;4)遍历到一个节点时,判断当前节点是否存在集合V中,如果存在,则依次遍历下一个节点;如果不存在,则将当前节点加入到集合V中;5)遍历到一条边时,判断当前边是否存在集合E中,如果存在,则依次遍历下一条边,如果不存在,则将当前边加入到E中;6)判断待处理文本的所有依存句法树是否遍历结束,如果结束执行步7),否则执行步2);7)全部遍历完待处理文本中的所述依存句法树,得到小世界网络G=(V,E)。如图4为待处理文本中第二句话“在这种网络中大部分的节点彼此并不相连”的去除停用词后的依存句法树,图5为待处理文本第三句话“但大部分节点之间经过少数几步就可到达”的去除停用词后的依存句法树。根据待处理文本的所有去除停用词后的依存句法树构建的小世界网络如图6所示,图6只是待处理文本对应的部分小世界网络图。步骤106,根据所述待分析依存句法树及所述小世界网络进行热点分析。具体地,可以根据所述待分析依存句法树计算所述待分析依存句法树中每个节点和每条边的依存频度,并根据所述小世界网络计算所述小世界网络中每个节点和每条边的网络相关特征,所述网络相关特征包括:依存度和/或介数中心性;然后根据所述依存频度及所述网络相关特征计算所述小世界网络中每个节点和/或边的重要度得分。下面对上述依存频度、依存度、介数中心性的概念及计算方式进行详细说明。1)根据待分析依存句法树计算待分析依存句法树中每个节点和每条边的依存频度。依赖于当前词汇的词组数越多,那么这个词汇的依存频度就越高,所述词组在依存句法树中使用节点表示。所述节点的依存频度指待处理文本的所有待分析依存句法树中与当前节点相同的节点的重要度之和,所述重要度的计算方法为直接依赖或间接依赖当前节点的所有节点数的平方根,如图3中,直接依赖“网络”节点的节点有2个,间接依赖“网络”节点的节点有4个,依赖节点数共6个,则“网络”节点在图3的依存句法树上的重要度为6的平方根,即2.45。同理,“网络”节点在图4的依存句法树上的重要度为1,如果“网络”一词在待处理文本中只出现过这两次,那么“网络”节点的依存频度为2.45+1=3.45。具体计算方法如式(1)所示。NDDegi=Σj=1ViNproj---(1)]]>其中,NDDegi表示第i个节点的依存频度,Vi表示与第i个节点相同的节点数,Nproj为直接或间接依赖第j个节点的所有节点数。所述边的依存频度指待处理文本的所有待分析依存句法树中出现的与当前边相同的所有边的依存关系重要度之和,所述相同边指所述边连接的节点相同。如图3“小世界-网络”这条边的依存关系为ATT,对应的重要度为1.0,如果整个网络中还出现了一个“小世界-网络”的边,依存关系为LAD,对应的重要度为0.6,那么“小世界-网络”这条边的依存频度为1.6,具体计算方法如式(2)所示:EDDegk=Σe=1EkIDege---(2)]]>其中,EDDegk表示第k条边的依存频度,Ek表示与第k条边相同的边数,IDege表示第e条边的依存关系重要度。2)根据小世界网络计算网络中每个节点和每条边的依存度。根据依存句法关系中每种依存关系重要度,计算所述网络中每个节点和每条边的依存度。所述节点的依存度指网络中与该节点相连的边的依存关系重要度之和。如图3中,“网络”节点共有2条边相连,第一条边的依存关系为ATT,对应的依存关系重要度为1.0,第二条边的依存关系为SBV-VOB,对应的依存关系重要度为SBV和VOB依存关系重要度的平均值,即1.0。因此,“网络”节点的依存度为2.0,如式(3)所示。NIDegi=Σk=1NiIDegk---(3)]]>其中,NIDegi表示第i个节点的依存度,Ni表示与第i个节点相连的边的数目,IDegk表示第k条边对应的依存关系重要度。所述边的依存度指所述边连接的两个节点依存度的和,如图3中,“小世界-网络”这条边的依存度为“小世界”节点和“网络”节点的依存度之和,具体计算如式(4)所示:EIDegk=NIDegi1+NIDegi2(4)其中,EIDegk表示第k条边的依存度,NIDegi1和NIDegi2表示与第k条边连接的两个节点i1和i2的依存度。3)根据小世界网络计算网络中每个节点或边的介数中心性所述介数中心性指所述节点或边出现在网络中其他任意两个节点的最短路径上的次数,如在图3中,“小世界”节点与“结构”节点之间的最短路径为“小世界-网络-结构”,最短路径长度为2,“网络”节点出现在了“小世界”节点和“结构”节点的最短路径上,则“网络”节点的介数中心性为1,如果“网络”节点还出现另外两个节点之间的最短路径上,则所述节点的介数中心性为2。“小世界-网络”这条边也出现在最短路径上,如果所述边未出现在其它节点间的最短路径上,则“小世界-网络”这条边的介数中心性为1。计算最短路径时,相邻节点之间的距离度量可以使用传统方法,即用1度量,也可使用两个节点之间边的依存频度的倒数来度量。如图3中“小世界-网络”边的依存频度假设为1.6,“小世界”节点和“网络”节点之间的距离度量为1.6的倒数,即0.625。在计算得到所述依存频度、以及依存度和/或介数中心性这些特征,可以综合利用这些特征来确定小世界网络中每个节点和/或边的重要度得分。需要说明的是,在实际应用中,可以同时利用这三种特征来计算小世界网络中每个节点和/或边的重要度得分,也可以利用所述依存频度和依存度来计算小世界网络中每个节点和/或边的重要度得分,也可以利用所述依存频度和介数中心性来计算小世界网络中每个节点和/或边的重要度得分,对此本发明实施例不做限定。下面以同时利用这三种特征来计算小世界网络中每个节点和/或边的重要度得分为例进行说明。将上述三种特征作为所述待处理文本中每个词汇节点的三维特征,由于每维特征的取值空间不同,无法直接利用,因此可以先对每维特征的取值进行规整,具体规整方法可以采用排序打分的方式进行,或者采用其它规整方法,如每维中的特征值除以当前维特征值的总和,得到规整后的特征值。以排序打分方法为例,对每维特征值进行从小到大排序,将特征值排序后的索引作为当前特征值的得分,如“网络”节点的依存频度为2.45,依存度为2.0,介数中心性为2,排序后的索引分别为3,6,10,则所述节点的三维特征得分分别为3,6,10。利用规整后的三维特征得分,可以计算网络中各节点和/或边的重要度得分,具体如公式(5)所示:FScorei=Σj=1RScoreij---(5)]]>其中,FScorei为第i个节点或边的重要度得分,Scoreij为第i个节点或边的第j维特征的得分。R为每个节点或边的特征维数,如3维。步骤107,根据热点分析结果获取所述待处理文本中的热点信息。具体地,可以选择重要度得分大于设定阈值的节点或边所表示的词组的连接作为所述待处理文本中的热点信息;或者根据重要度得分由高到低选择设定个数(比如10个)的节点或边所表示的词组的连接作为所述待处理文本中的热点信息。如图6中,获取的三组热点信息为:网络-节点、网络-结构、节点-大部分。本发明实施例的热点信息发现方法,根据依存句法分析进行小世界网络的构建,可以更好地保留原文本的语义信息。所述网络构建完成后,计算网络相关特征并排序,根据排序后的结果进行热点分析,根据热点分析结果得到待处理文本中的热点词汇相关信息,从而可以高效、准确地分析出待处理文本的热点信息,进而有效提升用户文本阅读的速度,节约阅读时间。相应地,本发明实施例还提供一种热点信息发现系统,如图7所示,是该系统的一种结构示意图。在该实施例中,所述系统包括:文本获取模块701,用于获取待处理文本;预处理模块702,用于对所述待处理文本进行分词及词性标注;句法分析模块703,用于对分词后的文本进行句法分析,得到所述待处理文本中每句话的依存句法树;整理模块704,用于去除待处理文本中每句话的依存句法树中的停用词,得到待分析依存句法树;网络构建模块705,用于利用所述待分析依存句法树构建小世界网络;热点分析模块706,用于根据所述待分析依存句法树及所述小世界网络进行热点分析;热点信息获取模块707,用于根据热点分析结果获取所述待处理文本中的热点信息。上述预处理模块702可以采用基于条件随机场的方法对所述待处理文本进行分词及词性标注。上述句法分析模块703可以采用最大生成树算法或者基于神经网络的方法对分词后的文本进行依存句法分析,得到所述待处理文本中每句话的依存句法树。当然,这两个模块也可以采用其它方法完成分词、词性标注、以及句法分析的过程,对此本发明实施例不做限定。需要说明的是,所述整理模块704对于待处理文本中每句话的依存句法树,根据相同的原则去除其中的停用词,并将去除停用词后的节点进行连接。比如,根据右节点依赖左节点的原则,将去除停用词后的节点进行连接,或者根据左节点依赖右节点的原则,将去除停用词后的节点进行连接。另外,还要将去除停用词之前的每条边所表示的依存关系,全部转移到新生成的边上。另外,还可以将对应的依存关系重要度设置为新生成边上所有依存关系重要度的平均值,当然,也可以选择一个代表性的依存关系重要度作为新生成边的依存关系重要度。在实际应用中,所述热点分析模块706可以通过计算小世界网络中每个节点和/或边的重要度得分来进行热点分析。该模块的一种具体结构包括:依存频度计算模块、特征计算模块及重要度得分计算模块;所述特征计算模块包括:依存度计算模块和/或介数中心性计算模块。其中:所述依存频度计算模块,用于根据所述待分析依存句法树计算所述待分析依存句法树中每个节点和每条边的依存频度,所述节点的依存频度指所述待处理文本的所有待分析依存句法树中与所述节点相同的节点的重要度之和,所述边的依存频度指待处理文本的所有待分析依存句法树中出现的与当前边相同的所有边的依存关系重要度之和,所述相同边指所述边连接的节点相同;所述依存度计算模块,用于根据所述小世界网络计算所述小世界网络中每个节点和每条边的依存度,所述节点的依存度指所述小世界网络中与该节点相连的边的依存关系重要度之和,所述边的依存度指所述边连接的两个节点依存度的和;所述介数中心性计算模块,用于根据所述小世界网络计算所述小世界网络中每个节点和每条边的介数中心性,所述介数中心性指所述节点或边出现在所述小世界网络中其他任意两个节点的最短路径上的次数;所述重要度得分计算模块,用于根据所述依存频度及所述网络相关特征计算所述小世界网络中每个节点和/或边的重要度得分,所述网络相关特征包括:所述依存度、和/或介数中心性。相应地,上述热点信息获取模块707可以选择重要度得分大于设定阈值的节点或边所表示的词组的连接作为所述待处理文本中的热点信息;或者根据重要度得分由高到低选择设定个数的节点或边所表示的词组的连接作为所述待处理文本中的热点信息。本发明实施例的热点信息发现系统,根据依存句法分析进行小世界网络的构建,可以更好地保留原文本的语义信息。所述网络构建完成后,计算网络相关特征并排序,根据排序后的结果进行热点分析,根据热点分析结果得到待处理文本中的热点词汇相关信息,从而可以高效、准确地分析出待处理文本的热点信息,进而有效提升用户文本阅读的速度,节约阅读时间。需要说明的是,本发明实施例的热点信息发现方法及系统,可以应用于自然语言处理、信息搜索、信息处理等领域,可以高效准确地得到待处理文本中起重要作用的热点词汇相关信息。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3