一种对文本中关键词重要性的排序方法
【专利摘要】本发明公开了一种对文本中关键词重要性的排序方法,该方法首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性,提高判断在文本中关键词重要性的准确度和可信度。
【专利说明】一种对文本中关键词重要性的排序方法
【技术领域】
[0001]本发明涉及一种对文本中的关键词的重要性的排序方法,该方法是综合利用关键词的词频、词项之间的共现关系和词共现的分布情况,计算文本中关键词的重要性,实现文本中关键词的重要性顺序。
【背景技术】
[0002]在文本处理领域中,提取文本中重要的关键词,然后用来代表该文本,再继续完成相应的任务。要想提取文本中重要的关键词,实质上是需要对关键词的重要性进行排序。在不引入外界知识的情况,依赖于关键词的词频、词项的共现关系判断关键词重要性方法,有二种:一种是,仅利用关键词的词频信息,判断关键词的重要性。具体是,主要是统计文本中关键词的词频,生成对应的词频向量,然后根据词频向量中值的大小对关键词进行排序,从而得到关键词的重要性顺序。另一种利用关键词的词项之间的共现关系,也是判断关键词重要性的一个重要依据。但是,前面所述的方法仅利用关键词的词频和词项之间的共现关系中的一种信息,依据一种信息对文本中的关键词重要性进行判断。显然,该方法会使关键词重要性的判断依据不全面,判断结果的可信度较差。
【发明内容】
[0003]本发明的目的在于针对目前在文本处理领域中对关键词重要性的判断存在的不足,提供一种对文本中关键词重要性的排序方法,该方法综合利用词频、词项之间的共现关系和词项的共现分布,计算文本中关键词的重要性,并根据关键词的重要性,对其进行排序,从而提高判断在文本中关键词重要性的准确度和可信度。
[0004]为了实现上述目的,本发明的构思是:首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现关系判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。
[0005]根据上面的发明构思,本发明采用下述的技术方案:
一种对文本中关键词重要性的排序方法,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A ;
(2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B ;
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C ;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为:
-1-,其中,η为关键词的个数;η
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F ;
(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量,记为G ;
(7)、利用TF-1DF计算公式中的IDF,对由关键词的共现矩阵因素和关键词的词频因素
生成关键词权重向量G上的各个元素分别乘以
【权利要求】
1.一种对文本中关键词重要性的排序方法,其特征在于,其具体步骤如下: (1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A ; (2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B ; (3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C ; (4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为: 其中,η为关键词的个数;η (5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F ; (6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量,记为G ; (7)、利用TF-1DF计算公式中的IDF,对由关键词的共现矩阵因素和关键词的词频因素生成关键词权重向量G上的各个元素分别乘以1αβ1((((?/;<)+Ι),则得到最终的关键词权重向量,记为H,向量H中元素的表达式为:
2.根据权利要求1所述的一种对文本中关键词重要性的排序方法,其特征在于,上述步骤(5)所述的对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下: (5-1)将关键词的共现矩阵C与关键词权重的初始向量D相乘,得到关键词的词项中间过渡向量,记为E ; (5-2)对关键词的词项中间过渡向量E进行归一化处理,并将归一化后的得到的结果向量,记为向量E’ ; (5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,则将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1)。
【文档编号】G06F17/30GK103744951SQ201410000706
【公开日】2014年4月23日 申请日期:2014年1月2日 优先权日:2014年1月2日
【发明者】陈雪, 汤文清 申请人:上海大学