专利名称:一种基于词汇链的关键短语抽取方法
技术领域:
本发明涉及一种关键短语抽取方法。
技术背景
随着网络的普及,人们每天接触的信息与日俱增,因此如何快速并准确的掌握大 量信息所描述的内容在人们的日常生活中变得越来越重要。关键词标注技术是上述问题的 一个很好的解决方案,好的关键词能够使读者快速掌握文章的主要内容,同时加深读者对 文章的理解。
关键词抽取一直是文本挖掘领域的主要研究问题,同时该技术还可以应用于其它 领域,例如大量的图书馆系统和信息检索系统使用关键词抽取技术构造文件索引;许多文 本挖掘系统以关键词所在的句子作为文摘句;很多聚类和分类算法也使用关键词算法构造 文章的特征向量以提高算法的准确度同时降低特征空间的维度。
目前多数关键词抽取算法是利用词的统计信息判断词的重要性,并选取超过一定 阈值的词作为文章的关键词。基于这种方法提出了多个关键词衡量函数,包括TF/IDF、熵函 数、分布系数等。许多机器学习算法也应用于关键词抽取中,例如朴素贝叶斯算法、C4. 5、决 策树和最大熵算法。上述算法通过训练语料获得抽取函数,然后选取能够使抽取函数得到 最大值的词作为关键词,然而由于中文文档包含信息的多样性,使得现实应用中很难获得 一个通用的抽取函数或模型用于关键词抽取,使得关键词无法确切的反映文章叙述的主题 信息。也有算法考虑了相似词在文中的分布情况,通过统计的方法抽取具有大量相似含义 词的特征词作为关键词,但是统计方法的计算量过大,并且需要大量的统计语料。现有的基 于词汇链的关键短语抽取方法虽然能有效解决上述问题,但是关键短语抽取的准确性及对 文档主题信息的覆盖性较低。发明内容
本发明是为了解决现有的关键词抽取方法无法确切反映文章叙述的主题信息,现 有的基于词汇链的关键短语抽取方法中关键短语抽取的准确性及对文档主题信息的覆盖 性较低的问题,提供一种基于词汇链的关键短语抽取方法。本发明的方法是基于计算机实 现的,该计算机中装有《知网》词典,该方法的具体步骤为
步骤一将待处理文章的文档作为抽取对象,在该文档中获取词义;
步骤二 使用词典《知网》对词语进行消歧,过滤掉《知网》中的抽象义原;
步骤三对消歧后的词语构建词汇链,获得词汇链集合L,并获得多个强链;
步骤四从每条强链中选择一个中心词,以这些中心词构成文档的中心词集合;
步骤五计算中心词集合中不同中心词间的同现率,选择同现率大于用户设定的 抽取阈值的中心词作为关键短语。
步骤一所述的获取词义的步骤为
步骤A 对文档进行分词和停用词过滤,得到文档的词空间Wordkt ;
步骤B 顺序扫描词空间WorcKet,逐一获取该词空间WorcKet中的每一个词的词 义,获取每个词的词义的过程为
步骤Bl 设文档中的词序列为M1、M2、M、M3、M4,其中M为当前待确定词义的词, M1、M2、M3、M4为M的上下文信息;
步骤B2 寻找一条从Ml开始到M4结束的连通分量,该连通分量的边的权值之和 最大,然后以此最大连通分量经过的M的义类作为M在此上下文中的词义。
步骤三所述的步骤三所述的获得强链的方法为
首先计算词空间WordSet中的每个词Mq与词汇链集合L中的每条链Lp的相似度, 如果最大相似度超过阈值则将Mtl插入到与Mtl具有最大相似度的链中,否则新建一条包含Mtl 的链,并将新建的链插入到词汇链集合L中;
其中Mtl为词空间WorcKet中的第q个词,Lp为词汇链集合L中的第ρ条词汇链;
然后计算词汇链集合L中每条词汇链的权重,取大于平均权重的词汇链作为强 链。
步骤四所述的从每条强链中选择一个中心词的方法为
以文档的平均词频为阈值,取大于平均词频的词作为文档的候选中心词,计算每 个候选中心词的权值Weight (Ci)ICW(Ci)I
Weight(G) = J] Weight(Wordi)x\og(\ CW(G) |)I=I
其中Ci为第i个候选中心词,该词对应的词类为CW(Ci),则ICW(Ci) I为候选中心 词Ci对应的词类CW(Ci)所包含的词数。Weight(Word1)为CW(Ci)包含的第1个词的权值;
然后选取大于平均权值的候选中心词构造文档的中心词集合,以每条强链的候选 中心词集合中的每个候选中心词作为聚类中心在文档内进行词聚类,以获得与候选中心词 相似的词语在词汇链内的分布情况,计算每个候选中心词对应的词类的词数,然后从每条 强链中选择一个对应的词类包含的词数最多的候选中心词作为该链的中心词。
本发明通过构造词汇链对文章主题进行分析,构造的多条链能够反映文章的多条 叙事线索,分析文中包含的多条主题线索,在此基础上选取能够充分代表这些主题线索且 富含更多信息的短语作为关键短语,使得生成的关键短语能够确切反映文章叙述的主题信 肩、ο
本发明的方法能够根据文章的主题分布动态确定输出短语的数目,使短语能够全 面覆盖文章描述的多个主题线索,并且不同短语描述不同的主题信息,可以有效避免特征 之间的冗余性,并能在一定程度上降低特征空间的维度,提升聚类的准确度。
本发明通过计算词语之间的相似度与相关度构造了多条词汇链,每条词汇链不仅 凝聚了含有相似信息的词语,并且也可将相关信息的词语凝聚到一起,这种词汇链构造方 法能够有效的反应文档的主题信息,提高关键短语抽取的准确性,仅需要少量的关键短语 就可以有效覆盖文档的主题信息,提高了关键短语抽取的速度,减少了对计算机资源的占 用时间。
图1为具体实施方式
一所述的基于词汇链的关键短语抽取方法流程图;图2为具体实施方式
二所述的词的义类关系图。
具体实施方式
具体实施方式
一结合图1说明本实施方式,一种基于词汇链的关键短语抽取方 法,是基于计算机实现的,该计算机中装有《知网》词典,方法的具体步骤为
步骤一将待处理文章的文档作为抽取对象,在该文档中获取词义;
步骤二 使用词典《知网》对词语进行消歧,过滤掉《知网》中的抽象义原;
步骤三对消歧后的词语构建词汇链,获得词汇链集合L,并获得多个强链;
步骤四从每条强链中选择一个中心词,以这些中心词构成文档的中心词集合;
步骤五计算中心词集合中不同中心词间的同现率,选择同现率大于用户设定的 抽取阈值的中心词作为关键短语。
本实施方式所述的文档是指待处理文章所包含的文字信息。
本实施方式步骤二所述的抽象义原为“属性”、“事件”和“实体”。
具体实施方式
二本实施方式是对具体实施方式
一所述的一种基于词汇链的关键 短语抽取方法中的步骤一做进一步的说明,步骤一所述的获取词义的步骤为
步骤A 对文档进行分词和停用词过滤,得到文档的词空间Wordkt ;
步骤B 顺序扫描词空间WorcKet,逐一获取该词空间WorcKet中的每一个词的词 义,获取每个词的词义的过程为
步骤Bl 设文档中的词序列为M1、M2、M、M3、M4,其中M为当前待确定词义的词, M1、M2、M3、M4为M的上下文信息,如图2所示,图2中的顶点代表每个词对应的义类,顶点 间的边为义类间的关联度;
步骤B2 从图2中寻找一条从Ml开始到M4结束的连通分量,该连通分量的边的 权值之和最大,然后以此最大连通分量经过的M的义类作为M在此上下文中的词义。
本实施方式的词义获取以《知网》作为语义词典,将《知网》中基本义原相同的一 个DEF集合视为词条的一个义类。
具体实施方式
三本实施方式是对具体实施方式
一所述的一种基于词汇链的关键 短语抽取方法中的步骤二做进一步的说明,步骤二所述的词典《知网》是一个词语数据库, 存储在计算机硬盘中。
具体实施方式
四本实施方式是对具体实施方式
一所述的一种基于词汇链的关键 短语抽取方法中的步骤三做进一步的说明,步骤三所述的获得强链的方法为
首先计算词空间WordSet中的每个词Mq与词汇链集合L中的每条链Lp的相似度, 如果最大相似度超过阈值则将Mtl插入到与Mtl具有最大相似度的链中,否则新建一条包含Mtl 的链,并将新建的链插入到词汇链集合L中;
其中Mtl为词空间WorcKet中的第q个词,Lp为词汇链集合L中的第ρ条词汇链;
然后计算词汇链集合L中每条词汇链的权重,取大于平均权重的词汇链作为强 链。
具体实施方式
五本实施方式是对具体实施方式
一所述的一种基于词汇链的关键 短语抽取方法中的步骤四做进一步的说明,步骤四所述的从每条强链中选择一个中心词的 方法为5
以文档的平均词频为阈值,取大于平均词频的词作为文档的候选中心词,计算每 个候选中心词的权值Weight (Ci)ICW(Ci)I
Weight(G) = J] Weight(Wordi)x\og(\ CW(G) |)I=I
其中Ci为第i个候选中心词,该词对应的词类为CW(Ci),则ICW(Ci)I为候选中心 词Ci对应的词类CW(Ci)所包含的词数。Weight(Word1)为CW(Ci)包含的第1个词的权值;
然后选取大于平均权值的候选中心词构造文档的中心词集合,以每条强链的候选 中心词集合中的每个候选中心词作为聚类中心在文档内进行词聚类,以获得与候选中心词 相似的词语在词汇链内的分布情况,计算每个候选中心词对应的词类的词数,然后从每条 强链中选择一个对应的词类包含的词数最多的候选中心词作为该链的中心词。
权利要求
1.一种基于词汇链的关键短语抽取方法,是基于计算机实现的,该计算机中装有《知 网》词典,其特征是,它的具体步骤为步骤一将待处理文章的文档作为抽取对象,在该文档中获取词义; 步骤二 使用词典《知网》对词语进行消歧,过滤掉《知网》中的抽象义原; 步骤三对消歧后的词语构建词汇链,获得词汇链集合L,并获得多个强链; 步骤四从每条强链中选择一个中心词,以这些中心词构成文档的中心词集合; 步骤五计算中心词集合中不同中心词间的同现率,选择同现率大于用户设定的抽取 阈值的中心词作为关键短语。
2.根据权利要求1所述的一种基于词汇链的关键短语抽取方法,其特征在于,步骤一 所述的获取词义的步骤为步骤A 对文档进行分词和停用词过滤,得到文档的词空间WorcKet ; 步骤B 顺序扫描词空间WorcKet,逐一获取该词空间WordSet中的每一个词的词义,获 取每个词的词义的过程为步骤Bl 设文档中的词序列为M1、M2、M、M3、M4,其中M为当前待确定词义的词,Ml、 M2、M3、M4为M的上下文信息;步骤B2 寻找一条从Ml开始到M4结束的连通分量,该连通分量的边的权值之和最大, 然后以此最大连通分量经过的M的义类作为M在此上下文中的词义。
3.根据权利要求1所述的一种基于词汇链的关键短语抽取方法,其特征在于,步骤二 所述的词典《知网》是一个词语数据库,存储在计算机硬盘中。
4.根据权利要求1所述的一种基于词汇链的关键短语抽取方法,其特征在于,步骤三 所述的获得强链的方法为首先计算词空间WordSet中的每个词Mtl与词汇链集合L中的每条链Lp的相似度,如果 最大相似度超过阈值则将Mtl插入到与Mtl具有最大相似度的链中,否则新建一条包含Mtl的 链,并将新建的链插入到词汇链集合L中;其中Mtl为词空间WorcKet中的第q个词,Lp为词汇链集合L中的第ρ条词汇链; 然后计算词汇链集合L中每条词汇链的权重,取大于平均权重的词汇链作为强链。
5.根据权利要求1所述的一种基于词汇链的关键短语抽取方法,其特征在于,步骤四 所述的从每条强链中选择一个中心词的方法为以文档的平均词频为阈值,取大于平均词频的词作为文档的候选中心词,计算每个候 选中心词的权值Weight (Ci)
全文摘要
一种基于词汇链的关键短语抽取方法,涉及一种关键短语抽取方法。本发明为了解决现有的关键词抽取方法无法确切反映文章叙述的主题信息,现有的基于词汇链的关键短语抽取方法中关键短语抽取的准确性及对文档主题信息的覆盖性较低的问题。具体步骤一、获取词义;二、使用词典《知网》对词语进行消歧;三、对消歧后的词语构建词汇链,并获得多个强链;四、从多个强链中选择中心词,构成中心词集合;五、计算中心词集合中不同中心词间的同现率,选择同现率大于用户设定的抽取阈值的中心词作为关键短语。本发明能够有效的反应文档的主题信息,提高关键短语抽取的准确性,仅需要少量的关键短语就可以有效覆盖文档的主题信息。应用于关键词抽取领域。
文档编号G06F17/30GK102033922SQ20101058734
公开日2011年4月27日 申请日期2010年12月14日 优先权日2010年12月14日
发明者刘秉权, 刘远超, 刘铭, 单丽莉, 孙承杰, 林磊, 王晓龙 申请人:哈尔滨工业大学