一种基于词频和多元文法的新闻关键词抽取方法

文档序号:6613690阅读:316来源:国知局

专利名称::一种基于词频和多元文法的新闻关键词抽取方法
技术领域
:本发明属于文本挖掘领域,尤其涉及新闻文本挖掘。
背景技术
:关键词抽取是文本信息检索的一个重要研究课题。中文新闻的关键词抽取对于理解新闻的重要内容和实现相关新闻事件的精确检索有着极其重要的作用。文本关键词是指几个能对文本概述、与文本语义内容相关的词或短语。通过关键词,人们可以快速地查找所需要的信息。更进一歩,关键词还能为更深一层的文本挖掘应用提供丰富的语义信息,如文本分类、文本聚类、文本检索及主题挖掘等。目前国内外己有很多关键词抽取方法,并且已被广泛应用。但大部分的研究工作都集中在提高关键词抽取的准确率,没有仔细地研究什么词才是关键词,导致关键词定义的标准不统一,各种方法之间难以比较。另外关键词抽取的结果受分词系统质量的影响较大,在关键词抽取中,大多数的关键词抽取方法以分词作为处理的第一步,而分词过程出现的漏检和错误直接造成了文本后续处理的困难,亦因为这个原因,关键词抽取方法还要解决未登录词的抽取问题。针对这些问题,本文首先从语言学的角度对中文文本进行分析,提出我们对新闻关键词的定义规范。根据关键词的定义规范,基于ICTCLAS词法分析系统,我们统计关键词潜在的词性模式,分别采用了一元、二元及兰元文法在文本中挖掘候选关键词。为了修正分词的错误,我们提出了基于标题挖掘的方法來检测未被分词器发现的潜在关键词。最后对各候选词进行特征计算及拟合,取最高分值的五个词作为文本关键词。实验结果表明,该方法较baseline的结果有明显的提升。另外,我们还把该方法应用于新闻回溯事件检测中,实验表明关键词抽取能有效地提高该任务的效率和正确率。
发明内容本发明的目的在于提供一个新闻文本的关键词定义规范及抽取方法。本发明所提出的方法的思路在于首先通过对新闻文本语言学和语义特征的分析,给出新闻文本关键词的定义规范;然后根据这个定义规范,我们在文本中统计关键词的潜在词性模式,并提出以此词性模式为基础的一元、二元及三元文法的候选关键词挖掘方法,得出候选关键词列表。我们用基于标题挖掘的方法来检测未被分词器发现的潜在关键词,并将它们加入到候选关键词列表中。最后,通过对各候选关键词进行特征计算及拟合并得出分数,.分值最高的几个候选关键词将成为最终的关键词。所述方法是基于一个已经存在的社会网络依次按以下歩骤具体实现的,所采用的步骤框图请见图1,一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式。步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Wh0、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词。步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下-步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;步骤(2.3)分别釆用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,'作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词W按以下方法计算出下述八个特征值:词频分别以三个特征值w.Z/、w."/、terw5"wm表示w.(/iw在所在新闻文本中的出现次数。其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;W.rt/:W在所述某个新闻文本集中出现的总次数;to^&m:在所述某个新闻文本集中,基于该词W所属文法的一元/二元/三元文法字的词频总和;文本位置分别用w./"7We及w^F/rW表示,其中M/.&7Me:表示词w是否在新闻的标题中出现,Ma>77//e=0表是否,w.^ra/e=l表是肯定;MU力/^W:表示词W是否在所在新闻文本的第一段中出现,W.&F/raFO表是否,WJ>lFz'W/=l表是肯定;词性用W.户OS表示,指词W的词性;形态分另ll用呵WO、表示,其中-表示引用强调,是指词W是否被包括引号、书名号在内的符号括起来,W.^O-0表是否,表是肯定;W.W'^7:表示词W的长度,按式&—)=^("计算得出,其中JC为字词的长度,g=0;当25x58时,g(x)=/og2x;当x〉8时,g(;c)=3;步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理步骤(4.2.1)设定以下四个识别检测的指标最大重复设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S'的频率均小于S的频率,则S是最大重复的;完整设/7/,...,^为字串s在文本r中出现的A个不同位置,当且仅当下列条件同时成立时,S是完整的;1)至少有一个位置序号对(/,刀,15/</^:,使第(p,-7)个字与第fe-7)个字不同;2)至少有一个位置序号对("力,1^'</5々,使第to+问)个字与第(^+刚个字不同,其中问为字串S的长度值;稳定度设<formula>complexformulaseeoriginaldocumentpage9</formula>,则s的稳定度定义为認(s)-〈5,&<formula>complexformulaseeoriginaldocumentpage9</formula>分别是s,^在潜在关键,词所在文本中出现的频率;相对频率设S是潜在关键词文本中的一个字串,则S的相对频率为^h,w为该文本中所出现的所有词。/Tw)为词w在该文本中出现的频率;步骤(4.2.2)根据以下4个必须同时满足的条件,把标题中的潜在关键词字串挖掘出来1)不能是单个字;2)必须是最大重复的和完整的;3)稳定度至少为L当字符数为2时,f=0.38;当字符数为3时,^=0.67;该字符数有其他值时,/=0.8;4)频率至少为3,相对频率大于等于0.021。然后,把潜在关键词作为候选词,加入到关键词候选集中,把这些潜在关键词的特征值算出,对标题中其他已被ICTCLAS分词工具发现的及不适合的词去掉;步骤(5)计算机按下式进行特征拟合,根据计算出的特征分值ww^〖Wj得出候选关键词的排名次序所有候选关键词集合中,各个关键词的特征分值scwe〖W按下式算出<formula>complexformulaseeoriginaldocumentpage9</formula>其中仏。和b分别是w.r/,fm^wm,w."/的权重,具体为/尸0.99,,fl.O,公式中<formula>complexformulaseeoriginaldocumentpage10</formula>是一组特征。w.〖"7We的权重^7),fe=2.3;w.《wo的权重^。=2.3;■w.Z"Fz>W的丰又重/^f>w=0.01;wig"的权重^砂=0.85;W.刀为F中的某一特征;r./为相应特征w./的权重。从而得到各项候选词的一个特征分值^WefW);步骤(6)计算机优化结果,得出关键词。步骤(6.1)对特征分值最高的5个关键词按下述方法进行评测;步骤(6.2)删除单项特征过低,以及存在包含或重复现象的关键词,使最终所得.关键词保持各项特征分值均达到优良;步骤(6.2.1)稳定度的要求和字串的长度相关,越长的字串,它的稳定度要求越严格,检测词的稳定度,按照下述标准删除稳定度过低的词;1)候选词的二元及三元文法中的长度大于5且稳定度少于0.8的词;2)稳定度少于0.5且词频太低,或是没有在标题或第一段中出现的词;步骤('6,2.2)检测关键词之间是否存在重叠或包含的现象,如果存在,则会根据下述标准决定是否删去其中的一个词,为了便于叙述,在这単我们统称存在重叠或包含现象的两词中长度值较大的词为长词,长度值较短的词为短词;1)被引用强调的词优先保留,2)若长词的特征分值高于短词的特征分值a)保留长词;'b)若长词被引用强调,长词的词频小于短词的词频,短词的长度大于l,长词为一元文法的词,以上四个条件同时成立时,则短词也被保留;3)若短词的特征分值高于长词的特征分值-a)若短词的长度等于l,长词被引用强调,短词是实体关键词或主题关键词,长词的词频小于短词的词频,以上四个条件中任意某一个条件成立时,则保留长词,去掉短词;否则b)若长词是通过新词发现找到的,或是三元文法的词,则去掉长词;否则C)同时保留长词和短词;步骤(6.3)把特征分值次低的关键词前移一位,重新执行步骤(6.2),直到最高特征分值的5个关键词同时满足要求或无候选关键词为止。本发明所提出的一种基于词频和多元文法的新闻关键词抽取方法的突出贡献在于,我们不仅提出了关键词抽取的方法,还给出了新闻文本关键词的定义规范。在采用多元文法进行候选词抽取时,有别于一般没有考虑词性的多元文法抽取方法,我们引入了关键词的潜在词性模式的概念,使抽取出的候选关键词更加准确。另外,我们提出了基于对新闻标题进行挖掘的潜在关键词发现方法,能有效地发掘未登录的关键词。本发明中的抽取方法应用性广,可供新闻资料社、讨论区等存有大量文本信息的地方使用,对领域中的文本处理研究也提供了一种预处理的工具。图1.系统的整体框图2.关键词抽取系统的硬件结构图3.关键词抽取方法的实现效果;具体实施例方式该方法包括如下步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的定义规范(1.1)研究关键词的特征词性本部分内容是由人工对某个新闻文本集进行语言学和语义特征的分析,参考现时网上常见的文本及关键词,结合新闻六要素,总结出新闻关键词的几大类型。新闻文本通常包括新闻事件,而新闻事件一般都包括5W1H六要素,分别是"When,What,Who,Where,Why和How"。而这六要素也正是人们所关心的,新闻关键词应尽量和六要素相关,可以说,六要素是关键词抽取的目标。通过对新闻文本进行分析,我们总结了新闻六要素的潜在词性,即六要素在句子中可能的词性及句子成分,如表1所示。表1.5W和1H的潜在词性<table>complextableseeoriginaldocumentpage12</column></row><table>通过考察词在文本中的词性特征,可容易地区分出它是那一类关键词。更重要一点是,它述可以有效地区分什么词不是关键词。考察表l,'可知关键词的潜在词性主要有四大类,分别是名词、修饰语、名词短语及动词短语。因此,在进行关键词抽取时,文本中非上述词性的词可以滤掉,、例如一些虚词、数量词、拟声词等。这样,我们就可以通过考查词性,初步定义了关键词的潜在词性,过滤了一些没用的词,同时,表l也从语自'学上解释了为什么这些词应该滤掉。(1.2)统计并提取出关键词的潜在词性模式。根据1.1中总结的关键词类型,可知关键词的潜在词性主要有四大类,我们利用ICTCLAS'分词工具对新闻文本进行词性标注,然后分别采用以分词器切分出来的词为单位的一元、二元及三元文法在新闻集中统计出这四类关键词的多元词性模式,如表2所示,我们把这些词性模式称为关键词的潜在词性模式,它将成为抽取候选关键词的依据。表2常见的关键词种类及其潜在词性模式<table>complextableseeoriginaldocumentpage12</column></row><table><table>complextableseeoriginaldocumentpage13</column></row><table>表2能较全面的对现时常见的关键词从词性方面作出归纳定义,可能说是一个判断一个词在文本中是否关键词的初步指标。除此之外,新闻中的关键词还应该容易被人们所理解,语义明确。为了降低关键词的异义性,本发明规定除了个别化学元素、动植物统称及其他专有名词外,关键词不能是单个字。另外,除了节假日外,人们一般不会对特定的'日期、时间感兴趣,因此,除非文本确实强调某个具体时间,否则如"2003年"、"三月"等词不应是关键词。以上这些都是本发明中关键词定义规范的内容,而此部分内容将为下一步的关键词抽取作出指导工作。(2)根据潜在词性模式提取候选关键词这是待抽取新闻的预处理过程。算法获得一篇完整的新闻文本后,会先把新闻文本分段利用ICTCLAS进行分词及词性标注,根据我们对关键词的潜在词性模式等定义规范,去掉.一些不符合定义规范的词(例如一些虚词、数量词、拟声词等)及停用词,然后分别采用以分词器切分出來的词为单位的一元、二元及三元文法在文本中挖掘符合表2的词性模式的词,作为本发明的候选关键词(下简称作"候选词")。(3)特征计算这里我们会先对此时的候选词进行部分特征的计算。除词性外,我们从词的词频、出现位置及形态三方面考虑,为每个词设置了八个特征值,所有特征及计算方法如表3所示。表3.特征及其计算方法<table>complextableseeoriginaldocumentpage14</column></row><table>根据词的长度设置的特征值vv.w'^,表示该词所包括的信息量。其值通过公式&(w)=g(x)计算,其中;c为字词的长度,^0>=0;当2S《8时,g(x)=/og2x当x>8时,g(x)=3.特征计算过程还负责对一些时间词、地点词等进行归一化处理,如"圣诞"及"圣诞节"、"北京"及"北京市",这些词在同一篇新闻中出现,其实是同一个概念,本文根据它们的常用程度w.rt/及在文中的出现频率w.《,将其中一个的词合并到另一个词中,频率相加,其他特征的合并以强特征的为准。如其中一词W.,O为l,则合并后的H^WO也为1。此部分所计算的特征值将作为之后评分公式中的参数使用。(4)基于标题挖掘的方法来检测潜在关键词。新闻文本中经常会出现分词器字典中没有的未登录词,这些词很多时不能被分词工具正确处理而遭到破坏或过滤。为了解决未登录的关键词的抽取问题,本发明设置了基于标题掘挖的新词发现机制。我们把没有被分词器正确处理的却又可能是关键词的词认为是潜在关键词,这些词可分为两类,一类是被引号或书名号括起来的词,如"恶性打折"、《计算机科学》等,这些词应该是一个整体,但分词程序可能会把它们从中折断。检测这种词的方法十分简单,我们同时在标题和正文中挖掘它们并把它们作为候选词。另一种潜在关键词则多数是新出现的简略语或专有名词,不像第一种词,这些词没有像引号、书名词的符号作为分词标记,由于中文文本中的词之间并没有明显的符号分隔,文本中的连续几个字都可能是新词,因此我们引入了最大重复、完整、稳定度及相对频率四个指标来衡量这些词。并定义了潜在关键词必须满足的条件。指标的定义如下最大重复设S是文本中的一个字串。若字串S的频率至少为1且S的任意子串S'的频率均小于S的频率,则S是最大重复的。完整设A,...,外为字串S在文本r中出现的A:个不同位置,当且仅当下列条件成立时,S是完整的。1)至少有一("力对,W</^,使第(p,-/)个字与第fe-/)个字不同;2)至少有一("力对,W</^,使第fe+问)个字与第fe+l邻个字不同,其中问为字串S的长度值。稳定度设S=......&",则S的稳定度定义为M(S)=/(&)+)—/(。,&=,,c/c2......cw",5^-"C2......cp",/(SV,/f5^/T5V分别是S,^在文本中出现的频率。相对频率设S是文本中的一个字串,则S的相对频率为^y,w为文本中所出现的所有词。/(V)为字串w在文本中的频率。由于潜在关键词大部分都会在标题中出现,因此我们也只在标题中挖掘它们。根据上述4个指标,我们定义了潜在关键词必须满足的条件1)不能是单字;2)必须是最大重复的和完整的;3)稳定度至少为/。当字符数为2时,/=0.38;当字符数为3时,/=0.67;其他字符数,/=0.8;4)频率至少为3,相对频率大于等于0.021。其中,稳定度的数值是通过实践经验设置的,字符串越长,稳定度要求越高。相对频率的阈值也是由实践经验得出的。需要注意一点是,虽然新词主要是在标题中挖掘的,但四个指标中的频率是在整个文本中计算的。即最大重复、稳定度、相对频率中的频率均是在全'文中计算的,指标"完整"中的文本r也是指整个新闻文本。我们把满足以上4个条件的字串从标题中挖掘出来,把里面已经被分词工具发现的及不适当的词去掉,最后把这些字串作为候选词加入到候选词集中,并把这些词的特征值补上。(5)特征拟合,得出候选词排名特征拟合可以简单地理解成对候选词进行评分,其目的是为各候选词计算一个用作衡量该词能否成为最终关键词的数值,称为特征分值,本发明用的特征拟合公式是基于tf/idf公式扩展并加权得出的,计算如公式(1)所示公式(1)是对单文本词汇频率/逆文本频率值(tf/idf)扩展而得到的,我们修改了原tf/idf公式中的idf项,增加了有关特征计算的特征项。我们根据每个特征的特点,给出不同的.加权方法。公式中,F={intitile,quo,infirs,sign}是一组特征,tf1力是它们的权重。t1,^t2t3分别是w.tf,tomS應浙w.rf/的权重。根据多次分层实验调试,我们把O,CG'W),^/,,Wvw,/叫打的值分别设为0.99,1.0,0.95'2.3,2.3,0.01'0.85,其他参数的计算请参考表3。各候选词经过特征拟合后均得到一个特征分值,之后,本发明会按照特征分值,由高至低将候选词排序,得出关键词排名。(6)结果优化,得出关键词根据评分及排名方法可知,排名越前的候选词越有可能成为最终的关键词。在结果优化阶段,我们对分值最高的五个候选词重新进行评测。包括评测它们的完整性、稳定度、是否有某个单项特征过低等。另外,我们还会检査最后各关键词之间是否有包含或重叠现象,通过对它们的长度、频率等特征进行比较,决定是否删去其中的一个词。l).检测词的稳定度在新词发现^.制中,本文已经介绍了词的稳定度这个概念,它的计算公式如下由于新词是由几个连续的字所组成的,而稳定度是衡量这个字串是否一个词的重要指标,它指示这个字串中的字是经常出现还是偶然、碰巧地连在一起。而本方法在生成候选词时使用了二元文法及三元文法的潜在词性模式来合成名词或短语,方法需要衡量这个合成出来的字串是否一个词,参考了前面定义的稳定度,我们也用了这个准则来衡量这些合成词的稳定度,但公式中的&及&的定义和原式的有所不同。对于二元的合成词,设它的模式为"wordl+word2",则S^wordl,S^word2。对于三元的合成词,设它的模式为"wordl+word2十word3",贝ij5"i=wordl十word2,Sfword2+word3。如新词发现里所述,稳定度的要求和字串的长度相关,越长的字串,它的稳定度要求越严格。我们把候选词的二元及三元文法中的长度大于5且稳定度少于0.8的词删掉。对于稳定度少于0.5且其他特征过弱(如词频太低,或是没有在标题或第一段中出现)的词也会删掉。2)字符重叠这步骤是检测最高分值的5个词是否有互相包含的关系。如果有,则会根据具体情况,通过对它们的长度、频率等特征进行比较,决定是否删去其中的一个词。假设现有存在重叠或包含现象的两,其中长度值较大的词简称为长词,长度值较小的词简称为短词,判断的具体准则如下a)被引用强调的词优先保留,b)若长词的特征分值高于短词的特征分值-保留长词-若(长词被强调引用)&&(长词的词频小于短词的词频)&&(短词的长度值大于1)&&(长词为一元文法的词),则短词也被保留,其中"&&"为表示"并且"的符号;C)若短词的特征分值高于长词的特征分值_若(短词的长度值等于l)ll(长词被强调引用)ll(短词是实体关键词或主题关键词)li(长词的词频小于短词的词频),则保留长词,去掉短词,其中"II"为表示"或者"的符号;否则-若长词是通过新词发现找到的,或是三元文法的词,则去掉长词;否则_同时保留长词和短词。除此之外,属性关键词的要求会比实体关键词及主题关键词的要求严格。如属性关键词在文集里总频率过低,特征性过弱或者特征为0,稳定度或分数过低,则也会被从候选词列表中移除。在整个结果优化阶段,不合格的词会被删除,分数比它低的候选词排名会向前移一位,新进前五的候选词继续被检查。最后,直到最高分的五个候选词均附合要求或再没有候选词时,剩下的词则为关键词。整个关键词抽取系统的框图可参考图1所示。利用上述步骤(1)_(6),创建了一个从新闻文本中抽取出关键词的系统。本发明所有实验用Java编程实现,测试页面使用了html及jsp,并在配置为IntelPM1400MHZ,768M内存的笔记本电脑上运行。硬件结构图如图2所示。(1)文本集及测试集的建立我们收集了27612篇覆盖不同范畴的新闻文本作为文本集,用于进行新闻文本分析,及统计关键词的潜在词性模式、w."/和^my廳。期后,我们从中删除一些不合格新闻文本(只有新闻标题、改稿通知、新闻目录等),最后得到19947篇新闻作为测试集I。在测试集I中,随机选取400篇新闻文本作为测试集II,手工抽取并标记它们的关键词。标记关键词的数目一般为5,个别信息量少的文本可根据情况少标一些,但关键词的数目至少为3。测试集I及II将作为本发明的效果评估实验的实验集。(2)抽取方法实施这里以文本库中的一篇新闻文本作为例子说明抽取的步骤(注此新闻源自新华社,新闻全文可参考此链接http:〃www.cnwnc.com/20050421/cal561711.htm),图3是用作观察抽取结果的web页面,抽取效果如图所示,步骤如下1)提取候选词集,并进行特征计算根据本发明的方法,对图3中的新闻文本进行分词及标注后,初歩提取出的候选词集如下一元候选词网络实验室开放式体现系统技术全球状态相当围绕工程汽车优越性合作建立人才目前中国原型智能大学近期院长参与应用展开Windows力量总裁专业交通重要性同济通讯设备开始储备形成丌发嵌入研发建设车辆快速中心终端车载服务推动软件培训培养Embedded研究院放在科研监控研究重心电子发展新兴环境无缝透露CE致力亚洲课程信息计算选择具备共建课题能力关键学院表示高层次需求双方跨学科移动未来日前二元候选词科研能力是全球大学电子WindowsEmbedded同济大学科研重心系统研究软件学院课程建设人才储备软全球研究院院长开放式实验室和人才无缝计算设备需求沈向洋计算环境关键技术亚洲研究院网络技术汽车学院交通信息研发力量专业人才技术中心状态监控移动交通监控系统Windows移动WindowsCE智能设备车辆状态张亚勤工程学院信息工程和重要性快速发展近期科研嵌入式大学共建新兴应用合作建立车载终端信息系统三元候选词状态监控系统无缝计算环境移动交通信息近期科研重心车辆状态监控信息系统研究亚洲研究院院长交通信息系统同济大学共建信息工程学院同济大学电子2)标题挖掘,提取出新词"微软"3)进一步筛选候选词及对各词评分,得到候选词排名排名列表如图3中关键词抽取结果中最左一列所示(只列出了部分,排名在后的在页面下方,向下滚动即可查看),该列中己把多元词及新词加入进去,每个词后面列出了若干特征,顺序是词性、w.tf、w.ctf、特征分数、是否在标题中出现(l位,0或1)、是否被引用强调(l位,0或1)、是否完整(true或false)及它的稳定度,另有一些特征没有列出。4)结果优化及关键词输出,名最前的五个词中,词频、完整性及稳定度(其中,外文windows作为一个单词)等都符合要求,相互之间也没有重叠,结果优化后,最后的关键词抽取结果为"嵌入式"、"微.软"、"技术中心"、"Windows"及"同济大学"。与文本的主题贴切,均可被视为正确的关键词。其中包括二元词"嵌入式"、"技术中心"及"同济大学",外文一元词"Windows"及新词"微软"。'为了评测我们发明的新闻文本关键词抽取方法,我们设计了如下的实验,其中,实验的文本集构成在上文中已说明。(3)实验衡量的准则我们以査准率precision、查全率recall和F/-Morn^来评价实验结果,具体定义如下査准率precision:户=系统正确抽取的关键词数目/系统抽取出的关键词数目查全率recall:i=系统正确抽取的关键词数目/标准关键词的数目Fl-Measure:Fl=2P//(户+(4)实验结果我们首先在测试集I上执行程序,得到关键词的分布结果,如表4所示。该表表明超过75%的关键词来自一元文法模型,通过二元和三元文法得到的占了18.59%的关键词。而通过新词挖掘得到的关键词大约有6%。这表明我们采用的多元文法模型抽取及新词挖掘方法是有理及有效的。表4.测试集I的关键词分布情况<table>complextableseeoriginaldocumentpage15<table>其后,我们在测试集II上执行程序,并将结果与Baseline方法进行比较,这里的Baseline方法即基于tf/idf的传统方法。这样可以通过实验得出我们的方法使用的各种策略对结果提高了多少。Baseline方法的计算公式如公式2所示,且不涉及多元文法、新词发词及结果优化。表5则是两种方法的评测结果。<formula>complexformulaseeoriginaldocumentpage21</formula>公式(3)表5.与baseline的结果比较<table>complextableseeoriginaldocumentpage21</column></row><table>在表5'中有两组实验结果分别对应两种方法,每一组结果列出了抽取不同关键词数目(从上到下,由1到5)的査准率和查全率,Fl-measure则只列出了抽取5个关键词时的结果。对比baseline,我们的方法能有效地提高关键词抽取的查准率及查全率,在抽取关键词数目为5时,Fl-measure由49.18%增加至74.18%。另外,我们也就方法的时间开销问题单独做过实验,实验证明我们的方法与Baseline方法的效率相当,策略的引入并没有导致过大的时间开销。结论从实验结果可以看出,我们的方法在实验集中明显优于baseline方法。实验表明,我们提出的新闻文本关键词抽取的方法是切实有效的。权利要求1、一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值词频分别以三个特征值w.tf、w.ctf、termSum表示w.tfw在所在新闻文本中的出现次数,其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;w.ctfw在所述某个新闻文本集中出现的总次数;termSum在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三元文法字的词频总和;文本位置分别用w.inTitle及w.inFirst表示,其中w.inTitle表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;w.inFirst表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;词性用w.POS表示,指词w的词性;形态分别用w.quo、w.sign表示,其中w.quo表示引用强调,是指词w是否被包括引号、书名号在内的符号括起来,w.quo=0表是否,w.quo=1表是肯定;w.sign表示词w的长度,按式Se(w)=g(x)计算得出,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x;当x>8时,g(x)=3;步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理步骤(4.2.1)设定以下四个识别检测的指标最大重复设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的;完整设p1,p2,...,pk为字串S在文本T中出现的k个不同位置,当且仅当下列条件同时成立时,S是完整的;1)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pi-1)个字与第(pj-1)个字不同;2)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pj+|S|)个字与第(pj+|S|)个字不同,其中|S|为字串S的长度值;稳定度设S=”c1c2......cp”,则S的稳定度定义为<math-cwu><![CDATA[<math><mrow><mi>MI</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>L</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>S</mi><mi>R</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>f</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></math>]]></math-cwu><!--imgid="icf0001"file="S2007101770742C00021.gif"wi="172"he="32"img-content="drawing"img-format="tif"/-->SL=”c1c2......cp-1”,SR=”c2......cp”,f(S),f(SL),f(SR)分别是S,SL,SR在潜在关键词所在文本中出现的频率;相对频率设S是潜在关键词文本中的一个字串,则S的相对频率为w为该文本中所出现的所有词。f(W)为词w在该文本中出现的频率;步骤(4.2.2)根据以下4个必须同时满足的条件,把标题中的潜在关键词字串挖掘出来1)不能是单个字;2)必须是最大重复的和完整的;3)稳定度至少为t。当字符数为2时,t=0.38;当字符数为3时,t=0.67;该字符数有其他值时,t=0.8;4)频率至少为3,相对频率大于等于0.021;然后,把潜在关键词作为候选词,加入到关键词候选集中,把这些潜在关键词的特征值算出,对标题中其他已被ICTCLAS分词工具发现的及不适合的词去掉;步骤(5)计算机按下式进行特征拟合,根据计算出的特征分值score(w)得出候选关键词的排名次序所有候选关键词集合中,各个关键词的特征分值score(w)按下式算出全文摘要一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理
技术领域
,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。文档编号G06F17/30GK101196904SQ20071017707公开日2008年6月11日申请日期2007年11月9日优先权日2007年11月9日发明者杰唐,鹏张,军李,李涓子,樊绮娜,斌许申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1