一种动态多文档文摘建模方法

文档序号:6560470阅读:288来源:国知局
专利名称:一种动态多文档文摘建模方法
技术领域
本发明涉及一种动态多文档文摘建模方法。
背景技术
随着hternet的迅猛发展,网络信息日益剧增,面对互联网上90%以上的文本信息,如何有效地组织和分析信息、满足人们的需求、提高人们获取信息的效率,使信息过滤、 信息检索、自动文摘等技术成为研究的热点。文摘是以提供原文内容梗概为目的,简明、确切地记述原文主要内容的短文。文摘应客观、如实地反映原文的内容,但又比原文文字简洁。文摘可以使得人们能够很快地判断出原文中是否有感兴趣的内容,可以让人们很快找到自己真正需要的文章,而不必将时间浪费在相关文章的阅读上,大大提高人们获取信息的效率。自动文摘的目的就是以一种快速、准确地方式向用户提交简洁、全面的信息。在0时代,网络上的各种新闻、论坛、博客、在线聊天等信息跟静态网页信息相比体现出非常明显的动态演化性,网络信息随着时间的变化而出现、发展直至消亡,一个话题在不同的时刻具有不同的侧重点,而不同时刻的话题内容之间具有关联性,如何针对这类持续发展变化的话题或者事件提供动态摘要已经成为一个新的研究方向。传统的静态文摘方法只能对静态的话题内容生成文摘,无法满足网络环境下,动态演化的网络信息进行摘要的提取。因此,在微软和NIST等机构的倡导下,动态文摘问题在国际多文档理解会议(Document Understanding Conferences) DUC2007上首次提出。动态文摘是传统静态文摘的延伸和扩展,除了需要保证文摘信息的主题相关性和内容的低冗余性之外,还需保证针对内容的动态演化性分析历史信息和新出现信息的关系,消除旧信息,摘要新信息,使文摘信息随话题的演化而动态更新。传统的多文档摘要方法以句子或自然段落作为基本处理单元,通过计算各文本单元与当前主题的相关程度以及不同文本单元之间的信息重复程度,选取与主题相关度较高,与其余文本重复度较低的文本单元来生成摘要,以提高摘要信息的全面性,降低冗余度。然而,这种策略孤立地考察各个文本单元,难以从整个文档集的角度全局性地把握当前主题下的各个信息侧面(即子主题)的内容、分布以及关联情况,往往造成大量摘要片段来自同一个子主题的现象,严重影响摘要的全面性。

发明内容
本发明是要解决传统的多文档摘要方法难以全局性地把握当前主题下的各个信息侧面的内容、分布以及关联情况,而造成大量摘要片段来自同一个子主题的现象,从而严重影响摘要的全面性的问题,提供一种动态多文档文摘建模方法。本发明动态多文档文摘建模方法的具体步骤为步骤一、建立特征抽取模块,计算文档集合中包含主题词的句子的特征值;所述句子的特征值为句子的历史冗余性特征值、句子的显著性特征值、句子的时间特征值、句子的长度特征值和句子的位置特征值,所述文档集合由当前文档集合和历史文档集合组成;步骤二、建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合;步骤三、建立句子加权模块,计算动态句子集合中句子的权值;步骤四、建立文摘生成模块,生成最佳文摘;步骤五、使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。本发明使用的测试语料为TAC2008 CText Analysis Conference2008)的语料库, 该语料库中总共包含50个主题,每个主题为一个文档集合,每个文档集合包含20个文档且按时间顺序分为两个子文档集分别称为历史文档集合和当前文档集合,每个子文档集中包含10个文档。步骤一所述建立特征抽取模块,计算文档集合中包含主题词的句子的特征值的方法为步骤——、计算主题词W 的权值 Wgt (w) =Wgt (w) = (w) *IDF (w) *ISF (w);其中 TF(w)为主题词w的词频,IDF(W)为主题词w的反文档频率,ISF(W)为主题词w的反句子
频率;步骤一二、计算句子s的历史冗余性特征值NWgt(S)
权利要求
1.一种动态多文档文摘建模方法,其特征在于,该动态多文档文摘建模方法的具体步骤为步骤一、建立特征抽取模块,计算文档集合中包含主题词的句子的特征值;所述句子的特征值为句子的历史冗余性特征值、句子的显著性特征值、句子的时间特征值、句子的长度特征值和句子的位置特征值,所述文档集合由当前文档集合和历史文档集合组成; 步骤二、建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合; 步骤三、建立句子加权模块,计算动态句子集合中句子的权值; 步骤四、建立文摘生成模块,生成最佳文摘;步骤五、使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。
2.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤一所述建立特征抽取模块,计算文档集合中包含主题词的句子的特征值的方法为步骤——、计算主题词 w 的权值 Wgt (w) =Wgt (w) = TF(w)*IDF(w)*ISF(w);其中 TF (w) 为主题词w的词频,IDF (w)为主题词w的反文档频率,ISF(W)为主题词w的反句子频率; 步骤一二、计算句子s的历史冗余性特征值NWgt (s)YjWgt(Wj)一一NWgt(s)--) KlengtKsr count) ; s^表示历史文档集合中的句子,表示Iength(Si)句子s与句子Si的同现词,m为历史文摘中文摘句的总数,η为句子历史文摘中句子Si的同现主题词数量,Wgt (Wj)为主题词Wj的权重,Iength(Si)和Iength(S)分别为句子Si与句子s中的主题词词语总数,count为历史文摘句子集合中句子的总数量; 步骤一三、计算句子s的显著性特征值SWgt(s)TWgt(Wi)SWgt(sh t卢_;m为当前文档集合中句子的总数,n为句Iength(Si)子Si与句子s中同现的主题词总数,Wgt (Wj)为主题词Wj的权重,Iength(Si) length (s)分别为句子Si与句子s中的主题词词语总数,count为当前文档集合中句子的总数量;步骤一四、计算句子s的时间特征值TWgt (s) :TWgt(s) = 1/n ;其中,η代表按照发表时间排序后的文档集中句子所属文档的排序值;步骤一五、计算句子s的长度特征值LWgt(s)如果Length(s) > 0. 5*MaxLength,则 LWgt(s) = 1/(Length (s)-0· 5*MaxLength);如果 Length (s)彡 0. 5*MaxLength,则 LWgt (s) =1/(0. 5*MaxLength-Length(s));其中,Length (s)表示句子 s 的长度,MaxLength 表示当前文档集合中句子的最大长度;步骤一六、计算句子s的位置特征值PWgt(s) = 1/n ;其中,η代表句子s在其所属文档中的位置值。
3.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤二所述建立信息过滤模块,对文档集合进行信息过滤,得到动态句子集合的方法为首先根据句子s的历史冗余性特征值对当前文档集句子集合中的所有句子按从高到低进行排序,删除排序的前50个句子,得到动态句子集合。
4.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤三所述建立句子加权模块,计算动态句子集合中句子的权值的方法为步骤三一、计算动态句子集合中句子s的初值FWgt(S)
5.根据权利要求1所述一种动态多文档文摘建模方法,其特征在于,步骤四所述建立文摘生成模块,生成最佳文摘的方法为计算改进去冗余算法处理后的候选文摘句s的权值AZWgt(s), Σ wgt{W])AZWgt(S) = a * BZWgt(S) -β*^ -;其中 Wgt(Wj)和 Wgt(Wk)分别为主题词 %和 wk的权值,n为文摘句集合中的句子数量,Simcount为候选文摘句s和文摘句Si同现的主题词的数量,Count(Si)为文摘句Si的总的主题词数量,α =0.3,β = 0. 7 ;根据AZWgt (s) 的值对当前文档集句子集合中的所有句子按从高到低进行排序,取前300 400个字符,生成当前文档集合的最佳文摘。
全文摘要
一种动态多文档文摘建模方法,涉及一种动态多文档文摘建模方法。本发明是要解决传统的多文档摘要方法难以全局性地把握当前主题下的各个信息侧面的内容、分布以及关联情况,而造成大量摘要片段来自同一个子主题的现象,从而严重影响摘要的全面性的问题。具体步骤文档集合的预处理;建立特征抽取模块;建立信息过滤模块;建立句子加权模块;建立文摘生成模块,生成最佳文摘;使用输出模块将最佳文摘输出,即完成动态多文档文摘建模。本发明的方法使动态演化的文摘具有较高的信息新颖性和历史信息的演化性,进而提高动态文摘的性能。本发明方法获得的文摘全面性更高。应用于文摘抽取领域。
文档编号G06F17/30GK102254011SQ201110200590
公开日2011年11月23日 申请日期2011年7月18日 优先权日2011年7月18日
发明者刘美玲, 赵铁军, 郑德权 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1