专利名称:一种基于突破点的新闻话题时间线摘要生成方法
技术领域:
本发明涉及计算机应用技术的技术领域,具体地涉及ー种基于突破点的新闻话题时间线摘要生成方法。
背景技术:
在当今信息爆炸时代,人们可以从互联网上免费阅读、下载关于一个新闻话题的各类新闻报道。由于网络上关于ー个新闻话题(尤其是热点新闻话题)的相关新闻文章数量非常多,导致读者很难从众多相关的新闻报道中高效、省时地了解目标新闻话题的发展趋势和演变过程。新闻话题时间线摘要生成问题的难点包括如何从ー个新闻话题相关的新闻报道中确定该话题发展过程中的重要时间点(即突破点),以及如何根据ー个突破点的相关新闻生成时间线摘要。下面分别说明现有技术中的方法a)突破点挖掘的相关工作目前已知的方法包括四种,分别如下I.基于新闻数量该方法首先统计每个时间点上目标话题的相关新闻数量,然后将新闻话题数量最多的若干时间点作为该话题发展过程中的突破点。使用该方法获得ー个话题的所有突破点中,有很多突破点并非该话题的重要时间点。由于新闻报道具有“突发性-多祥性”的特点,因此新闻报道多的时间点并不一定就是该话题的重要时间点。2.基于事件监测该方法首先从各时间点上的新闻文章中依次检测出一系列与目标话题相关的新闻事件,然后将每个新闻事件发生的时间点作为目标话题的突破点。由于ー个新闻话题的大部分相关事件都不是该话题发展、演变过程中的重大事件,因此使用该方法获得ー个话题的所有突破点中,有很多突破点并非该话题的重要时间点。3.基于情感倾向波动该方法首先从每个时间点上的相关文章中抽取出人们在本时间点对目标话题的情感倾向及強度,然后通过分析人们在各时间点上对目标话题的情感倾向及強度波动的情况,挖掘出目标话题的突破点。该方法由于依赖人们对目标话题的情感变化趋势,因此不适用于分析新闻报道这种主要描述事实、主观性很弱的文章体裁。4.基于文档相关度该方法由Google公司开发,并曾经被用于Google News Time line(谷歌新闻时间线)网络服务。由于该方法的实现细节从未公开,且Google News Timeb line服务已经于2011年7月份被Google公司永久性关闭,因此可以认为该算法已经不再使用。 b)突破点摘要生成的相关工作
目前已知的方法包括三种,分别如下I.基于神经网络该方法将摘要生成过程用ー个自组织神经网络建模,将所有摘要候选句作为神经网络的输入,通过不断迭代计算神经网络的边权重,最终输出本突破点摘要的句子子集。2.基于图结构
该方法首先将突破点当天发表的新闻文章中的所有句子置于ー张无向有权图中,结点表示句子,边表示两个句子间的相似度,边的权重为相似度大小。然后通过随机游走方式从图中选出信息量最大、冗余度最小的句子集合作为该突破点的摘要。3.基于优化算法该方法将摘要生成过程建模为ー个线性优化问题,其中每个变量代表ー个摘要候选句,优化受限条件为句子冗余限制,优化目标为摘要所包含的最大信息量。通过迭代优化的方式计算出优化目标收敛时突破点摘要所包含的句子集合。上述三种方法在生成突破点摘要时均未考虑突破点当天发生的相关重大事件,而是仅仅考虑选出那些信息量大且冗余度小的句子,因此无法保证生成的摘要与突破点本身密切相关。综合以上所列相关工作,基于突破点的新闻话题时间线摘要生成方法的一般流程如图I所示。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种自动、高效率地挖掘出目标新闻话题发展过程中的重要时刻及所发生的重大事件、从而极大地帮助了读者了解一个新闻话题的演变过程的基于突破点的新闻话题时间线摘要生成方法。本发明的技术方案是这种基于突破点的新闻话题时间线摘要生成方法,包括以下步骤(I)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库;(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;(3)在目标话题活跃的各时间片段中,首先利用步骤(2)话题活跃度隐马尔科夫模型从对应的新闻语料中挖掘出各个主题,然后利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模,并计算各个主题在每个时间点上的強度,最后通过分析各主题在时间线上的強度波动模式,挖掘出目标话题的突破点;(4)对每个挖掘出的突破点,通过匹配主题关键词与新闻文章中句子的吻合程度,抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;(5)输出目标话题的时间线摘要。本方法采用“分而治之”的策略,通过划分时间片段、并行地在各片段内挖掘突破点并生成摘要,使得整个时间线摘要生成方案较之普通的、在整个话题时间周期上挖掘突破点的方案更为高效、快速;本方法以话题波动模式为依据、而非以新生事件为依据挖掘突破点,由于大部分话题相关的新生事件都不是该话题的重要事件,因此本方法挖掘突破点的准确率要远高于普通的、以新生事件为依据挖掘突破点的方法。
图I是现有技术的基于突破点的新闻话题时间线摘要生成方法的流程图;
图2是根据本发明的基于突破点的新闻话题时间线摘要生成方法的流程图;图3是本发明的步骤(2)的流程图;图4是本发明的步骤(3)的流程图;图5是本发明的步骤⑷的流程图。
具体实施例方式下面对本发明的技术方案做进ー步的详细描述。如图2所示,这种基于突破点的新闻话题时间线摘要生成方法,包括以下步骤(I)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库;(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;(3)在目标话题活跃的各时间片段中,首先利用步骤(2)话题活跃度隐马尔科夫模型从对应的新闻语料中挖掘出各个主题,然后利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模,并计算各个主题在每个时间点上的強度,最后通过分析各主题在时间线上的強度波动模式,挖掘出目标话题的突破点;(4)对每个挖掘出的突破点,通过匹配主题关键词与新闻文章中句子的吻合程度,抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;(5)输出目标话题的时间线摘要。本方法采用“分而治之”的策略,通过划分时间片段、并行地在各片段内挖掘突破点并生成摘要,使得整个时间线摘要生成方案较之普通的、在整个话题时间周期上挖掘突破点的方案更为高效、快速;本方法以话题波动模式为依据、而非以新生事件为依据挖掘突破点,由于大部分话题相关的新生事件都不是该话题的重要事件,因此本方法挖掘突破点的准确率要远高于普通的、以新生事件为依据挖掘突破点的方法。优选地,如图3所示,步骤(2)包括以下分步骤(2. I)将目标话题的整个时间周期切分为多个指定长度的时间片段;(2. 2)分别统计每个时间片段内的新闻文章数量和新增信息量,新增信息量为本时间片段单词分布与前一时间片段单词分布的库贝克-莱布勒Kullback-Leibler散度值,然后将新闻数乘以新增信息量作为本时间片段的修正新闻数量;(2. 3)利用动态规划法将各时间片段的修正新闻数量划分到若干个桶中,要求所有桶的最大扩散度最小,一个桶的扩散度指该桶内修正新闻数量的最大值与最小值之差,然后计算每个桶内修正新闻数量的平均值,作为该桶内各时间片段的期望新闻数量;(2. 4)构建话题活跃度隐马尔科夫模型,其中可观值为各时间片段内的新闻数量,隐藏值为各时间片段对应的话题活跃度层次,发射概率为泊松分布,转移概率由鲍姆-威赫Baum-Welch算法获得,然后利用维特比Viterbi算法计算并输出各时间片段的话题活跃
度层次。优选地,如图4所示,步骤(3)包括以下分步骤(3. I)利用话题活跃度隐马尔科夫模型从每个话题活跃的时间片段对应的新闻文章中挖掘出各个主题;(3. 2)构建主题转换隐马尔科夫模型,其中可观值为本时间片段内各文档中的单词组成的单词序列,隐藏值为每个单词对应的主题构成的主题转换序列,发射概率为话题模型中的话题产生单词的概率分布,转移概率由Baum-Welch算法获得,然后利用Viterbi算法计算本时间片段内的主题转换序列;
(3. 3)将每日一个主题产生的单词数与该日单词总数之比作为该主题在当天的强度值,由此计算毎日所有主题的强度值组成的強度向量;(3. 4)将每日主题的强度向量与后一日主题的强度向量的詹森-香农Jensen-Shannon散度值作为该日的主题强度波动值,如果该日的主题强度波动值大于前ー日和后一日的主题强度波动值,则判定该日为目标话题的突破点;对于ー个时间片段内最早和最晚的那几天,如果该日強度最大的主题的强度值大于本时间片段内各日的主题最大强度值的平均值,则判定该日为目标话题的突破点;然后输出各时间片段的目标话题突破点。优选地,如图5所示,步骤(4)包括以下分步骤(4. I)对于每个突破点,从当天发表的每篇新闻文章中抽取摘要候选句,摘要候选句包括新闻标题句和新闻正文首句;(4. 2)从各新闻候选句中抽取出信息词,信息词包括名词、动词、形容词和副词;(4. 3)利用各句的信息词集将所有候选句聚类为多个类别,其中距离度量采用杰哈德Jaccard相似度公式;(4. 4)从每个类别中抽取出ー个代表句,代表句的信息词数量在该类别各句中为
最多;(4.5)依次考察每ー个代表句的信息词集与该突破点主导主题的单词集的Jaccard距离,并按此距离从小到大对所有代表句子排序,然后按此排名先后顺序依次将各代表句加入到本突破点的摘要中,直到该摘要的长度超过了预定的最大长度,其中摘要的长度是所包含代表句的单词总数,预定的最大长度是ー个突破点摘要可以包含的最多单词数,主导主题单词为该突破点强度值最大的主题下概率最大的单词集合,然后按时序排列各突破点摘要并输出。以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
权利要求
1.一种基于突破点的新闻话题时间线摘要生成方法,其特征在于包括以下步骤 (1)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词捜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库; (2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段; (3)在目标话题活跃的各时间片段中,首先利用步骤(2)话题活跃度隐马尔科夫模型从对应的新闻语料中挖掘出各个主题,然后利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模,并计算各个主题在每个时间点上的強度,最后通过分析各主题在时间线上的強度波动模式,挖掘出目标话题的突破点,突破点是ー个具体的日期,即时间点; (4)对每个挖掘出的突破点,通过匹配主题关键词与新闻文章中句子的吻合程度,抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要; (5)输出目标话题的时间线摘要,时间线指按时间先后顺序组织的多个突破点。
2.根据权利要求I所述的基于突破点的新闻话题时间线摘要生成方法,其特征在于步骤(2)包括以下分步骤 (2. I)将目标话题的整个时间周期切分为多个指定长度的时间片段; (2. 2)分别统计每个时间片段内的新闻文章数量和新增信息量,新增信息量为本时间片段单词分布与前一时间片段单词分布的库贝克-莱布勒Kullback-Leibler散度值,然后将新闻数乘以新增信息量作为本时间片段的修正新闻数量; (2. 3)利用动态规划法将各时间片段的修正新闻数量划分到若干个桶中,要求所有桶的最大扩散度最小,一个桶的扩散度指该桶内修正新闻数量的最大值与最小值之差,然后计算每个桶内修正新闻数量的平均值,作为该桶内各时间片段的期望新闻数量; (2.4)构建话题活跃度隐马尔科夫模型,其中可观值为各时间片段内的新闻数量,隐藏值为各时间片段对应的话题活跃度层次,发射概率为泊松分布,转移概率由鲍姆-威赫Baum-Welch算法获得,然后利用维特比Viterbi算法计算并输出各时间片段的话题活跃度层次。
3.根据权利要求2所述的基于突破点的新闻话题时间线摘要生成方法,其特征在于步骤(3)包括以下分步骤 (3. I)利用话题活跃度隐马尔科夫模型从每个话题活跃的时间片段对应的新闻文章中挖掘出各个主题; (3. 2)构建主题转换隐马尔科夫模型,其中可观值为本时间片段内各文档中的单词组成的单词序列,隐藏值为每个单词对应的主题构成的主题转换序列,发射概率为话题模型中的话题产生单词的概率分布,转移概率由Baum-Welch算法获得,然后利用Viterbi算法计算本时间片段内的主题转换序列; (3. 3)将每日一个主题产生的单词数与该日单词总数之比作为该主题在当天的強度值,由此计算毎日所有主题的强度值组成的強度向量; (3. 4)将每日主题的强度向量与后一日主题的强度向量的詹森-香农Jensen-Shannon散度值作为该日的主题强度波动值,如果该日的主题强度波动值大于前ー日和后一日的主题强度波动值,则判定该日为目标话题的突破点;对于ー个时间片段内最早和最晚的那几天,如果该日強度最大的主题的强度值大于本时间片段内各日的主题最大强度值的平均值,则判定该日为目标话题的突破点;然后输出各时间片段的目标话题突破点。
4.根据权利要求3所述的基于突破点的新闻话题时间线摘要生成方法,其特征在于步骤(4)包括以下分步骤 (4. I)对于每个突破点,从当天发表的每篇新闻文章中抽取摘要候选句,摘要候选句包括新闻标题句和新闻正文首句; (4. 2)从各新闻候选句中抽取出信息词,信息词包括名词、动词、形容词和副词; (4. 3)利用各句的信息词集将所有候选句聚类为多个类别,其中距离度量采用杰哈德Jaccard相似度公式; (4.4)从每个类别中抽取出ー个代表句,代表句的信息词数量在该类别各句中为最多; (4. 5)依次考察每ー个代表句的信息词集与该突破点主导主题的单词集的Jaccard距离,并按此距离从小到大对所有代表句子排序,然后按此排名先后顺序依次将各代表句加入到本突破点的摘要中,直到该摘要的长度超过了预定的最大长度,其中摘要的长度是所包含代表句的单词总数,预定的最大长度是ー个突破点摘要可以包含的最多单词数,主导主题单词为该突破点强度值最大的主题下概率最大的单词集合,然后按时序排列各突破点摘要并输出。
全文摘要
公开了一种自动、高效率地挖掘出目标新闻话题发展过程中的重要时刻及所发生的重大事件、从而极大地帮助了读者了解一个新闻话题的演变过程的基于突破点的新闻话题时间线摘要生成方法,包括以下步骤(1)根据用户输入的话题关键词从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理;(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;(3)利用主题转换隐马尔科夫模型对各时间片段中的主题转换序列进行建模;(4)抽取出与当日发生的重大事件最相关的句子作为该突破点的摘要;(5)输出目标话题的时间线摘要。
文档编号G06F17/30GK102646114SQ201210037970
公开日2012年8月22日 申请日期2012年2月17日 优先权日2012年2月17日
发明者朱小燕, 黄民烈 申请人:清华大学