新闻话题自动发现方法与流程

文档序号:17587293发布日期:2019-05-03 21:26阅读:613来源:国知局
新闻话题自动发现方法与流程

本发明涉及文本挖掘技术领域,尤其涉及一种新闻热点话题的挖掘,基于多步混合增量聚类的新闻话题发现方法。



背景技术:

网络新闻作为互联网媒体中最重要的信息类型之一,是人们获取新闻消息的一个重要途径。互联网涉及到生活的各个方面,并且互联网上网页信息以井喷的方式在增加,新闻数据呈现出海量、面对着如此高速增长的海量的网页信息,对于普通网民来说,想要查找个人所需要的网络信息,变得越来越困难,同时对于政府部门来说,及时准确地发现普通网民关心的热门话题并掌控网络舆情,已经成为了很重要的一门学科。由于网络上剧增的新闻繁杂冗余和冗余等特性,依靠人工来查找新闻话题的工作量巨大。给人们从海量新闻中获取所需信息带来巨大挑战。虽然国内一些大型的门户网站经常会对在某段时间内大部分普通用户都关注的热门话题和焦点事件,发布网络新闻专题,但现阶段网站还是主要通过人工进行筛选并编辑的,把相关的新闻放到一个专题新闻中,这种方式有很大的弊端,并不能及时,有效的满足用户的需求,并且里面往往含有网站编辑的个人观点倾向,不能完全客观中立地反应事件的真相。因此,如何快速、准确的从这些以数百亿计的网页信息中获取普通网民关注的热门信息以及焦点话题,特别是近期发生的重大事件,已经成为了普通网民实实在在的需求。其中,事件(event)是指在什么时间,什么地点,涉及到什么人物发生的特定事件。话题(topic)是由一个突发事件引以及由这个突发事件所引起的相关事件组成,可以认为一个话题是由多个事件组成的集合。报道(story)是对某个事件的相关新闻报道,主要报道网络新闻稿件、电视新闻报道片段以及广播新闻播报等内容。新闻报道的切分就需要对这段新闻报道进行切分成,把关于不同话题的报道内容分成独立新闻报道片段。新话题的检测td的主要任务是从实时产生的新闻报道信息流中发现和识别最新发生的热点事件以及焦点话题。经典的话题检测与跟踪系统都是建立在把新闻报道的文本内容转换到向量空间模型vsm这一基础之上的,但是vsm在进行文本表示时,会带来噪音信息,这会给新事件的检测带来误差。实际使用的话题检测系统一般要求能够实时地对新闻报道文档进行增量聚类,要求能够快速准确地发现新发生的事件以及突发性重要事件。新闻热点话题的挖掘相对于话题检测与跟踪,新闻热点话题的自动发现更具有应用价值。传统的话题发现主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。现在已有的新闻热点话题自动发现系统,都存在一些问题,比如热点事件检测的准确率并不高,错分的现象很普遍,并且大部分新闻热点事件只是进行新闻报道的简单罗列,并没有对这些热点事件进行特征词和摘要信息的提取,这很不利于用户的新闻浏览和新闻阅读。很多门户网站的热点事件话题大都是通过人工手动进行编辑和组织的,这种方式只能选取那些一个月或者一年的热门话题,并不能及时发布最新的突发性事件,实时性不强。话题发现技术虽然可以帮助人们快速从丰富的互联网信息资源中获取感兴趣的信息,帮助政府、企事业单位及时掌握最新舆情动态。但并不能把传统的文本分类方法直接应用到话题检测系统中,话题检测与跟踪所处理的新闻报道文档是动态增加的,随着时间的推移,新闻文档逐渐在增多,如果直接把文本分类或聚类应用这些动态增加的新闻文档上,文档数量过多,需要的时空复杂度过高,这需要对现有的文本分类以及聚类算法进行改进,来适应话题检测与跟踪的特点。

话题发现是从海量新闻数据中自动发现话题,以话题为索引对数据进行梳理,将与话题有关内容进行聚合、组织在一起。话题发现方法本质上是通过增量聚类方式将海量文本数据中具有相似内容的文本聚集到相同主题中,使得同一类内文本间话题高度相似,不同类文本间话题相似度低。传统文本增量聚类的方法主要分为两类:

第一类方法是每次将所有数据进行迭代聚类,间隔一段时间重新对所有数据进行一次性聚类,优点是精度高,缺点是不能利用前面的聚类结果,浪费资源,每次聚类结果不能保证一致性;第二类方法是利用之前的聚类结果,将新增数据划入已有类簇中离它最近的类簇中,并重新计算该簇质心,优点是不需要每次对所有数据重新计算聚类,缺点是随着类簇的不断增大,类簇容易发生质心漂移,话题无法保有持续性,且因为是将新数据与已有类簇进行相似性比对,因此无法产生新的类簇,生成话题准确率低。同时,已有增量聚类方法通常只采用一种聚类方法完成聚类任务,因此还存在以下问题:因为聚类是一种非监督学习方法,需要指定初始聚类个数,传统方法没有考虑由于聚类初始化过程中随机选择聚类质心导致可能存在的聚类类簇间具有相似性的问题,即明显属于同一话题的数据被划分到不同话题中;没有对在一次性聚类过程中产生的单点类簇做进一步融合处理,导致存在多个只包含单一文本的话题。

本发明研究将一种混合增量聚类方法应用于新闻话题发现分析中,技术着眼于解决上述增量聚类方法在话题发现过程中存在的弊端,并提出相应的增量聚类话题发现分析流程。



技术实现要素:

本发明目的是着眼于解决上述增量聚类方法在话题发现过程中存在的弊端,提供一种对应于增量聚类话题且基于混合增量聚类,实现对海量新闻数据的话题组织和发现、保持已有话题的延续性,提高话题发现的准确性的新闻话题自动发现方法,

本发明的上述目的可以通过以下措施来实现,一种新闻话题自动发现方法,其特征在于包括下列步骤:首先设置增量聚类相关参数和增量聚类触发参数,对增量数据进行分批次聚类,在批次内对输入文本进行文本预处理操作,获取一批文章n篇,对其统一文本格式编码、进行中文分词、去特殊符号和停用词,然后计算文本特征,生成文本特征向量,提取文本特征词,构建文本特征向量集,并在批次内先做主题聚类,再做主题内层次聚类,细分主题,然后对主题间层次化聚类,对于前面得到的所有聚类进行合并主题:再做一次自底向上的凝聚式层次化聚类,对于每一个主题内的所有文章做一个自顶向下的分裂式层次化聚类,将主题内文章逐步细分为越来越小的簇,对上述得到的小的聚类进行单点主题合并和非单点归并,在m篇文章中选择比较相近的文章,做批次间单点主题合并,计算每一个单点主题每篇文章与所有聚类的相似度和每一个单点到每一个聚类中心的距离,选择超过阈值的最大的一个类簇做合并,然后进行批次间聚类,对经过单点处理结果的一组聚类之间再做一次自底向上的凝聚式层次化聚类,将跨批次的聚类互相凝聚起来,完成主题间层次聚类;再对聚类结果按关键词权重排序,提取代表一个新闻话题权重最高的前一组词,生成新闻话题并进行新类簇融合,将新类簇质心与已有历史类簇质心进行比较,满足阈值则将新类簇与已有历史类簇合并,否则作为新类簇;然后对新增数据聚类结果与已有聚类结果做跨批次融合。

本发明的有益效果是:

本发明不同于传统新闻话题发现方法,采用的增量聚类方法,通过对海量新闻数据进行批次划分、分批次聚类、批次内聚类结果融合、批次内单点话题融合、批次间聚类结果融合等多步聚类处理,采用了多步聚类、合并、再聚类的方式提高资源利用率和话题发现结果的准确性。通过对增量数据进行分批次聚类,使得每次聚类结果可以利用已有聚类结果,不需要每次对所有数据重新做聚类处理,节约资源,并且保证聚类结果的一致性。

本发明通过批次内先做主题聚类,再做主题内层次聚类,达到细分主题的目的,保证主题间相似性低,独立性强。进一步通过主题间层次聚类,解决由于聚类初始化过程中随机选择聚类质心导致的同一话题被切分的问题。通过对在一次性聚类过程中产生的单点类簇做进一步融合处理,解决存在多个只包含单一文本的话题问题。对新增数据聚类结果与已有聚类结果做跨批次融合,最终提高话题的准确性和保证话题的延续性。

聚类结果一致性。本发明首先通过设置增量聚类触发参数,对增量数据进行分批次聚类,使得每次聚类结果可以利用已有聚类结果,不需要每次对所有数据重新做聚类处理,节约资源,并且保证聚类结果的一致性。

主题独立性。本发明通过批次内先做主题聚类,再做主题内层次聚类,达到细分主题的目的,保证主题间相似性低,独立性强。

主题切分。本发明进一步通过主题间层次聚类解决由于聚类初始化过程中随机选择聚类质心导致的同一话题被切分的问题。

单点主题。本发明通过对在一次性聚类过程中产生的单点类簇做进一步融合处理,解决存在多个只包含单一文本的话题问题。对新增数据聚类结果与已有聚类结果做跨批次融合,最终提高话题的准确性和保证话题的延续性。

附图说明

图1是本发明新闻话题自动发现处理流程示意图。

图2是图1文本预处理过程的示意图。

图3是本发明多步混合增量聚类处理的实施例流程示意图。

为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。

具体实施方式

参阅图1。根据本发明,首先设置增量聚类相关参数和增量聚类触发参数,对增量数据进行分批次聚类;对输入文本进行文本预处理操作,获取一批文章n篇,对其统一文本格式编码、进行中文分词、去特殊符号和停用词,并在批次内先做主题聚类,再做主题内层次聚类,完成主题间层次聚类,然后计算文本特征,生成文本特征向量;提取文本特征词,构建文本特征向量集;判断输入文本数据量是否满足单批次聚类文本数量batchsize或时间间隔是否满足单批次聚类时间间隔timeout,如果达到单批次聚类时间间隔,还没有达到单批次聚类文本数量,则聚类自动开始,对在一次性聚类过程中产生的单点类簇做进一步融合处理,对输入文本进行混合增量聚类处理,生成新闻话题;对聚类结果按关键词权重排序,提取权重最高的前一组词用以代表一个新闻话题。将新类簇质心与已有历史类簇质心进行比较,满足阈值则将新类簇与已有历史类簇合并,并进行新类簇融合,否则作为新类簇,并进行新类簇融合,对新增数据聚类结果与已有聚类结果做跨批次融合,然后对聚类结果取关键词表示话题;再判断是否继续处理,否则结束,是则持续接收数据,返回对输入文本进行文本预处理操作,执行循环操作至结束。对在一次性聚类过程中产生的单点类簇做进一步融合处理,对新增数据聚类结果与已有聚类结果做跨批次融合,最终提高话题的准确性和保证话题的延续性。

增量聚类相关参数设置包括:单批次聚类文本数量batchsize、单批次聚类时间间隔timeout、主题内层次化聚类相似度阈值wordsimthreshold、主题间层次化聚类相似度阈值wordsimthreshold、批次内单点聚类与已有聚类类簇比较单点相似度阈值innerbatchspknnthreshold和批次间单点聚类与已有聚类类簇比较的相似度阈值crossbatchspthreshold。

在以下实施例的的理流程中,采用如下步骤:

【文本预处理】:获取一批文章n篇,对其统一文本格式编码、进行中文分词、去特殊符号和停用词、计算文本特征,生成文本特征向量;

【自动聚类条件判断】:判断判断输入文本数量是否满足单批次聚类文本数量,如果达到单批次聚类时间间隔,还没有达到单批次聚类文本数量,则聚类自动开始;

【分批次聚类】:将n篇文章分成几小批,对于每一小批数据做批次内聚类处理,设当前批次中有m篇文章,并进行批次内主题聚类:将每一个小批中所有的文章的特征词做主题聚类,得到一些主题,将这m篇文章与这些主题做关联,为每一个文章选择一个最相关的主题,如果没有相关主题,则独立生成自由主题;再进行主题内层次化聚类,细分主题:基于文章间的相似度包括标题相似度、正文相似度、命名实体相似度、非命名实体相似度等细化文章主题;对于每一个主题内的所有文章做一个自顶向下的分裂式层次化聚类,然后对主题间层次化聚类,合并主题:对于前面得到的所有聚类,再做一次自底向上的凝聚式层次化聚类(相当于跨主题的聚类),解决同一主题被切分为多个主题;减少单点主题,单点主题合并:对上面过程中得到的一些小的聚类,包括单点和非单点做归并,对于每一个单点,在这m篇文章中选择和它们比较相近的文章,解决单点主题过多问题;

【批次间单点主题合并】:对于每一批得到的聚类,这些聚类又可以分为两类,单点和非单点,再做一次和类似的过程,对每一个单点主题计算每篇文章与所有聚类的相似度,对每个单点计算它到每一个聚类中心的距离,选择超过阈值的最大的一个类簇做合并;

【批次间聚类】:对于上面经过单点处理的结果(即一组聚类),它们之间再做一次自底向上的凝聚式层次化聚类,这一步是由于在步骤3中是对文章做了没有依据的分批,这里需要把跨批次的聚类互相凝聚起来。

【生成新闻话题】:对聚类结果按关键词权重排序,提取权重最高的前一组词用以代表一个新闻话题。

【新类簇融合】:将新类簇质心与已有历史类簇质心进行比较,满足阈值则将新类簇与已有历史类簇合并,否则作为新类簇。

参阅图2。由于本实施例中采用的是jieba分词,jieba分词对处理文本格式要求为gbk编码,因此本实施例统一将输入数据转换为gbk编码格式,在分词处理后采用utf-8格式保存。本实施例提供的文本预处理流程,对输入文本进行预处理操作。具体包括下述步骤:

首先把所有的新闻文档初始化为一个大类簇,然后进行类簇的分裂,把大类簇分裂成小类簇,直至其中一个类簇的阈值满足预设的阈值。统一文本编码格式,将输入数据格式统一转为utf-8或gbk等中文编码,实际编码格式根据分词步骤所需文件格式设置;对格式统一后的文本数据进行中文分词处理,如上一步骤中所述,本实施例采用jieba分词,同时加入自定义词典,将文本按词性拆分成一个个单词;然后对分词后结果进行去停用词和特殊符号处理,因为通过分词后解析得到的文本中有许多无用词和特殊符号(如的、了、地等),在聚类分析时会影响聚类结果。此在这一步骤通过引入停用词典和特殊符号表将无用的停用词和特殊符号去掉;基于上一步文本预处理的结果,对文本提取特征词。本实施例采用词频-逆文章词频tf-idf对文章进行特征词提取;基于上一步文本特征词提取结果,构建文本特征向量,即用词向量表示文本,用于后续文本相似性比较时使用。每篇文章按tf-idf值排序选取前面最大的t个词组成特征词列表,每篇文章的特征向量通过与特征词列表比对,有则添加,没有则添加0,构成每篇文章的各自的特征向量;判断输入文本数量是否满足参数batchsize,如果达到时间timeout,还没有达到batchsize,则聚类自动开始。

参阅图3。本实施例提供的混合增量聚类处理流程,详细步骤如下:

分批次聚类:将n个文章按照batchsize分成几批,作用是对于每一批数据做批次内聚类处理,所以需要限制批次中文章的数量(设当前批次中有m篇文章):

批次内主题聚类:将每一个批次中所有的文章的特征词做主题聚类,相当于对这些文章的特征词组成的内容做主题抽取,得到一些主题,将这m篇文章与这些主题做关联,为每一个文章选择一个最相关的主题,如果没有相关主题,则独立生成自由主题。本实施例中采用lda算法对批次内新闻文本生成一些初始主题:这里将词作为特征项,将文本看做是由特征词构成的,每篇文本会包含多个主题,并且以不同的概率对应每个主题,即每篇文本对应一个主题概率分布,每个主题对应不同的词概率分布,每篇文本的每个词以不同的概率对应某个主题。批次内m篇文章,m篇文章中每个文档d可以看做是一个单词序列w=<w1,w2,...,wn>,wi表示第i个词项文本中的词。

采用lda算法对批次内新闻文本生成一些初始主题:将词作为特征项,将文本看做是由特征词构成的,每篇文本对应一个主题概率分布,每篇文本的每个词以不同的概率对应每个主题;t代表每个文本的特征词所对应的主题,k个主题<t1,t2,...,tk>利用p(词|文档)=p(词|主题)*p(主题|文档)公式,训练得到表示文本特征向量a中的第i个特征ai,表示文本特征向量b中的第i个特征bi的两个向量,并对应到不同主题的概率θd<pt1,pt2,...,ptk>,对每个主题生成不同单词的概率得到文档分类主题结果,其中,pti表示文档d对应第i个主题的概率,pwi表示生成第i个单词的概率。

在主题聚类过程中,将这m篇文章向这些主题做关联,为每一个文章选择一个最相关的主题,有一些文章将会不关联任何主题,因为有一些关键词由于其作用不强,或者关键词聚类的参数不合适,被过滤掉,导致该文章和上面的任何一个关键词都不关联,那么认为它是关联到一个自由主题;

主题内层次化聚类,细分主题:对于每一个主题内的所有文章做一个自顶向下的分裂式层次化聚类,将主题内文章逐步细分为越来越小的簇,聚类过程中采用基于文章间的相似度包括标题相似度、正文相似度、命名实体相似度、非命名实体相似度等对文章进行聚类,取其中相似度阈值由wordsimthreshold控制,满足相似度阈值则将文本作为一个簇。

本实施例相似度采用余弦相似度计算公式(1),通过计算文本向量间的夹角来判断向量的相似程度,夹角越小,代表两个文章越相似。该步骤主要目的用于对主题进行细分,真正达到将一个粗粒度主题细分成具有明显区分性的不同主题,提高聚类结果的准确性;主题间相似度计算同样采用公式:

式中n代表文本特征向量a和文本特征向量b的特征总数,ai表示文本特征向量a中的第i个特征,bi表示文本特征向量b中的第i个特征,cosθ表示两个文本向量之间的夹角。主题间层次化聚类,合并主题:对于前面得到的所有聚类,再做一次自底向上的凝聚式层次化聚类(相当于跨主题的聚类),合并满足主题相似度阈值的类簇,聚类过程基于标题相似度、正文相似度、命名实体相似度、非命名实体相似度,阈值由dficfsimthreshold控制。该步骤主要为了解决一个真正的主题在作为初始化抽出来的主题中被切分开的情况,进一步提升聚类结果的准确性;

减少单点主题,单点主题合并:对上面过程中得到的一些小的聚类(包括单点和非单点)做归并,接下来把这些单点向着非单点的类簇做归并,归并的过程是,对于每一个单点,在这m篇文章中选择和他们比较相近的文章(相似度>innerbatchspknnthreshold的文章),然后通过投票法看该单点与哪个类簇的相似文章数量最多,最后选择应该归到哪个类簇中。该步骤主要用于解决存在过多单点类簇问题,通过进一步融合,将实际相关单点进行合并,既解决多单点类簇问题,又进一步提高了聚类结果的准确性;

批次间单点主题合并:对于每一批得到的聚类,这些聚类又可以分为两类,单点和非单点,再做一次和4.4类似的过程。这里和4.4的不同是,由于4.4是在m篇文章上做的,m的大小是有限制的,所以可以对每一个单点计算与每篇文章的相似度,但是这里最坏情况可能是n个聚类,n是一个很大的数,所以这里只是对每个单点计算它到每一个聚类中心的距离,选择超过阈值的最大的一个(阈值由crossbatchspthreshold给定)。进一步将批次间单点进行融合,减少单点类簇,提升聚类结果准确性;

批次间聚类:对于上面经过了单点处理的结果(即一组聚类),它们之间再做一次自底向上的凝聚式层次化聚类,阈值同样为dficfsimthreshold。这一处理步骤的目的是由于在步骤3中,是对文章做了没有依据的分批,这里需要把跨批次的聚类互相凝聚起来。

生成新话题:最后对聚类结果中关键词按权重排序,取前w个词用于表示该聚类蕴含的主要话题。如需继续监测进行话题检测和发现,则持续接收数据,重复前面的步骤。

新类簇融合:将新类簇质心与已有历史类簇质心进行比较,满足阈值则将新类簇与已有历史类簇合并,否则作为新类簇。

以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1