专利名称:在线监督式主题建模及其演变分析的方法
技术领域:
本发明涉及文本的主题挖掘领域,尤其涉及一种在线监督式主题建模及其演变分析方法。
背景技术:
随着互联网的飞 速发展,各种网络资源迅猛增长,如何将庞大的数据集以合理的结构展示,便于用户迅速地了解各主题事件的当前及历史信息显得尤为重要。传统的搜索、索引及浏览已经不能满足用户的需求,将相关事件在语义层面上抽象成主题,以主题形式表现整个数据集成为了更为科学合理的方式。因此挖掘数据内容的主题及其演变的算法研究具有迫切的现实意义,也充满无尽的挑战。现今对离散数据进行主题建模和分析的方法大多采用概率主题模型实现,其能自动地检测出给定集合的主题,并且被证明是分析理解数据的有效方法,尤其是LDA(LatentDirichlet Allocation)模型。然而随着文档数据格式的丰富和互联网的发展,传统的纯文本观点往往不适合,容易忽略了一些很重要的特征,如时间、作者、类别、用户提供的标签等等。并且面对实际需解决的数据流主题分析问题,传统的主题挖掘算法无法在线实时分析数据,将时间信息用在现有的主题模型中,合理地利用已经学到的先验知识进行主题的挖掘成为了国内外研究的热点。所以在主题模型中,一个非常重要的方向就是如何将这些有用的特征融入模型。如监督式LDA(Supervised LDA)引入了文本的类别信息,OLDA(OnlineLDA)方法引入了时间信息。尽管已经有众多国内外的科研工作者在改进主题模型方面做出努力,并产生了很多有效的主题挖掘算法,但目前为止没有一种模型能同时考虑文档的时序特性和类别属性。不同的类别往往反映出不同的主题。现有研究表明,在文档分析中,若能有效利用文档中除单词之外的其他辅助信息可有效地提高隐含主题的挖掘及其演变分析的性能。针对需解决的带有类别标签的新闻数据文本进行主题演化分析时,我们提出了在线监督式主题挖掘及演变分析的算法。该方法能在线实时地分析主题的演变,适用于海量数据的分析。其将前一时刻学到的先验知识有效地用于当前时刻的主题分布,有效地利用了文本间的实现关系。考虑到主题跟类别之间的相关性,利用文本的类别特征及各单词在文本中的词频及权重,并结合主题在单词上的分布重计算其所属的类别,并在类内计算主题的相似性来表征主题间的演变关系。同时,利用各文本上的主题概率计算主题的强度及其相关的文本,实现更直观地表示。
发明内容
本发明的目的是克服现有技术的不足,提供一种在线监督式主题建模及其演变分析的方法。在线监督式主题建模及其演变分析的方法包括如下步骤I)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D = (S1, S2......SJ,Si表示一周的数据;2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表;3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵0及主题在新闻文本上的分布矩阵0 ;5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。所述的步骤2)为 I)对当前时间粒度数据集St中的新闻文本进行分词,去除停用词、数字、标点符号,并更新总的单词列表SW = Kswi) i = 1,2, . . . , 1}及其相应的词频SC ;2)当前的单词列表Wt为SW中词频不小于5的单词,并得到相关矩阵C,相关矩阵C是一个Iwt I X2的矩阵,Cil表示单词Wi在St中出现的次数,Ci2表示出现该单词的文本数量。所述的步骤3)为根据tfidf值提取新闻文本特征,确定每篇新闻文本的单词及词频作为输入,tfidf的计算公式如下
权利要求
1.一种在线监督式主题建模及其演变分析的方法,其特征在于包括如下步骤 1)编写爬虫程序,从新闻媒体网站上下载一段时间的新闻文本,并以一周为时间粒度构成新闻文本数据集D= (S1,S2......SJ , Si表示一周的数据; 2)对当前时间段的新闻文本进行分词处理,根据词频过滤确定当前的词汇表; 3)提取新闻文本特征,形成单词与新闻文本的关系矩阵,作为在线监督式主题模型的输入; 4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题模型检测主题,得到单词关于主题的分布矩阵Φ及主题在新闻文本上的分布矩阵Θ ; 5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。
2.根据权利要求I所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤2)为 1)对当前时间粒度数据集St中的新闻文本进行分词,去除停用词、数字、标点符号,并更新总的单词列表Sff = Kswi) i = 1,2, · · · , 1}及其相应的词频SC ; 2)当前的单词列表Wt为SW中词频不小于5的单词,并得到相关矩阵C,相关矩阵C是一个|wt| X2的矩阵,Cil表示单词Wi在St中出现的次数,Ci2表示出现该单词的文本数量。
3.根据权利要求I所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤3)为根据tfidf值提取新闻文本特征,确定每篇新闻文本的单词及词频作为输入,tfidf的计算公式如下
4.根据权利要求I所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤4)为第t个时间段的主题先验分布参数β通过如下公式由t-1时刻的主题分布来获得
5.根据权利要求I所述的一种在线监督式主题建模及其演变分析的方法,其特征在于,所述的步骤5)为用Jensen-Shannon散度进行两向量之间相似度的度量,来表示主题之间的演化关系,对于两主题向量Φρ Φρ用如下公式计算
全文摘要
本发明公开了一种在线监督式主题建模及其演变分析的方法。包括如下步骤1)从新闻媒体网站下载新闻文本,并按一定的时间粒度进行划分;2)对各时间段的新闻文本进行分词处理,根据词频过滤更新词汇表3)提取文本特征,形成单词与文本的关系矩阵,构成在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题建模方法检测主题,得到单词关于主题的分布矩阵及主题在文本上的分布矩阵;5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。本发明充分利用数据本身的时间和类别信息,提高了主题挖掘的精度,并结合类别信息有效地分析了主题的演变过程。
文档编号G06F17/30GK102662960SQ20121005949
公开日2012年9月12日 申请日期2012年3月8日 优先权日2012年3月8日
发明者任鸿凯, 吴飞, 张寅 , 邵健 申请人:浙江大学