基于主题遗传的在线主题建模方法
【专利摘要】本发明公开了一种基于主题遗传的在线主题建模方法,包括抓取当前时间片文本数据,按照LDA模型进行主题建模,计算主题强度,主题排名,计算主题的遗传因子,抓取下一个时间片文本数据,转换主题-单词分布向量,计算下一个时间片Dirichlet分布先验参数,采用Gibbs采样方法进行主题建模等步骤。本发明的有益效果在于:1、本发明是一种在线主题模型,适合处理时序文本流,可以较好地应用在舆情监控系统中;2、本发明在保留OLDA模型主题对齐特性的同时,根据主题强度为各个主题设置不同的遗传因子,改善了主题混合和新主题不易及时检测的缺陷;3、本发明的主题强度计算方法能够有效降低宽泛主题的得分。
【专利说明】基于主题遗传的在线主题建模方法
【技术领域】
[0001]本发明涉及网络热点主题的发现与演化分析方法,特别是一种基于主题遗传的在线主题建模方法。
【背景技术】
[0002]针对论坛、微博等新兴媒体的话题发现与演化分析是当前的一个研究热点,它可以为舆情发现和预测提供支持,有利于舆情的及时处置,维护社会稳定。近年来,以LDA (Latent Dirichlet Allocation)为代表的主题模型得到了深入研究。由于LDA本身具有的话题建模能力,在话题演化领域具有先天的优势。基于LDA的一些扩展模型也在随后被提出,比如反映主题在时间上强度变化的TOT (Topic Over Time)模型、采用状态空间记录主题内容和强度演化信息的DTM(Dynamic Topic Model)模型以及考虑多时间粒度主题演化的MTTM(Multiscale Topic Tomography)模型等。但上述模型都需要全局建模,不具有在线处理新文本的能力。
[0003]在线LDA模型(Online LDA, 0LDA)模型也是LDA的改进模型,它的主要思想是将主题历史分布作为当前时间窗口模型的先验参数。在实施中,OLDA为每个主题维护一个时
间窗口可调的演化矩阵劣',矩阵中的每一列都是对应时间窗口内主题k在单词上的分布。
各个时间窗口的分布具有不同权值,用权值向量ω S表不,δ表不时间窗口大小。在每个时间片的建模过程中,各主题的先验参数用如下方式求出:
[0004]β[ = B'kX(0A
[0005]通过以上方式,OLDA适合文本的在线处理,并具有主题对齐的特性,在主题发现与演化分析中得到了广泛应用。但OLDA的权值向量ω 5是固定值,无法根据主题的动态变化做出调整。而且同一时间片的各个主题共用相同的权重,该值的设定比较困难。若权重设置过小,则前后主题不能对齐;若权重设置过大,则历史数据影响过高,从而导致一些并非同一事件的主题由于共词的出现而被强制对齐在一起。特别是当t时间片有新主题出现时,该主题容易与某个旧主题混合在一起共同与t-1中的相关主题对齐,造成新主题检测的困难。此外,OLDA维持一个增量更新的词表,每个时间片中的新词都被加入词表中,最终会因词表太大而导致内存溢出,并且处理维数的增加使运行时间不断增高。
【发明内容】
[0006]本发明的目的是提供一种基于主题遗传的在线主题建模方法,本方法的主要思想是将前一个时间片的主题分布“遗传”给当前时间片,作为当前时间片Dirichlet分布(狄利克雷分布)的先验参数。其中不同主题具有不同的遗传度,遗传度根据主题强度排名计算得出,两者成正比关系。
[0007]实现本发明目的的技术方案如下:一种基于主题遗传的在线主题建模方法,包括
[0008]步骤1:令时间片tn为当前时间片,抓取时间片tn中Mi"个文本的数据,得到词表
【权利要求】
1.一种基于主题遗传的在线主题建模方法,其特征在于,包括 步骤1:令时间片tn为当前时间片,抓取时间片tn中/1於个文本的数据,得到词表产; 步骤2:按照LDA模型进行主题建模,得到文本的文本—主题分布向量之"和主题4.的主题-单词分布向量#+ ;其中,m为文本序号,m = lX...,Mt" ; k为主题序号,
2.如权利要求1所述的基于主题遗传的在线主题建模方法,其特征在于,所述计算主题强度FS(片)的步骤,包括 步骤31:计算文本<丨的文本-主题分布向量毫的熵值*
3.如权利要求1或2所述的任意一种基于主题遗传的在线主题建模方法,其特征在于,所述将词表上的主题-单词分布向量处转换为词表F1*,上的主题-单词分布向量#r'的步骤,包括 步骤71:计算词表r*与词表Fvi的交集,对交集内的所有单词在词表上的主题-单词分布向量中的分布值求和得到《-- I 步骤72:以O-?〃<)/€作为词表”《中每个新出现的单词的分布值,写入到词表上的主题-单词分布向量#?中,其中c为词表中新出现的单词总数; 步骤73:将交集内的单词在词表P.上的主题-单词分布向量中的分布值,写入到r中。
4.如权利要求1或2所述的任意一种基于主题遗传的在线主题建模方法,其特征在于,所述时间片的长度为24小时,主题建模的主题总数K为100,遗传因子的上限a为0.6,下限b为0.1。
5.如权利要求3所述的基于主题遗传的在线主题建模方法,其特征在于,所述时间片的长度为24小时,主题建模的主题总数K为100,遗传因子的上限a为0.6,下限b为0.1。
【文档编号】G06F17/30GK103793478SQ201410016179
【公开日】2014年5月14日 申请日期:2014年1月14日 优先权日:2014年1月14日
【发明者】陈兴蜀, 吴小松, 王文贤, 杜敏 申请人:四川大学