专利名称:基于最优模型的web舆情趋势预测方法
技术领域:
本发明涉及智能信息预测技术,更具体地,涉及一种互联网舆情发展趋势的预测 技术。
背景技术:
网络舆情随着互联网的快速发展,网络媒体作为一种新的信息传播形式已经深入人们的日 常生活,公众在网络上的言论活跃程度也达到前所未有的地步。不论是国内还是国际重大 事件,都能马上在网络上传播开来并引起公众的极大关注和热烈讨论进而产生巨大的舆论 压力,达到任何部门和机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散 地和社会舆论的放大器。网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持有的具 有较强影响力和明显倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实 现并加以强化。当今社会,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多 元,如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来 说,如何加强对网络舆论的及时监测和有效引导,如何提前预测网络舆情的发展趋势以积 极化解网络舆论危机,对维护社会稳定和促进国家发展具有重要的现实意义,也是创建和 谐社会的应有内涵。现有预测技术预测技术可分为两类①数量分析,即基于统计资料并借助数学工具来分析因果 关系以进行预测。数量分析预测具体方法很多,如趋向外推法和回归分析法等。趋向外推 法即时间序列分析法,它是根据历史和现有的资料推测发展趋势,从而分析出事物未来的 发展情况的,所谓的时间序列即把在一定条件下出现的事件按时间顺序加以排列,并且通 过趋势外推的数学模型预测未来;回归分析法也称相关分析即从事物变化的因果关系出发 来进行预测,研究引起未来变化的各种客观因素的相互作用、指出各种客观因素与未来状 态之间统计关系的方法。②定性判断,即在没有较充分的数据可利用时,只能凭借直观材料 依靠个人经验和分析能力来进行逻辑判断并对未来做出预测。预测方法有四种基本的类型定性预测、时间序列分析、因果联系法和模拟。(1)定性预测它是基于估计和评价的因此属于主观判断,常见的定性预测方法 包括一般预测、市场调研法、小组讨论法、历史类比、德尔菲法等。(2)时间序列分析法它是建立在与过去需求相关的历史数据可用于预测未来的 需求这样一个设定基础上的。历史数据可能包含诸如趋势、季节、周期等因素,常见的时间 序列分析方法主要有简单移动平均、加权移动平均、指数平滑、回归分析、鲍克斯 詹金斯 法、西斯金时间序列等。该方法简单易行,便于掌握,虽然在现实中得到了广泛的应用,但其 准确性差,一般只适用于短期预测。(3)因果联系法它是建立在需求与某些内在因素或周围环境的外部因素有关的这样一个设定基础上的,常见的因果联系法主要有回归分析、经济模型、投入产出模型、行 指标等。(4)模型模拟模型允许预测人员对预测的条件作一定程度的假设。技术问题目前各个领域的预测均采用以上所述的现有预测技术进行预测,这些预测技术在进行短期预测时具有一定的效果,适合给有关机构提供分析和参考。但是当采用这些预测 技术进行长期预测时,随着时间的推移不确定性因素的增加使得预测结果的偏差很大,并 且无法及时提早的发现趋势发展的拐点,从而导致政府和监管部门无法采取及时有效地预 防措施去更好的实现网络监管的功效。所以如何准确的发现拐点并对事件的发展做出长期 趋势预测成为一个亟待解决的问题。
发明内容
本发明的目的在于克服上述现有预测方法的不足,提供一种可以比较准确的发现 拐点并对事件的发展做出长期趋势预测的方法。为实现上述目的,本发明包括以下步骤(1)、分析指定论坛的URL特征抓取网页,将信息文档和相关的数据信息保存到本 地数据库;(2)、对本地数据库中的信息文档进行聚类和分类,获得各类文档数据库;(3)、从各类文档已有的数据库中,根据事件标记和时间标记获取每个事件所需参 数(如单位时间的文档量等)的时间序列,或从Google trends网站上下载每个事件对应 的Google趋势时间序列;(4)、针对步骤(3)中所获得的各类事件的时间序列,建立相应的最优模型并保 存,作为被预测对象趋势匹配的对象;(5)、当新的舆情事件发生时,首先通过步骤(1)到步骤(3)获得该事件相应的一 些时间序列和所属的大类。通过与其所属大类里的已训练得到的一些最优模型进行匹配, 从而实现对新舆情的长期预测。本发明通过对历史舆情事件进行分类并且建立各类的最优模型集,当网络上新发 生舆情事件确定了所属的类别后,使用该舆情事件的已知数据与其所属类的最优模型集进 行匹配的方法确定该事件的长期发展趋势,这样不仅能够在事件发展的初期阶段较好的预 测出事件发展的拐点而且可以对事件发展的长期趋势做出预测,这样不仅弥补了现有预测 技术的不足还可以使政府和监管部门采用及时有效的措施,更好的实现网络监管的功效。为了进一步说明本发明的原理及特性,以下结合附图和具体实施方式
对本发明进 行详细说明。
图1是本发明基于最优模型的TOB舆情趋势预测的整体流程图;图2是图1所示步骤ST4求最优模型的流程图;图3是图2所示步骤ST2中切取周期的流程图;图4是图1所示步骤ST5中对新的舆情事件长期趋势预测的流程图5是具体实例部分步骤4. 21中连接折点生成的折线图;图6是具体实例部分步骤4. 22中切取周期的实验效果图;图7是具体实例部分步骤4. 4中聚类结果的实验效果图;图8是具体实例部分步骤4. 5中建立最优模型的实验效果图;图9是具体实例部分步骤5中猪流感事件的预测效果图。
具体实施例方式下面对本发明的具体实施方式
进行描述,本发明的整体流程可参见图1,详细内容 分别对应下面所述的步骤1到步骤5,需要特别提醒的是,在以下的描述中,当采用采用已 知功能和设计的详细描述会淡化本发明的主要内容时,这些描述将被忽略。步骤1 分析指定论坛的URL特征抓取网页,将信息文档和相关的数据信息保存到 本地数据库,该步骤对应图1中的ST1 ;通过分析指定论坛的URL特征,提取时过滤不具有该特征的广告等无用链接及重 复链接,分析网页的网页结构,分别提取网页中的主题编号、各发帖的回帖用户编号、用户 间相互回复和引用次数、正文的信息文档存到本地数据库。步骤2 对本地数据库中的信息文档进行聚类和分类,该步骤对应图1中的ST2,目 的是为了将舆情的信息文档归为几大类;首先通过聚类的方法将描述同一个事件的信息文档放在一起,并作上相应的事件 标记,具体的聚类方法可以参看参考文献1 (参考文献1 逐级均值聚类算法的RBFN模型在 负荷预测中的应用,刘小华、刘沛、张步涵、万建平,《中国电机工程学报》)中的技术。然后 根据舆情的特点,通过分类将信息文档分为刑事案件、恐怖袭击、经济安全、自然灾害、事故 灾难、公共卫生事件和社会安全事件等几大类,具体的分类方法可采用现有的分类方法,比 如参考文献2 (参考文献2 数据挖掘中分类方法综述,钱晓东,《国书情报工作》,第51卷第 3期,2007年3月)。步骤3 从各类文档已有的数据库中,根据事件标记和时间标记获取每个事件所 需参数(如单位时间的文档量等)的时间序列,或从Google trends网站上下载每个事件 对应的Google趋势时间序列,该步骤对应图1中的ST3 ;步骤4 针对步骤3中所获得的各大类事件的时间序列,建立相应的最优模型并保 存,作为被预测对象趋势匹配的对象,该步骤对应图1中的ST4,详细的流程可参见图2 ;步骤401 对类S的事件集为{SnS2,…,Sn},每个事件的数据集合为{Yn,Yi2,…, Yiffl}对应的曲线进行平滑处理,具体方法为一维中值滤波法,公式如下
<formula>formula see original document page 5</formula> (1)公式(1)中i表示该数据所属的事件,j表示该事件的第j个数据,median表示取<formula>formula see original document page 5</formula>到<formula>formula see original document page 5</formula>的中值,hj表示取m/2的下整数。步骤402 对每条曲线进行切周期处理,得出事件发展趋势的周期,切取周期的具 体流程可参见图3 步骤4021 遍历原始曲线,保留那些明显的转折点,用直线把这些转折点连起来形成折线图;选择这些转折点的具体做法是开始和结尾的点首先被选为关键点,然后我们从一个关键点开始,尝试用直线连接它和它后面的每一个点,直到中间有点与这条直线的距 离超过给定的值d时,那个超出范围的点就被认为是一个新的关键点。接下来从这个新的 关键点开始,重复上面的过程,直到曲线最后一个点。步骤4022 在折线图上寻找每个周期开始和结束的位置,在折线图上遍历可以避 免无关起伏的干扰;步骤40221 确认周期的开始判断标准当一段直线的斜率超过人为给定的阈值(如具体实例中我们取为3)时 就判定周期开始。步骤40222 确认周期的结束判断标准周期开始后,满足下列两个条件之一就判断周期结束1、趋势的起伏在一个给定的标准范围d内,即选择转折点时给定的d,针对具体情 况可以适当调整,并且这种平稳已经至少持续了一个给定的时间跨度minT,同时曲线的当 前高度不应该高于周期开始时的2倍;2、周期的长度已经超过了给定的最大限度maxT。步骤4023 根据步骤4022得到的周期的开始和结束位置切取周期。步骤403 对切出来的周期进行时间长度和最高值的规范化处理,不改变曲线形 状;根据建立数据仓库需确保度量一致性的原则将所有曲线的周期时间长度统一规 范化处理为maxT,这时需要进行插值的处理,然后将经过插值处理后的每条曲线的最高值 max缩放到maxT,并且按比例maxT/max调整曲线上其余点所对应的值;具体的插值方法举例说明假设切取周期后得到周期时间序列C,求出该周期的 长度len(c),将该曲线的长度规范化为maxT,经过公式(2)和公式(3)计算后得到时间序 列Z (Z1, z2,...,ZmaxT)。q = i*len(c)/maxT(l≤ i≤ maxT) (2)<formula>formula see original document page 6</formula>步骤404 对规范化处理后的曲线进行分层聚类,选择逐级均值聚类算法,该算法 解决了 K均值的局部最优问题,还解决了聚类数目问题,具体的逐级均值聚类算法可以参 看步骤2提到的参考文献1,目的是为了获得求最优模型的小类;步骤405 对聚类后得到的各个小类求出其最优模型,该模型需要保证与该类所 有曲线的均方误差和最小;具体方法为类S的事件集为{S1; S2,…,Sn},每个事件的数据集合为{yn,yi2,…, yim},其中1≤i≤η。公式⑷为我们所需要求的最优模型,其中xij=j表示时间标记, 根据多次实验k的取值范围为[3,20],可以根据具体情况从中选取。公式(5)为均方误差 的公式,我们将其看成(a0,a1,……ak)的多元函数,根据多元函数求极值的方法,首先对(5)中 y' ij中的(a0,a1,……ak)进行求导等于零得到非齐次线性方程组(6),通过解该非齐次线性 方程组可以求出所有驻点(a0,a1,……ak),与边界值上的最大值和最小值相互比较,最小值所对应的驻点即为即所求最优模型中的系数。 <formula>formula see original document page 7</formula>步骤5 当新的舆情事件发生时,首先通过步骤1到步骤3获得该事件相应的一些 时间序列和所属的大类。通过与其所属大类里的已训练得到的一些最优模型进行匹配,从 而实现对新舆情的长期预测,具体流程可参见图4。步骤501 对新舆情事件的时间序列T的斜率进行分析,如果斜率大于或等于阈值 3则开始取值进行预测;步骤502 分别对时间序列T对应的曲线图横坐标和纵坐标以遍历的方式从1到 100步长为0. 1进行拉伸或压缩变换,从已有的最优模型中取出一个与变换后的测试数据 集均方误差和最小的模型S,并保留此时测试数据集的横坐标和纵坐标变换比值&和k2 ;步骤503 将时间序列T经过&和k2变化得到的曲线T'替代与S中与其进行匹 配的同样长度的曲线得到变化后最匹配的模型S';步骤504 为了得到新来舆情事件的预测曲线,需要将S'的横坐标和纵坐标分别 按和l/k2进行反变换得到长期预测曲线S ;步骤505 当新来舆情事件的已知数据增加时,重复执行步骤501到步骤504,从而 得到新的长期预测曲线。具体实例为进一步理解本发明的TOB舆情趋势预测的方法,我们下面举一个具体实例步骤1 分析新浪、网易、搜狐、猫扑、谷歌等几个主流网站的论坛的URL特征并抓 取网页,将信息文档和相关的数据信息保存到本地数据库;步骤2 通过对这些信息文档进行聚类和分类后,从这些信息文档中选取属于公 共卫生类的文档集,这些公共卫生事件文档集包含手足口病、禽流感、麻疹、霍乱、广元橘柑 大蝇头事件、假奶粉等事件的文档;步骤3 对选取的属于公共卫生类的各个事件建立所需参数的时间序列,在本实 施例部分,我们采用比较具有权威的Google trends的时间序列进行验证我们的方法;步骤4 针对步骤3中所获得的各个事件的时间序列,建立相应的最优模型并保 存,作为被预测对象趋势匹配的对象;步骤4. 1 对各个时间序列进行一维中值滤波平滑,r取2 ;
步骤4. 2 对所获得的Google trends的时间序列进行取周期的处理,由于事件较 多,所以这里我们仅以禽流感事件切取的周期图为例来说明我们的效果;步骤4. 21 我们对原始曲线进行遍历,这里我们取d= 10,保留那些具有明显的转 折点,再用直线把这些转折点连起来。如附图中图5所示,红色曲线为遍历后得到的曲线, 红色圆圈为我们所获取的转折点;步骤4. 22 因为红色曲线去除了一些小波动的干扰,所以我们在红色趋势图上寻 找周期的开始和结束的位置,判断标准可以参看具体实施步骤的40222,针对我们的数据d =10,minT = 7,maxT = 120。如附图中图6中蓝色的部分即为通过标准判断判断出的若 干周期的时间段。步骤4.3 对上面所获取的周期进行统一处理,我们将时间长度统一为周期中最 长的时间180天,最高值均调整为100 ;步骤4. 4 对步骤4. 3中所获得的周期进行分层聚类,因为即使属于同一类的事件 根据事件的性质其发展过程也不一样,所以我们采取了对其进行聚类处理,从而将具有相 似发展过程的事件聚在一起。分层聚类的部分效果图结果如附图中图7所示;步骤4.5 对聚类所得到的每个小类,求出一条曲线保证其与所有的该小类曲线 均方误差和最小,该曲线也就是该小类的最优模型。附图中图8列举出部分所求出的最优 模型,图中多条曲线的为曲线的聚类图,相对应的下面为我们所求的最优模型;步骤5 当一个新的事件比如猪流感到来时,通过分类确定该事件属于为公共卫 生类。为了验证最优模型方法预测的准确性,我们选取Google trends上猪流感全球在 2009年3月到2009年7月期间15周的搜索数据进行测试,并且取该15周的前10天的数 据进行长期预测。然后用所取10天的数据与公共卫生类中的所有最优模型进行匹配,并且 通过遍历得到当kl = 1. 5,k2 = 1时,选取图5中的模型可以保证均方误差和最小,对所选 模型的横坐标和纵坐标分别进行1/kl和l/k2的变换得到附图中图9中的长期预测曲线。 从图中的预测效果来看本方法基本上很好地预测到了拐点的时间,并且长期趋势预测也基 本上吻合。尽管上面对本发明说明性的具体实施方式
进行了描述,以便于本技术领的技术人 员理解本发明,但应该清楚,本发明不限于具体实施方式
的范围,对本技术领域的普通技术 人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变 化时显而易见的,一切利用本发明构思的发明创造均在保护之列。
8
权利要求
基于最优模型的WEB舆情趋势预测方法,其特征在于,该方法包括以下步骤(1)、分析指定论坛的URL特征抓取网页,将信息文档和相关的数据信息保存到本地数据库;(2)、对本地数据库中的信息文档进行聚类和分类,获得各类文档数据库;(3)、从各类文档已有的数据库中,根据事件标记和时间标记获取每个事件所需参数(如单位时间的文档量等)的时间序列,或从Google trends网站上下载每个事件对应的Google趋势时间序列;(4)、针对步骤(3)中所获得的各类事件的时间序列,建立相应的最优模型并保存,作为被预测对象趋势匹配的对象;(5)、当新的舆情事件发生时,首先通过步骤(1)到步骤(3)获得该事件相应的一些时间序列和所属的大类。通过与其所属大类里的已训练得到的一些最优模型进行匹配,从而实现对新舆情的长期预测。
2.根据权利要求1所述的WEB舆情趋势预测方法,其特征在于对各类事件建立最优模型。
3.根据权利要求2所述的TOB舆情趋势预测方法,其特征在于,步骤(2)建立最优模型 的具体包括以下步骤A、对某类事件的每个时间序列所对应的曲线进行平滑处理,具体方法为一维中值滤波法;B、对每条曲线进行切周期处理,得出事件发展趋势的周期;C、对切出来的周期进行时间长度和最高值的规范化处理,不改变曲线形状;D、对规范化处理后的曲线进行分层聚类,选择逐级均值聚类算法;E、对聚类后得到的各个小类求出其最优模型,该模型需要保证与该类所有曲线的均方 误差和最小。
4.根据权利要求1所述的WEB舆情趋势预测方法,其特征在于,步骤(5)对新舆情选取 最优模型进行长期预测的具体包括以下步骤A、对新舆情事件的时间序列T的斜率进行分析,如果斜率大于或等于阈值3则开始取 值进行预测;B、分别对时间序列T对应的曲线图横坐标和纵坐标以遍历的方式从1到100步长为 0. 1进行拉伸或压缩变换,从已有的最优模型中取出一个与变换后的测试数据集均方误差 和最小的模型S,并保留此时测试数据集的横坐标和纵坐标变换比值ki和k2 ;C、将时间序列T经过ki和k2变化得到的曲线T'替代与S中与其进行匹配的同样长 度的曲线得到变化后最匹配的模型S';D、为了得到新来舆情事件的预测曲线,需要将S'的横坐标和纵坐标分别按1/\和1/ k2进行反变换得到长期预测曲线i。
全文摘要
本发明公布了一种基于最优模型的WEB舆情趋势预测方法。该方法的基本思想就是首先对历史舆情事件进行分类获取舆情的几大类别,然后对分类获得的各个类别中事件的时间序列图进行聚类获取小类,通过保证均方误差和最小的方式求取各个小类的最优模型从而获取各个大类的最优模型集。当一个被预测对象到来时,对其进行分类处理,并选取其所属类中前期训练得到的最优模型进行匹配,从而选取出更符合本身发展趋势的模型和匹配时的变化比例,根据获得的变化比例对选取的模型进行反比例变换后获得被预测事件的长期发展趋势,这样不仅可以弥补现有网络预测技术无法预测出拐点的缺陷,而且可以使政府和监管部门采用及时有效的措施,更好的实现网络监管的功效。
文档编号G06F17/30GK101826090SQ200910167640
公开日2010年9月8日 申请日期2009年9月15日 优先权日2009年9月15日
发明者傅彦, 王沙沙, 高辉 申请人:电子科技大学