舆情热点自动监测系统的制作方法
【技术领域】
[0001] 本发明涉及互联网舆情信息获取和利用,尤其涉及舆情热点自动监测系统。
【背景技术】
[0002] 目前,我们在互联网舆情信息获取和利用方面,与工作要求仍存在着较大的差距, 主要表现在:
[0003] 1、互联网信息的获取能力不足。面对复杂庞大、类型多样、数据量巨大的互联网数 据,还不能全面、快速、有效地找到并获取满足实际需要的信息。通过传统方法获取的数据 总量少、覆盖面窄、来源单一,极大地限制了工作有效开展;
[0004] 2、互联网信息的挖掘处理能力不足。对于已经获取的互联网数据,不能按照实际 工作需要,开展数据挖掘处理,从中找出事件背景和原因,查明主体之间的内在关系,及时 发现社会热点问题,预测事件发展趋势等;
[0005] 3、缺乏适用的互联网舆情监测分析系统。还没建立满足工作需要的互联网舆情监 测分析应用系统,不能对海量互联网数据进行处理,不能及时发现网络舆情热点,不能做好 处置准备工作。
[0006] 为了维护社会政治稳定,加强互联网管理、组织力量展开互联网舆情监测分析成 为目前主要政府部门急需解决的现实问题。要解决这一问题,需要有智能的舆情监测分析 系统,用来实现针对互联网海量舆情自动实时的监测分析,从而有效地解决政府部门以传 统的人工方式对网络舆情监测的实施难题。舆情监测分析系统需要整合互联网技术及信息 智能处理技术,对境内、境外互联网海量信息进行自动抓取和分析,实现网络舆情热点监测 和分析的信息需求,为政府全面掌握群众思想动态提供分析依据。
[0007] 及时开展政府部门互联网网舆情监测分析系统研究,建设为实际工作服务的互联 网信息挖掘应用系统,具有极高的重要性和紧迫性。
[0008] 综上所述,针对现有技术存在的不足,特别需要舆情热点自动监测系统,以解决现 有技术的不足。
【发明内容】
[0009] 本发明的目的是提供自行车防盗物联网监控系统,解决校园中自行车随意停放和 自行车经常被盗的现象。
[0010] 本发明为解决其技术问题所采用的技术方案是,
[0011] 舆情热点自动监测系统,该系统包括有汉语自动分词模块、特征提取模块;
[0012] 汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语 自动分词的切分歧义及其消除单元;
[0013] 特提提取模块包括有特征表示单元、向量空间模型单元;
[0014] 该系统的自动监测方法的步骤如下:
[0015] 1、从数据源读入一篇报道,对多个网络新闻数据源进行不间断地监测,从网络中 自动抓取新闻报道,解析出新闻报道的时间、标题和正文信息等,如果没有从报道中找到时 间,则以抓取时间为准;
[0016] 由于多个数据源之间存在相当的重复,对新抓取的新闻报道,根据报道的文本内 容进行消重处理;如果新报道和之前已经处理的新闻报道重复度大于重复阈值9d,则认 为是重复的新闻报道,本实施例中设定的重复阈值0d为0. 9 ;
[0017] 由于新闻报道的范围过于宽泛,采用基于来源的规则分类以及基于内容的自动分 类相结合的方法,对新闻报道进行分类,规则分类根据新闻来源以及作者等进行分类,基于 内容的自动分类采用向量空间模型(VSM)和支持向量机算法(SVM),根据报道内容和标题 对新闻报道进行自动分类;并且按照所属类别c进行步骤2 -步骤7的处理;
[0018] 2、采用质心比较策略,将报道与所属类别c内现有监测到的新闻主题进行比较, 同时考虑时间特征和内容特征,计算报道和主题间的相似度,并记录最大相似度Smax以及 相似度最大的主题Es,确定与当前报道最相近的主题;主题本身通过主题内部所有新闻中 综合权重最高的若干个特征词来表达;新闻报道和主题之间的相似度基于向量空间模型, 通过两者的夹角余弦值(cosine)来计算,同时新闻报道的标题赋予较高权重;
[0019] 3、根据步骤2计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道 采取如下措施:
[0020] A.如果Smax小于创新阈值0n(本实施例中为0. 25):在该报道所属类别内创建 一个新主题;
[0021] B.如果Smax大于0n而小于聚类阈值0c(本实施例中为0.30):不作处理,返回 步骤1);
[0022] C.如果Smax大于0c而小于贡献阈值0t(本实施例中为0. 35):归入当前主题;
[0023] D.如果Smax大于0t:归入主题Es,并调整Es;
[0024] 上述的Smax、0n、0c、0t的取值范围均大于0而小于等于1 ;
[0025] 4、当一个类处理用户确定的固定数量的新增报道之后,对该类别内新闻主题两两 比较;如果两个主题的相似度大于合并阈值0u,则将其合并,主题之间的相似度计算公式 可以采用传统聚类算法中计算两个聚类相似度的方法,综合考虑两个主题中所有新闻报道 之间的两两相似度,采用如下公式:
[0027] 其中,El,E2是两个监测到的新闻主题,di,dj分别为El,E2中的新闻报道,Sim (El,E2)是两个新闻报道之间的相似度,|E」,|E2|分别为两个主题中包含的新闻报道数 目;
[0028] 5、当一个类处理用户确定的固定数量的新增报道之后,对各主题内的新闻报道进 行淘汰:重新计算新闻报道和该主题的相似度,对相似度低于聚类阈值9c、或者不满足限 制条件的新闻报道进行淘汰;然后再重新计算主题内部表示及其权重;
[0029] 6、若当前类别内的主题数量超过主题窗口大小,对类别内的所有新闻主题进行排 序:结合新闻主题的时间特性和数量特性,计算新闻主题的得分值并排序;计算得分值时 同时考虑多个不同的排序,同时考虑最近12个小时、1天、3天、7天、30天等,只有当主题在 任何排序中都不在主题窗口内时,才将该主题淘汰;这样,多重排序就给用户提供了不同粒 度的信息参考,系统将不在主题窗中的新闻主题淘汰,用于提高系统处理的效率;
[0030] 7、根据用户要求,对外输出监测结果:对于类别内的当前所有主题,计算其描述; 同时,结合主题的时间特性和主题内的新闻报道数量特性,从所有类别中选择出得分最高 的若干个新闻主题,作为该类别最热点的新闻主题,输出主题描述和包含的新闻报道列表, 其中,主题描述的生成过程如下:
[0031]A.读取主题内部权重最高的若干个特征词;
[0032]B.在与主题相似度大于主题阈值0e的主题内新闻报道中,选择时间最近的一篇 新闻报道的标题;主题阈值还可以采取按照比例的方式;
[0033] C.综合A和B,输出该主题的描述。
[0034] 进一步,所述的自动分词的基本算法单元包括有最大匹配法、全切分算法、概率乘 算法;
[0035] 最大匹配法是机械分词的算法不考虑任何词与词之间的连接可能性,只按照长度 在词典中寻找句子里出现的字符串:算法比较成熟,以最大匹配法(MaximumMatching,简 称MM)最具有代表性;
[0036] 最大匹配法的思想是:从输入流中取最大长度(本系统中取6)字符串,在词典中 进行查找,匹配则输出,继续取,否则,回溯,继续查找,直到长度为1,此时需在输入流中前 进一格,此过程进行到取完输入流;
[0037] 全切分算法是一种不存在切分盲点的算法;所谓全切分算法,就是求出形式上所 有符合词典的切分形式;采用此算法,涉及到一个选取最优切分式的问题;
[0038] 概率乘算法是基于统计的方法利用字与字间、词与词间的同现频率作为分词的依 据;这种方法的优点在于它不受应用领域的限制,而且也不局限于实现建立的分词词典; 该方法需要大规模的训练文本,用以训练模型参数;
[0039] 训练文本的选择也将对分词的结果产生明显的影响;
[0040] 设S=sl,s,…,sm是待切分的汉字串,假设S有n个切分式,W=wl,w2,…,wk,是 第i个切分式,i=l~n;
[0041] 设P(W/S)是汉字串S切分为W的概率,则基于统计的分词方法就是从S的n 个切分式中找到概率最大的切分式,
[0042]即P(W/S)=MAX(P(W1/S),P(W2/S)...,P(Wn/S)),P(W/S)称为评价函数;
[0043] 根据贝叶斯公式,有:P(W/S)=P(W)P(S/W) /P(S)对于S的多种切分方 式,P(S)为一常数,而P(S/W)是在给定词串的条件下出现句子S的概率,故P(S/W) =1,所以P(W/S)~P(W)。
[0044] 进一步,所述的未登陆词的识别单元包含有两个性能指标:
[0045] 1.召回率(Recall):指识别出来的某种类型的未登录词的数量和文本中属于该类 型的未登录词总数之比,
[0046] 2.精确率(Accuracy):指在识别出来的未登录词中,属于该类型未登录词的数目 和辨识出来的未登录词的总数之比。
[0047] 进一步,所述的汉语自动分词的切分歧义及其消除单元:汉语的分词是一个理解 的过程,这个过程综合了司法、语法、语义等各种信息,汉语自动分词与这些信息的运用是 既相互联系又相互制约的一种相辅相成的关系,纯粹的机械切分必然会带来切分歧义;
[0048] 切分歧义是指汉语句子中的某些字段,如果纯粹根据词表做简单的字符串匹配, 则它可能存在多种切分形式,含有切分歧义的汉字串称为歧义字段,切分歧义是汉语自动 分词研究中的一个难点,切分歧义的基本类型有三种:
[0049] 1.交叉歧义:也称交集型切分歧义,即汉字串ABC既可以切分成AB/C形式,也 可切分成A/BC形式,即AB是词,BC也是词;
[0050] 2.组合歧义:汉字串