一种基于Storm分布式框架的食品安全网络舆情预警系统的制作方法

文档序号:19399825发布日期:2019-12-13 19:04阅读:来源:国知局

技术特征:

1.一种基于storm分布式框架的食品安全网络舆情预警系统,其特征在于,通过爬取食品相关舆情信息,并进行分布式聚类;分析聚类结果以得到事件信息,判断舆情变化趋势,进而进行监控和预警;

所述系统的拓扑结构包括控制节点和工作节点,所述控制节点上包括nimbus组件,所述nimbus组件负责分配工作给工作节点并且监控状态;所述工作节点包括supervisor组件,所述supervisor组件负责监听所辖服务器的工作,根据需要启动/关闭工作进程;

通过spout节点从外部数据源读取数据并且随机分发给第一层bolt节点进行计算和处理,bolt节点向外继续发送本身处理后的结果给下一层bolt节点,从而将任务分成多个部分并行处理,任务拓扑在提交后会一直运行,除非显示终止;

第一层bolt节点对文本进行分词和向量化,采用nlpir汉语分词系统和食品类别表对文本进行分词处理,然后使用tf_idf算法和自编码神经网络进行向量化,实现食品类别判断,对标题和摘要分词后的结果与食品类别表中的词进行对比,对出现频率最高的食品词汇与食品类别表中的子类别进行关联匹配,得出文本在食品类别表中的父类别,作为文本的分类,其中,文本采用向量空间模型的形式来表示如表达式(1):

d={(t1,w1),(t2,w2),(t3,w3),…,(tn,wn),}(1)

其中,t1、t2、t3…tn为代表文本内容的特征项,w1、w2、w3…wn为对应特征项的权重值,特征项为通过nlpir汉语分词系将文本分词之后,出现在食品类别表中存在的词汇,通过tf-idf算法计算该词汇的权重值;

将分类后的文本发送到第二层bolt节点,使用余弦相似度算法计算文本之间的距离,形成节点微簇;

所述事件信息包括事件开始时间、事件地点、事件类别、事件中心内容、事件关键词、事件的舆情变化趋势中的任意一个或多个;

所述舆情变化趋势包括文本的转发数、评论数、会员数量、非会员数量、文本倾向度、事件变化频率和热度中的任意一个或多个;

所述文本倾向度通过对文本内容计算得到,其中,倾向度词库分为正向倾向词库、中立倾向词库、反向倾向词库,正向倾向库中的词汇舆情数值为1,个数为pos个;反向倾向库中的词汇舆情数值为-1,个数为neu个;中立倾向库中的词汇舆情数值为0,个数为neg个,则该文本的舆情倾向度y如表达式(5):

y=(pos*1)+(neu*-1)+(neg*0)(5)

文本倾向判断依据公式(6):

当舆情倾向度y大于60时,该文本为正向舆情文本;当舆情度小于60时,该文本为负向舆情文本;当舆情度大于-60小于60时,该文本为中立舆情文本。

2.根据权利要求1中任意一条所述的基于storm分布式框架的食品安全网络舆情预警系统中,其特征在于,构建舆情预警指标体系,引入ahp分析模型,得出各项指标权重,计算每个事件的预警值,通过人工筛选的方法,确定预警等级。

3.根据权利要求2所述的基于storm分布式框架的食品安全网络舆情预警系统中,其特征在于,所述舆情预警指标体系包括指标:微博数、评论数、转发数、独立用户数、变化活度和情感倾向性中的任意一个或多个。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1