本发明涉及信息技术领域,具体的说是一种网络舆情文本信息推荐及可视化方法。
背景技术:
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。网络情报服务系统是利用搜索引擎技术和网络信息挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络情报监督管理的需要,最终形成情报简报、情报专报、分析报告、移动快报,为决策层全面掌握情报动态,做出正确舆论引导,提供分析依据。
传统的舆情推荐系统根据用户阅读兴趣和文本内容,向用户推荐舆情信息。传统方法在舆情推荐上效果较差的主要原因是:政府部门及企事业单位关注网络舆情具有地域性(例如武汉的舆情事件和新疆的舆情事件,武汉的政府部门会更关心前者),且国内各省市内的区、镇、村的名字具有重名现象,地理位置识别后,需要消除歧义;政府部门及企事业单位关注网络舆情的历史数据较少,很难通过分析用户行为数据进行舆情信息推荐,推荐系统的冷启动问题。且舆情服务需求具有独特性(准确的地理位置分析、用户关注的主题分布、文本的情感程度、突发事件的爆发性、传播量);网络舆情来源很广(媒体评论、微信公众号、微博、贴吧、论坛、博客等),文本长短切内容形式差异很大。
基于此,针对上述现状中存在的问题,本发明提出了一种网络舆情文本信息推荐及可视化方法,能够准确、全面、快速的为用户推荐舆情信息。
技术实现要素:
为了解决上述现有技术的问题,本发明提供一种网络舆情文本信息推荐及可视化方法,能够准确、全面、快速的为用户推荐舆情信息。
本发明解决其技术问题所采用的技术方案是:
一种网络舆情文本信息推荐及可视化方法,包括以下步骤:
步骤1、构建地理位置信息、网络媒体地域信息的知识库,构建地理位置信息知识库包括国、省、市、区、县、镇、村的地理位置信息,构建为树状结构,根节点为中国;
步骤2、通过深度学习,将构建的知识库进行预处理,对网络舆情文本内容进行准确的地理位置信息的识别;
步骤3、通过垂直细分领域的主题模型,对预处理的文本信息进行匹配聚类与过滤;
步骤4、对步骤3中统计文本信息,使用fm算法进行排序,展现过滤后得到的文本信息。
进一步地,所述步骤2中预处理具体为:
a1、训练bilstm+crf模型,对文本内容中进行实体识别,标注出地名,进行地名识别;
a2、如果地名在地理信息数据库中查询,只存在1个节点,则结束;
a3、如果地名存在歧义,通过文本的数据来源,结合网络媒体地域信息知识库进行推理;
a4、针对无地域信息的文本数据,如果文本内容中地名出现个数大于1,根据这些地址在树状结构的节点分布,根据各个节点距地的总和最小的原则,推理出地名的准确信息。
进一步地,所述步骤3具体为:
b1、将预处理的信息,进行垂直细分领域划分;
b2、通过多个垂直领域的主题模型,长文本用lda模型,短文本用sentencelda,得到该文本的主题分布;
b3、将用户关心的事件进行主题分布,与文本的主题分布的匹配程度进行聚合,将长文本和短文本分开处理,得到用户关注的文本主题分布;
b4、对文本信息进行过滤,计算得到的用户关注的文本主题分布和主题模型中的文本主题分布的hellingerdistance距离,设置阈值,低于阈值的数据,不会匹配到用户。
进一步地,所述步骤4具体为:
c1、依据文本信息的发布时间属性,统计一定时间间隔内文本所在聚类过滤后的文本的来源信息;
c2、用情感计算的方法,计算该类别下文本的平均情感强烈程度;
c3、根据文本的情感强度,采用fm算法对文本信息进行实时动态排序并展现。
进一步地,所述步骤4中fm算法进行运算时具体根据下述任一因素或下述因素的任意组合:文本信息的情感强烈程度、数据来源、给定时间间隔内相似文本传播量、传播数量增长幅度。
与现有技术相比,本发明的有益效果是:
本发明通过改进的地理位置识别及推理方法,可以准确监控用户关心的地理区域;通过用户匹配可以将用户关心的内容打上用户标签,给用户高效、全面、准确的推荐数据;同时,用户数据排序可以将舆情分析引擎系统的热点信息与突发事件排在前面,方便用户加强舆情监控,提高用户舆情应对能力。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所述的一种网络舆情文本信息推荐及可视化方法,包括以下步骤:
步骤1、构建地理位置信息、网络媒体地域信息的知识库,构建地理位置信息知识库包括国、省、市、区、县、镇、村的地理位置信息,构建为树状结构,根节点为中国,构建网络媒体地域信息知识库具体为,荆楚网关联湖北省,包头新闻网关联包头市等;
步骤2、通过深度学习,将构建的知识库进行预处理,对网络舆情文本内容进行准确的地理位置信息的识别;
步骤3、通过垂直细分领域的主题模型,对预处理的文本信息进行匹配聚类与过滤;
步骤4、对步骤3中统计文本信息,使用fm算法进行排序,展现过滤后得到的文本信息。
在上述方案中,通过深度学习可以建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本。
具体实施时,所述步骤2中预处理具体为:
a1、训练bilstm+crf模型,对文本内容中进行实体识别,标注出地名,进行地名识别;
a2、如果地名在地理信息数据库中查询,只存在1个节点,则结束;
a3、如果地名存在歧义,通过文本的数据来源,结合网络媒体地域信息知识库进行推理;
a4、针对无地域信息的文本数据,如微博、博客等,如果文本内容中地名出现个数大于1,根据这些地址在树状结构的节点分布,根据各个节点距地的总和最小的原则,推理出地名的准确信息。
具体实施时,所述步骤3具体为:
b1、将预处理的信息,进行垂直细分领域划分,如教育、食品安全、环境保护、自然灾害等;
b2、通过多个垂直领域的主题模型,长文本用lda模型,短文本用sentencelda,得到该文本的主题分布;
b3、根据用户关注的需求,如用户关心添加剂超标、食物中毒等事件,将用户关心的事件进行主题分布,与文本的主题分布的匹配程度进行聚合,将长文本和短文本分开处理,得到用户关注的文本主题分布;
b4、对文本信息进行过滤,计算得到的用户关注的文本主题分布和主题模型中的文本主题分布的hellingerdistance距离,设置阈值,低于阈值的数据,不会匹配到用户。
具体实施时,所述步骤4具体为:
c1、依据文本信息的发布时间属性,统计一定时间间隔内文本所在聚类过滤后的文本的来源信息;
c2、用情感计算的方法,计算该类别下文本的平均情感强烈程度;
c3、根据文本的情感强度,采用fm算法对文本信息进行实时动态排序并展现。
具体实施时,所述步骤4中fm算法进行运算时具体根据下述任一因素或下述因素的任意组合:文本信息的情感强烈程度、数据来源、给定时间间隔内相似文本传播量、传播数量增长幅度。
通过以上实施方式,地理区域的识别得到提高;给用户推荐的数据质量提高,覆盖全面;突发事件和热点事件排序靠前,用户体验得到明显提升;方便政府部门及企事业单位高效率的进行舆情事件监控及处理。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。