舆情大数据的可视化系统的制作方法

文档序号:11155623阅读:842来源:国知局
舆情大数据的可视化系统的制造方法与工艺

本发明涉及网络舆情监控技术领域,特别是涉及一种舆情大数据的可视化系统。



背景技术:

舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

随着社会进入网络时代,舆情出现了新的分支-网络舆情。网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。传统的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用网络自动抓取等技术手段方便获取,效率高而且信息保真(没有人为加工),覆盖面全。

近几年来,随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。

为了实现对网络舆情的了解,以便采取适当的应对措施,出现了网络舆情监控系统。然而现有的网络舆情监控系统只是简单地对相关信息进行检索,并未对其进行进一步的分析处理,越来越难以满足实际需求。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种舆情大数据的可视化系统,能够对网络舆情进行加工处理,并将处理结果进行可视化展示,便于用户直观地了解舆情的传播状态。

本发明的目的是通过以下技术方案来实现的:舆情大数据的可视化系统,包括数据采集模块和显示模块;

所述主题设置单元,用于获取舆情主题,并根据所述舆情主题确定临时目标网页;

所述舆情采集单元,用于根据临时网页和各数据采集装置的状态信息选择最优数据采集装置进行舆情数据采集,最优数据采集装置在接收到舆情采集指令后从临时目标网页上读取临时舆情数据;

所述存储单元,用于采用分布式存储的方式来存储所述临时舆情数据;

所述目标网页生成单元,用于计算所述所有临时舆情数据与舆情主题的匹配度,选择匹配度大于阈值的临时舆情数据作为最终舆情数据,最终舆情数据对应的网页为最终目标网页;

所述分析单元,用于对所述最终舆情数据的发布者、发布者位置和发布时间进行分析,以及对接收者的位置、接收时间进行分析;

所述显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库;

所述大数据标准接口用于获取所述分析单元输出的数据词库,并对所述数据词库中数据的格式进行标准化处理,得到标准大数据;

所述大数据可视化引擎,用于通过调用所述可视化工具库中相应的可视化工具对所述标准大数据进行可视化处理,得到可视标准大数据;通过调用所述智能知识库中相应的大数据解读模式集,对所述可视标准大数据进行解读模式匹配得到易读数据流,并在获得获取显示指令时将所述易读数据流进行GIS地图呈现处理。

优选的,所述舆情采集单元包括:控制装置,用于判断各数据采集装置的工作状态,选择出处于空闲状态的数据采集装置;在第一阈值时间内,测试各数据采集装置完全加载目标网页的次数,选出完全加载目标网页次数最多的数据采集装置作为最优数据采集装置。

优选的,所述分析单元包括:

发布者分析单元,用于获取所述最终目标网页所属网站作为最终舆情数据的发布者,获取所述最终目标网页所属网站的注册位置作为最终舆情数据的发布者位置,获取所述最终目标网页的创建时间作为发布时间;

接收者分析单元,用于获取所述最终目标网页的访问者的IP地址的归属地作为接收者的位置,获取所述访问者访问最终目标网页的时间作为接收时间。

优选的,所述发布者分析单元还用于对最终舆情数据进行分析,检测所述最终舆情数据中是否记载数据来源。

优选的,所述显示模块还包括:

指令接收子模块,用于获取所述显示指令;

GIS子模块,用于构建GIS地图;

显示子模块,用于将大数据可视化引擎的处理结果结合GIS地图进行显示。

优选的,所述目标网页生成单元包括:匹配度计算模块,用于从所述存储单元中读取临时舆情数据,并对所述临时舆情数据进行分词得到数据词库;根据预设的无效词库删除所述数据词库中的无效词;根据出现次数为所述数据词库中的各词组赋予第一权值,根据各词组的第一权值选出关键词;获取所述关键词与监控主题包含的相同词组,以及监控主题包括的词组数量;计算所述相同词组的数量与监控主题中词组的数量的比值得到匹配度;或,用于从所述存储单元中读取临时舆情数据,并对所述临时舆情数据进行分词得到数据词库;根据预设的无效词库删除所述数据词库中的无效词;根据出现次数为所述数据词库中的各词组赋予第一权值,根据各词组的第一权值选出关键词;获取所述关键词与监控主题包含的相同词组,以及监控主题包括的词组数量;为监控主题中各词组设置第二权值;计算所述相同词组的第二权值之和与监控主题中词组的第二权值之和的比值得到匹配度。

优选的,所述匹配度计算模块对所述临时舆情数据进行分词时:将所述临时舆情数据从正序和返序分别与预设词典进行匹配,得到第一中间词库;删除临时舆情数据中的标点符号,再将所述临时舆情数据从正序和返序分别与预设词典进行匹配,得到第二中间词库;根据所述第一中间词库和第二中间词库构成数据词库。

优选的, 所述第一数据采集装置从目标网页中读取临时舆情数据时:获取目标网页的网址,与所述目标网页对应的服务器建立连接,下载并解析该服务器中的超文本链接标识语言源文件。

优选的,所述存储单元包括:

封装模块,用于获取所述临时舆情数据的属性信息,并根据该属性信息将所述临时舆情数据封装为相应格式,并对所述目标数据进行编号;

数据存储模块,用于根据所述临时舆情数据的封装格式将临时舆情数据存入相应的数据库中;

编号存储模块,用于存储所述临时舆情数据的编号。

优选的,所述显示模块进行GIS地图呈现时,按照时间顺序依次在所述GIS地图上以第一颜色的亮点表示发布者位置,以第二颜色的亮点表示接收者的位置。

本发明的有益效果是:本发明能够根据输入的舆情主题获取相关的舆情数据,并对舆情数据进行分析,获得舆情数据的发布者、发布者的位置、发布时间,以及接收者的位置和接收时间,然后将分析结果进行可视化显示,使得用户可以直观地了解舆情的传播状态,以制定相应的措施。

附图说明

图1为本发明中舆情大数据的可视化系统的一个实施例的框图;

图2为本发明中舆情采集单元的一个实施例的框图;

图3为本发明中存储单元的一个实施例的框图;

图4为本发明中分析单元的一个实施例的框图;

图5为本发明中显示模块的一个实施例的框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

如图1所示,舆情大数据的可视化系统包括数据采集模块和显示模块;其中,数据采集模块包括主题设置单元、舆情采集单元、存储单元、目标网页生成单元和分析单元,所述显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库。

主题设置单元,用于获取舆情主题,并根据所述舆情主题确定临时目标网页。

如图2所示,舆情采集单元包括多个数据采集装置和控制装置,数据采集装置用于接收来自控制装置的舆情采集指令,并在接收到该舆情采集指令后按照预设规则从临时目标网页上读取目标数据,在成功读取临时舆情数据后将临时舆情数据存入存储单元,若未能成功读取舆情数据则将数据读取失败的信息和原因反馈给控制装置;控制装置用于实时监测数据采集装置的工作状态,并根据临时目标网页和各数据采集装置的状态信息选择最优数据采集装置执行舆情数据采集工作,然后向最优舆情数据采集装置发出舆情采集指令,以及用于将数据采集装置反馈过来的数据读取失败的信息和原因进行显示。

所述控制装置选择最优数据采集装置时:判断各数据采集装置的工作状态,选择出处于空闲状态的数据采集装置;在第一阈值时间内,测试各数据采集装置完全加载目标网页的次数,选出完全加载目标网页次数最多的数据采集装置作为最优数据采集装置。

本实施例通过选择最优数据采集装置来读取临时目标网页的数据,从而能够保证数据采集装置更好地进行临时目标网页的数据读取;选择空闲状态的数据采集装置保证了数据采集装置能够专注于数据采集,不会存在影响数据采集装置性能的其他任务干扰;当不存在空闲的数据采集装置时,数据读取的紧急程度进行判断,当不紧急时可以等待出现空闲状态的数据采集装置再进行数据读取,若紧急时则可以暂停重要度低的任务,使用相应数据采集装置来进行数据读取。

所述最优数据采集装置从目标网页中读取临时舆情数据时:获取目标网页的网址,与所述目标网页对应的服务器建立连接,下载并解析该服务器中的超文本链接标识语言源文件。

如图3所示,存储单元包括封装模块、数据存储模块和编号存储模块,用于采用分布式存储的方式来存储所述临时舆情数据;具体地,所述封装模块用于获取所述临时舆情数据的属性信息,并根据该属性信息将所述临时舆情数据封装为相应格式,并对所述目标数据进行编号;数据存储模块用于根据所述临时舆情数据的封装格式将临时舆情数据存入相应的数据库中;编号存储模块用于存储所述临时舆情数据的编号。

目标网页生成单元用于计算所述所有临时舆情数据与舆情主题的匹配度,选择匹配度大于阈值的临时舆情数据作为最终舆情数据,最终舆情数据对应的网页为最终目标网页。

优选的,所述目标网页生成单元包括匹配度计算模块,所述匹配度计算模块用于从所述存储单元中读取临时舆情数据,并对所述临时舆情数据进行分词得到数据词库;根据预设的无效词库删除所述数据词库中的无效词;根据出现次数为所述数据词库中的各词组赋予第一权值,根据各词组的第一权值选出关键词,即可以选择第一权值最大的多个词组作为关键词,也可以选择第一权值大于设定值的词组作为关键词;获取所述关键词与监控主题包含的相同词组,以及监控主题包括的词组数量;计算所述相同词组的数量与监控主题中词组的数量的比值得到匹配度。

或者,所述匹配度计算模块,用于从所述存储单元中读取临时舆情数据,并对所述临时舆情数据进行分词得到数据词库;根据预设的无效词库删除所述数据词库中的无效词;根据出现次数为所述数据词库中的各词组赋予第一权值,根据各词组的第一权值选出关键词,即可以选择第一权值最大的多个词组作为关键词,也可以选择第一权值大于设定值的词组作为关键词;获取所述关键词与监控主题包含的相同词组,以及监控主题包括的词组数量;为监控主题中各词组设置第二权值;计算所述相同词组的第二权值之和与监控主题中词组的第二权值之和的比值得到匹配度。

本实施例中,在提取关键词之前对数据词库中的无效词进行删除,避免了无效词对最终关键词的影响,使得提取到的关键词能够真正反映目标数据的核心内容,从而提高后续分析的可信度。

所述匹配度计算模块对所述临时舆情数据进行分词时:将所述临时舆情数据从正序和返序分别与预设词典进行匹配,得到第一中间词库;删除临时舆情数据中的标点符号,再将所述临时舆情数据从正序和返序分别与预设词典进行匹配,得到第二中间词库;根据所述第一中间词库和第二中间词库构成数据词库。

如图4所示,分析单元用于对所述最终舆情数据的发布者、发布者位置和发布时间进行分析,以及对接收者的位置、接收时间进行分析。所述分析单元包括发布者分析单元和接收者分析单元。发布者分析单元,用于获取所述最终目标网页所属网站作为最终舆情数据的发布者,获取所述最终目标网页所属网站的注册位置作为最终舆情数据的发布者位置,获取所述最终目标网页的创建时间作为发布时间;接收者分析单元,用于获取所述最终目标网页的访问者的IP地址的归属地作为接收者的位置,获取所述访问者访问最终目标网页的时间作为接收时间。

优选的,所述发布者分析单元还用于对最终舆情数据进行分析,检测所述最终舆情数据中是否记载数据来源。

如图5所示,显示模块用于获取显示指令,并根据所述显示指令将分析单元相应的分析结果结合GIS地图进行显示。显示模块包括大数据标准接口、大数据可视化引擎、可视化工具库和智能知识库,大数据标准接口用于获取所述分析单元输出的数据词库,并对所述数据词库中数据的格式进行标准化处理,得到标准大数据;大数据可视化引擎,用于通过调用所述可视化工具库中相应的可视化工具对所述标准大数据进行可视化处理,得到可视标准大数据;通过调用所述智能知识库中相应的大数据解读模式集,对所述可视标准大数据进行解读模式匹配得到易读数据流,并在获得获取显示指令时将所述易读数据流进行GIS地图呈现处理。所述显示模块还包括指令接收模块、GIS模块和显示模块,指令接收模块,用于获取所述显示指令;GIS子模块,用于构建GIS子地图;显示子模块,用于将大数据可视化引擎的处理结果结合GIS地图进行显示。所述显示模块进行GIS地图呈现时,按照时间顺序依次在所述GIS地图上以第一颜色的亮点表示发布者位置,以第二颜色的亮点表示接收者的位置。

优选的,在接收者与接收者访问的发布者之间建立一条连线,使得用户能够直观地确认重要的发布者,以便制定应对措施。

优选地,当所述最终舆情数据中记载数据来源时,在最终舆情数据的发布者与来源者之间建立一条有向连接线,使得用户能够直观的知晓舆情数据的初始来源,以及初始来源的数量。

优选的,所述网络舆情监控系统还包括防火墙单元;所述防火墙设置在数据采集装置与控制装置之间,将数据采集装置和系统的其他单元隔离开来,可避免数据采集装置读取的数据存在病毒或者数据采集装置访问目标网页时感染病毒对系统中其他设备造成影响。

以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1