本发明涉及互联网技术领域,尤其涉及一种大数据高速整合系统。
背景技术:
我国信息化经过多年的发展,已开发了众多计算机信息系统和数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,管理层无法获得有效的决策数据支持。往往管理者要了解所辖不同部门的信息,需要进入众多不同的系统,而且数据不能直接比较分析。
一些信息系统集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距。有些单位已经建立了内部网和互联网,但多年来分散开发或引进的信息系统,形成了许多信息孤岛,缺乏共享的、网络化的可用度高的信息资源体系。
数据的共享度达不到单位对信息资源的整体开发利用的要求。简单的应用多,交叉重复也多,能支持管理和决策的应用少,能利用网络开展经营活动的应用更少。数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。
综上所述,对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范,无法获得共享通用的数据源,于是不同的应用系统之间必然会形成彼此隔离的信息孤岛。信息孤岛是当前信息化建设中亟待解决的主要症结,因此如何彻底的消除信息孤岛,有效的整合现有及未来的业务应用系统的数据资源已成为当前信息化建设的重中之重。
同时,随着计算机业务数量的增加,管理人员的操作也越来越多,越来越复杂,许多日趋复杂的中间业务处理环节依然或多或少地依靠手工处理进行流转;信息加工分析手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,无法对外部信息进行及时、准确的收集反馈,业务系统产生的大量数据无法提炼升华为有用的信息,并及时提供给管理决策部门;已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用等。
技术实现要素:
有鉴于此,本发明提供了一种大数据高速整合系统,包括:信息采集模块、信息整合分析模块、数据整合模块和数据服务模块,其中:
所述信息采集模块用于从多个数据源采集数据;
所述信息整合分析模块用于对采集的数据进行分析处理;
所述数据整合模块用于对所述信息整合分析模块处理后的数据进行分类、整合;
所述数据服务模块用于与用户对接。
进一步地,所述信息采集模块包括基于XML的WebService接口,基于JSON的RESTFul接口和标准输入输出接口。
进一步地,所述信息整合分析模块包括自动摘要单元、网页去重单元、语义分析单元、自动分类单元和自动聚类单元。
进一步地,所述信息整合分析模块包括正文提取单元、中文分词单元和中文切分单元。
进一步地,所述信息整合分析模块包括倾向性语料库、正反语料库和情感语料库。
进一步地,所述数据整合模块包括专题库、信息库和资料库。
进一步地,所述数据整合模块包括用户信息库和管理信息库。
进一步地,所述数据服务模块包括综合查阅单元、数据复用单元、信息搜索单元、数据交互单元和辅助决策单元。
进一步地,所述系统还包括安全加密模块,用于对整合后的数据进行加密。
进一步地,所述系统还包括权限管理模块,用于对待访问的数据进行权限设置。
实施本发明,具有如下有益效果:
本发明的大数据整合系统采用了标准异构的数据接口以及大数据采集挖掘技术,对互联网新闻网站、论坛、贴吧等信息进行挖掘。本发明采用先进BCE中间件信息技术能有效融合各类系统数据接口,并能与第三方系统数据进行对接整合。
同时通过信息聚合技术对衔接和采集的数据进行去重、语义分析、自动聚类、自动分类、中文分词、切成等格式化流程后,在通过系统信息整合中间平台对数据进行数据整合分类,用户可通过信息调取、查询、分析、监测、订阅等方式对数据进行应用。
本发明的优势在于:采用分布式架构,实现分布式运算;采用多种先进的抓取算法(深度优先、广度优先、数据挖掘技术);领先的相关性引擎;基于自主研发的BCE中间件平台;数据聚类技术;接口衔接技术;异构数据格式转换技术;
DTP参考模型:DTP是分布式事务处理(Distributed Transaction Process)的英文缩写。该参考模型由X/OPEN组织定义,它认为一个分布式应用系统由四个模块组成:应用、资源管理者、事务管理者、通讯管理者;标准接口衔接技术;多类数据整合技术。
集群技术:此处的集群是一种实现负载均衡的软件技术,用户可以利用低成本的服务器构造具有很高可用性和可伸缩性的高性能集群系统。此技术扩展了单个节点的处理能力,把有可能拥塞于一个节点的负载交给多个节点分担。在b/S应用结构中,通过使用集群功能,多个服务器联合起来作为一个整体,可支持成千上百的客户对系统的访问。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明的系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明提供了一种大数据高速整合系统,包括:信息采集模块、信息整合分析模块、数据整合模块和数据服务模块,其中:
所述信息采集模块用于从多个数据源采集数据;
所述信息整合分析模块用于对采集的数据进行分析处理;
所述数据整合模块用于对所述信息整合分析模块处理后的数据进行分类、整合;
所述数据服务模块用于与用户对接。
进一步地,所述信息采集模块包括基于XML的WebService接口,基于JSON的RESTFul接口和标准输入输出接口。
进一步地,所述信息整合分析模块包括自动摘要单元、网页去重单元、语义分析单元、自动分类单元和自动聚类单元。
进一步地,所述信息整合分析模块包括正文提取单元、中文分词单元和中文切分单元。
进一步地,所述信息整合分析模块包括倾向性语料库、正反语料库和情感语料库。
进一步地,所述数据整合模块包括专题库、信息库和资料库。
进一步地,所述数据整合模块包括用户信息库和管理信息库。
进一步地,所述数据服务模块包括综合查阅单元、数据复用单元、信息搜索单元、数据交互单元和辅助决策单元。
进一步地,所述系统还包括安全加密模块,用于对整合后的数据进行加密。
进一步地,所述系统还包括权限管理模块,用于对待访问的数据进行权限设置。
实施本发明,具有如下有益效果:
本发明的大数据整合系统采用了标准异构的数据接口以及大数据采集挖掘技术,对互联网新闻网站、论坛、贴吧等信息进行挖掘。本发明采用先进BCE中间件信息技术能有效融合各类系统数据接口,并能与第三方系统数据进行对接整合。
同时通过信息聚合技术对衔接和采集的数据进行去重、语义分析、自动聚类、自动分类、中文分词、切成等格式化流程后,在通过系统信息整合中间平台对数据进行数据整合分类,用户可通过信息调取、查询、分析、监测、订阅等方式对数据进行应用。
本发明的优势在于:采用分布式架构,实现分布式运算;采用多种先进的抓取算法(深度优先、广度优先、数据挖掘技术);领先的相关性引擎;基于自主研发的BCE中间件平台;数据聚类技术;接口衔接技术;异构数据格式转换技术;
DTP参考模型:DTP是分布式事务处理(Distributed Transaction Process)的英文缩写。该参考模型由X/OPEN组织定义,它认为一个分布式应用系统由四个模块组成:应用、资源管理者、事务管理者、通讯管理者;标准接口衔接技术;多类数据整合技术。
集群技术:此处的集群是一种实现负载均衡的软件技术,用户可以利用低成本的服务器构造具有很高可用性和可伸缩性的高性能集群系统。此技术扩展了单个节点的处理能力,把有可能拥塞于一个节点的负载交给多个节点分担。在b/S应用结构中,通过使用集群功能,多个服务器联合起来作为一个整体,可支持成千上百的客户对系统的访问。
本发明可应用于大数据挖掘、多类数据整合,支持大数据挖掘、多格式数据整合分析。本发明的系统基于Java跨平台,支持多种数据库跨平台,数据互联流转,具有高性能,高扩展性,适合对互联网舆情和对大数据应用较高的行业。
本发明的系统通过互联网海量数据挖掘和其他信息数据进行整合,并进行分析,聚合海量数据以实现话题发现和整合。它可以聚合新闻和其他站点的关于某一主题内容的信息进行检测,并统一地推送给信息使用者,从而提高信息使用效率。信息分布式聚合可以对应用于用户对舆情的某一类舆情信息需求的订阅,信息使用者通过使用RSS聚合可以更快捷地获取有关舆情信息,并统一在用户端进行显示。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。