专利名称:一种分布式海量数据汇聚方法
技术领域:
本发明涉及数据仓库及数据挖掘技术。
背景技术:
随着信息化建设的大力发展,各大企业开始启用网络服务来管理企业信息,随着业务的发展网络服务所需的设备也日益增多;为了确保网络服务的可用就需要对所有设备进行自动监控;同时为了确保监控数据的健全性各大企业基本采用多种专项监控设备对整个网络进行全方面、实时的监控。随着监控设备的长时间运行,获得了庞大的监控数据,就需要对数据进行汇聚提高监控数据的查看效率;同时随着多厂商多种监控设备的启用,就需要对所有监控数据的集中分析,剔除无效、重叠数据,监控数据以统计数据结构进行存储。传统方法为1)建立一个数据中心机手动安装和创建数据库;2)手动将各监控系统的数据拷贝至数据中心机,在数据中心机上保持源数据数据结构和原始数据;3)人工编写数据库脚本将数据结构相同的数据存储在同一个存储设备当中,需要手动或半自动设置唯一标识;4)在获取综合统计信息时需要根据不同的数据结构采用不同的查询命令,将所需数据一一获取后再进行统计。 所以需要一个方法来解决或优化上述问题。
发明内容
本发明的目的针对现技术下网络监控数据存在数据庞大检索困难,监控系统多元化、数据结构多元化下监控数据整合困难等问题提出一种分布式海量数据汇聚方法,以提高对监控数据的查看、分类的效率。为了实现上述目的,本发明公开了一种分布式海量数据汇聚方法,该方法包括以下步骤
A、用户在中心机上配置采集机连接信息;
步骤A连接信息包含以下内容1)采集机设备连接信息;2)采集机数据获取方式及调用参数;获取方式包括两种数据库直连方式和系统接口获取方式。根据所选数据获取方式其对应的参数也不相同;数据库直连方式参数为数据库网络地址、数据库端口号、数据库类型、数据库名称、数据库登陆用户名、数据库登陆密码; 系统接口获取方式参数为系统服务网络地址,系统服务端口号、系统权限用户名、系统权限密码、接口所述框架或体系。上述数据库直连方式参数,所述特征数据库类型包含如下Oracle、MySql、 SqlServerλ Sybase, DB0上述系统接口获取方式参数,所述特征接口所述框架或体系包含如下 webservice、corba、socket、snmp、TLl0在确保所配置采集机连接信息正确无误,中心机将进行一次测试连接,当测试通过后,中心机将存储该采集机的连接信息。
步骤A所述中心机为本方法主导机,可以为单台中心机也为可中心机集群;所述采集机为各种网络性能采集设备的中心机;中心机与采集机可以为不同厂商、不同运营商、 不同运维商,可以使用不同的数据结构。采集机与采集机可以为不同厂商、不同运营商、不同运维商,可以使用不同的数据结构。B、设备管理员在中心机上,根据各采集机数据结构差异,配置多组汇聚规则文件;
汇聚规则文件主要描述数据获取方式方法,所获数据在中心机如何解析、如何存储。步骤B中所述,规则文件根据数据获取方式不同主要分为两种模板模板一为数据库直连方式的规则文件,文件主要需要定义如下内容所需获取数据的数据结构、查询命令、所获取数据对应在中心机上的数据结构位置;模板二为系统接口获取方式的规则文件, 文件主要需要定义如下内容所需要调用的接口方法名、所需要传递的参数、返回数据的格式及解析模板、返回数据中各具体数据所对应在中心机上的数据结构位置。根据采集机内部数据结构可以配置多个规则文件为一组规则文件。步骤B为中心机设备管理员或运维人员进行配置。C、用户在中心机上为采集机选择对应的汇聚规则文件; 步骤C 用户为所配置的采集机选择其所对应的汇聚规则文件。一台采集机可以选择同一组规则文件中的多个规则文件,同一组规则文件可以被多个相同数据结构的采集机所选。这样可以有效地对汇聚规则文件进行重用及便于统一修改,提高工作效率。D、中心机启动采集定时器根据连接信息自动连接采集机;
步骤D中,中心机将自动调用采集定时器连接采集机,采集定时器将每天执行一次,具体执行时间由设备管理员进行配置。E、中心机依据采集机所配汇聚规则文件获取监控数据;
步骤E中心机根据该采集机所选的汇聚规则文件获取上一天的数据,直接查询所需数据或者调用采集机系统接口获得该接口返回数据。F、中心机依据各采集机所配规则文件,将所获数据进行压缩统计并将结果存储在各存储模块;
步骤F中所述各存储模块中心机将根据数据来源、采集机类型、采集机端数据结构划分出多个存储模块。步骤F中在中心机对所获得数据按时间进行压缩统计,将统计后数据以统一的数据结构存储至不同的存储模块;统计时根据采集连接信息所选数据获取方式采取不同的操作
1、当数据获取方式为数据库直连方式时,中心机所的数据及所需数据,只许以小时为单位对数据按时间进行压缩统计,获得每小时的最大值、平均值、最小值、总值、以及最大值和最小值所在时间点,将统计后数据以统一的数据结构存储至不同的存储模块小时表并会根据小时表的数据统计一天的数据将结果存储至各存储模块天表。2、当数据获取方式为系统接口获取方式时,中心机首先根据规则文件解析并格式化所返回的数据,然后再根据规则文件获得所需要的数据、剔除无效、无用数据后以小时为单位对有效数据按时间进行压缩统计,获得每小时的最大值、平均值、最小值、总值、以及最大值和最小值所在时间点,将统计后数据以统一的数据结构存储至不同的存储模块。中心机将几种监控数据设定为同一类型数据,其在中心机中的数据结构将一致, 方便统一存储、统一查询。中心机中每一个存储模块中都存在多个小时表、多个天表、多个周表、多个月表、 多个年报;具体以预设值的数据类型为基础,每个存储模块,将会为该模块下数据,所属的每一种类型创建一组时间表即小时、天、周、月、年表。G、中心机启动分级汇聚定时器,定时对存储模块中数据分级汇聚;分级汇聚定时器会自动对存储模块中的数据按周、月、年3个级别进行汇聚、实现查询预处理功能,在用户通过中心机查询统计各数据时,中心机会自动根据所查询的时间范围查询不同级别表。步骤G 中心机将自动启动分级汇聚定时器即周汇聚定时器、月汇聚定时器、年汇聚定时器;具体执行日期时间周汇聚定时器每周执行一次、月汇聚定时器每月执行一次、年汇聚定时器每年执行一次;具体执行时间为可配置,由设备管理员进行配置。周汇聚定时器将以天表为基础统计上一周的数据并将结果存储至各存储模块的周表当中;
月汇聚定时器将以天表为基础统计上一月的数据并将结果存储至各存储模块的月表当中;
年汇聚定时器将以月表为基础统计上一年的数据并将结果存储至各存储模块的年表当中。上述分布式海量数据汇聚方法的突出优点在于1)中心机应自动集成数据库,无须客户安排人员进行单独安装,减少了人员的投入、节省了成本;2)中心机会自动根据规则获取各采集机的数据无须人工拷贝,其优点在于a、避免人工操作造成的错误,b、全自动的采集工作最大限度的提高了工作效率,C、自动采集时间可配置,数据采集更及时更准确;3) 中心机根据配置文件自动对所采集数据进行无效数据的剔除操作以及数据分类,无须繁琐的人工操作,避免了人工编写剔除命令以及分类命令时存在编写错误的可能性;4)中心机自动根据数据类型采用统一格式存储至不同存储模块,数据结构更具层次化;4)中心机通过定时器对数据进行预处理,数据查询统计时最大限度的提高查询速度、所统计的数据也更精确。
本发明将通过例子并参照附图的方式说明,其中图1是工作流程总图。图2是数据抽取汇聚方法示意图。图3是据定期统计方法示意图。图4是数据抽取方法流程图。
具体实施例方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。下面将结合附图对本发明做进一步的说明
如图1、本发明方法基本流程如下用户在汇聚中心机上配置采集机的连接信息、采集机数据获取方式及调用参数;选定由设备管理员配置的汇聚规则文件,由中心机自动进行验证,验证通过后对所配信息进行存储;中心机将自动调用采集定时器,定时采集数据至中心机;中心机内部将自动调用汇聚定时器对数据按时间级别周、月、年,进行汇聚。关于本发明中,中心机的数据结构来源如图2,本发明数据来源来自各采集机,中心机自身不进行具体设备数据采集操作;中心机首先根据所配置的采集机连接信息和汇聚规则文件获取监控数据;其次中心机根据汇聚规则文件对数据进行有效性验证、剔除无效数据以及数据压缩统计;最后根据数据来源、采集机类型、采集机端数据结构将统计后数据存储到对应存储模块当中。数据压缩统计及存储具体步骤如下
1)将数据一小时为单位进行汇总,将结果存储到存储模块中对应的小时表当中;
2)根据1)汇总后的数据为依据,将数据再次以天为单位进行汇,将结果存储到存储模块中对应的天表当中。中心机具体获取采集数据方法如图4具体步骤如下
a、用户在中心机配置采集机连接信息数据访问方式数据库直连方式;数据库网络地址172. 16. 104. 2 ;数据库类型mySql ;数据库服务端口号3066 ;数据库服务名称 oral ;数据库用户名root ;数控库登入密码root ;选择汇聚规则文件wersionl. 1文件组。b、中心机启动采集定时器,采集定时器根据用户配置采集机连接信息,主动连接采集机。C、当中心机连接采集机成功后,根据versionl. 1文件组中所配置的数据查询信息,项所需采集的数据自己查询获取,并将获取后的数据发回中心机。C、中心机将所得数据按时间进行统计,首先按小时统计,计算出每小时的最大值、 最小值、平均值、总值、以及最大值、最小值的具体时间点;再按天进行统计,计算出每天的最大值、最小值、平均值、总值、以及最大值、最小值的具体时间点。d、将统计后的数据根据不用数据源、不同系统、不同指标类型进行分区存储,使数据具有层次化、区域化、级别化以便后续的数据查询统计。e、中心机将自动调用汇聚定时器,对存储数据进行进一步的汇聚处理,如图3本发明方法在每周定时启动一次周汇聚定时器对中心机上所用天表上一周的数据进行统计汇总,将上一周的统计值存入对应的各周表当中;每月定时启动一次月汇聚定时器对中心机所用天表上一月的数据进行进一步统计汇总,将上一月的统计值存入对应的各月表当中;每年定时启动一次年汇聚定时器对中心机所有月表上一年的数据进行进一步统计汇总,将上一年的统计值存入对应的各年表当中;在用户通过中心机查询统计各数据时,中心机会自动根据所查询的时间范围查询不同级别表。本发明并不局限于前述的具体实施方式
。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
权利要求
1.一种分布式海量数据汇聚方法,该方法包括以下步骤A、用户在中心机上配置采集机连接信息;B、设备管理员在中心机上,根据各采集机数据结构差异,配置多组汇聚规则文件;C、用户在中心机上为采集机选择对应的汇聚规则文件;D、中心机启动采集定时器根据连接信息自动连接采集机;E、中心机依据采集机所配汇聚规则文件获取监控数据;F、中心机依据各采集机所配汇聚规则文件,将所获数据进行压缩统计并将结果存储在各存储模块;G、中心机启动分级汇聚定时器,定时对存储模块中数据分级汇聚。
2.根据权利要求1所述的一种分布式海量数据汇聚方法,其特征在于所述中心机为本方法主导机,可以为单台中心机也为可中心机集群;所述采集机为各种网络性能采集设备的中心机;中心机与采集机可以为不同厂商、不同运营商、不同运维商,可以使用不同的数据结构;采集机与采集机可以为不同厂商、不同运营商、不同运维商,可以使用不同的数据结构。
3.根据权利要求1或2所述的方法,其特征在于所述步骤A用户在中心机上配置采集机连接信息,连接信息包含以下内容1)采集机设备连接信息;2)采集机数据获取方式及调用参数;获取方式包括两种数据库直连方式和系统接口获取方式。
4.根据权利要求3所述的一种分布式海量数据汇聚方法,其特征在于所述步骤B设备管理员在中心机上,根据各采集机数据结构差异,配置多组汇聚规则文件汇聚规则文件主要描述数据获取方式方法,所获数据在中心机如何解析、如何存储;根据采集机内部数据机构可以配置多个规则文件为一组规则文件。
5.根据权利要求4所述的一种分布式海量数据汇聚方法,其特征在于所述步骤C用户在中心机上为采集机选择对应的汇聚规则文件一台采集机可以选择同一组规则文件中的多个规则文件,同一组规则文件可以被多个相同数据结构的采集机所选,用于有效地对汇聚规则文件进行重用及便于统一修改。
6.根据权利要求5所述的一种分布式海量数据汇聚方法,其特征在于所述步骤D中心机启动采集定时器根据连接信息自动连接采集机中心机将自动调用采集定时器连接采集机,采集定时器将每天执行一次,具体执行时间由设备管理员进行配置。
7.根据权利要求6所述的一种分布式海量数据汇聚方法,其特征在于所述步骤E中心机依据采集机所配汇聚规则文件获取监控数据;和F中心机依据各采集机所配汇聚规则文件,将所获数据进行压缩统计并将结果存储在各存储模块中心机根据该采集机所选的汇聚规则文件获取上一天的数据,直接查询所需数据或者调用采集机系统接口获得该接口返回数据;中心机对所获得数据按时间进行压缩统计,将统计后数据以统一的数据结构存储至不同的存储模块。
8.根据权利要求7中所述的一种分布式海量数据汇聚方法,其特征在于所述按时间进行压缩统计以小时为单位对有效数据按时间进行压缩统计,获得每小时的最大值、平均值、最小值、总值、以及最大值和最小值所在时间点。
9.根据权利要求7中所述的一种分布式海量数据汇聚方法,其特征在于所述步骤G 中心机启动分级汇聚定时器,定时对存储模块中数据分级汇聚分级汇聚定时器会自动对存储模块中的数据按周、月、年3个级别进行汇聚、实现查询预处理功能,在用户通过中心机查询统计各数据时,中心机会自动根据所查询的时间范围查询不同级别表。
全文摘要
本发明公开了一种分布式海量数据汇聚方法,该方法包括以下步骤:A、用户在中心机上配置采集机连接信息;B、设备管理员在中心机上,根据各采集机数据结构差异,配置多组汇聚规则文件;C、用户在中心机上为采集机配置对应的汇聚规则文件;D、中心机启动采集定时器根据连接信息自动连接采集机;E、中心机依据采集机所配汇聚规则文件,采集所需数据并发回中心机;F、中心机依据各采集机所配汇聚规则文件,将采集回的数据进行压缩统计并将结果存储在各存储模块当中;G、中心机启动分级汇聚定时器,定时对存储模块中数据分级汇聚。上述方法中采集机与中心机可以为不同厂商,采集机与采集机可以为不同厂商、不同数据结构。
文档编号G06F17/30GK102209118SQ20111015411
公开日2011年10月5日 申请日期2011年6月10日 优先权日2011年6月10日
发明者周关力 申请人:成都勤智数码科技有限公司