一种数据仓库数据监控的方法
【技术领域】
[0001]本发明涉及一种对数据库的业务数据源处理过程中出现异常进行监控的方法。
【背景技术】
[0002]—个数据仓库对应着多个业务数据源。随着业务不断深化,需要分析的数据也不断增多,相应的,数据仓库任务繁多。每天有大量的新增数据存储在数据仓库中,如果每日任务处理过程中出现异常,会影响数据的质量,并且可能对接下来往后时间内的数据产生影响。因此及时发现数据在处理过程中的异常,进行处理。对数据仓库的是非常重要的。CN103605722A 一种数据库监控方法,根据各数据库的信息,获取与各数据库的信息对应的监控配置文件;根据获取的与各数据库的信息对应的监控配置文件,利用预先编写好的与各数据库的信息对应的监控程序,对各自对应的数据库进行监控。
[0003]CN103746837A数据库监控系统,包括数据库监控装置和监控集群,其中,所述数据库监控装置,用于接收来自监控集群的触发指令;发送第一指令至负载均衡装置,所述第一指令用于指示所述负载均衡装置检测集群是否可用、所述集群是否可用是指所述集群中的每个节点的软件主体是否存在;接收来自所述负载均衡装置的第一响应消息;强调对负载均衡监控。
[0004]但现有技术未有对业务数据源改变而将要产出异常的预警以及对数据库的全面的监控,这对保障数据仓库的稳定准确是十分有效的。为达到对现有任务监控,更加有效利用的预防数据缺失遗漏,同时监控业务系统数据源变化的目的,现提出一种数据仓库的数据监控技术,对数据仓库的每日处理的数据质量进行全方位的监控。
【发明内容】
[0005]本发明提出了一种数据仓库数据监控的方法,它通过执行定时监控任务及相关的一系列配置可实现对数据仓库每日更新的表的数据情况进行监控,还可以实现因业务数据源改变而将要产出异常的预警,能够及时发现在程序运行中出现的各种问题。对保障数据仓库的稳定准确的运行可以起到相当重要的作用。
[0006]本发明的技术方案是,一种数据仓库数据监控的方法,包括:
[0007]I)确定需要进行监控的数据仓库的监控表及内容,进行参数配置,监控表参数配置的内容分三种;
[0008]1-1)数据量监控配置
[0009]数据量监控主要监控的内容是监控表列出和当日新增的数据量是否异常,判断异常的标准首先是数据量是否为0,如果为O那么就是异常;其次是与昨日及上周同日的历史数据进行对比,如果与历史数据比较相差超过一定比例或阈值,比如50%,则视为异常;
[0010]需要监控配置的内容包括数据(项目)名称、表名、时间字段、时间字段类型、统计项目、统计条件、监控时间等内容;监控程序会根据需要监控配置的内容拼接成相应的SQL语句,待调度程序来执行;
[0011]1-2)数据库的数据源表结构监控配置
[0012]数据源表结构主要监控的内容是监控数据源的表结构是否发生变化,包括新增字段、删除字段、修改字段类型、修改字段长度等;这些变化有些会导致数据同步程序报错,有些可能代表业务发生改变都是需要数据分析人员关注的。
[0013]需要监控配置的内容主要包括数据库的类型(比如Oracle或Mysql)、数据库连接方式、数据库表名、对应数据库名等内容;监控程序会根据这些内容到相应数据库中查看表结构信息;并与之前保存的相应业务数据库信息进行比较,如果发现有变动,系统发告警到指定人员;
[0014]1-3)数据源的表字段取值监控配置
[0015]数据源表字段取值监控主要监控的内容是监控数据源表重点字段的取值,通常是维度表的取值,这些取值出现变化,代表了业务出现了变化;也是需要分析人员进行关注的。
[0016]需要配置的内容主要包括数据库表名、字段名称、数据类型等内容;监控程序会根据这些内容到数据仓库中查看相关的字段取值;并与之前保存的相应的字段取值信息进行比较,如果发现有变动,系统发告警到指定人员。
[0017]2)部署服务器任务,定时执行监控程序。
[0018]因为数据仓库数据每天都在更新,相应的监控程序也要在每天执行。要根据每日数据仓库的运行时间来大致确定每日监控的执行时间。
[0019]而且因为每个数据业务更新时间有不一致之处,同时监控的及时性需要越及时越好,这样所有监控程序也不可能统一在一个时间执行。在实现时采取了定时监控,如果监控任务没有全部完成,监控程序会休眠一段时间继续执行的方式。确保了监控及时性和完整性。
[0020]3)将监控结果形成报告发送给指定人员;
[0021]监控执行最后,需要将检查出的异常情况告知到相关责任人,告警方式包括报表、邮件、短信等,根据告警的级别来选择告警方式。严重告警必须通过短信方式及时通知到维护人员,普通级别的告警不用立刻解决的采用邮件方式告警。
[0022]另外系统监控配置中还包括告警人员配置,配置的内容包括人员姓名、手机、邮箱等内容。将不同的表按照项目进行划分,每个项目配置对应的负责人员。系统运行中发现的异常会按照对应的配置发给相关人员。
[0023]同时还有一套相应的报表系统,方便监控人员查看历史报警记录。
[0024]本发明的有益效果:
[0025]1、能够清楚掌握到每日数据仓库日常调度的执行情况是否正常;
[0026]2、在数据处理过程中的异常情况,通过系统预警和人工处理相结合的方法处理,保证数据处理过程中的可靠稳定;
[0027]3、全面的系统监控,提高了系统的可用性,也提高了系统维护的效率;
[0028]4、对数据库全面监控,对多个监控需求能够通过平台化统一完成,避免重复开发,降低成本。
【附图说明】
[0029]图1本实施例的一种数据仓库数据监控的方法处理流程图。
【具体实施方式】
[0030]如图1,本实施例一种数据仓库数据监控的方法处理流程,包括:
[0031]步骤11、确定待监测的数据仓库表、数据源表及数据表字段等信息。
[0032]其中,配置数据量监控表的基本原则是,要数据仓库监控表的表都是比较重要的表。应该能够覆盖数据仓库分析的80%以上的指标。同时监控表的每日数据量不要过大,不要太过明细,而应该选择监控统计过后的表。比如网站详细访问日志表,每天会有几百万条数据,而通过这个数据仓库监控的访问日志表经统计后的表进行监控,统计后的派生表可能只有几百条,这样监控这个派生表能够保证监控程序的效率,而且也可以满足监控的需求。
[0033]在配置数据源监控时,要将同步数据源的每一个表都进行配置,确保将因数据源的变动产生的影响控制到最小。
[0034]在配置数据表字段时,要根据业务来确定哪些字段需要监控。一般需要监控的是主要业务表的维度字段。比如注册的会员类型、会员状态这些。这些改动都可能代表着业务发现调整。极有可能对数据统计会产生一定的影响。
[0035]步骤12、分析待监控表的信息,按照配置表的要求将其保存在监控配置表中。因为系统包括三个监控功能,因此需要配置三个配置表。详细的配置内容在下面的步骤中介绍。
[0036]步骤13、根据配置信息,监控表数据量及趋势是否正常
[0037]例如要监控注册会员表的每日新增数据量,需要配置的信息如下
[0038]I)项目名称:数据仓库基础表(数据仓库数据量的监控)
[0039]2)表名:USERS
[0040]3)时间字段:TRUNC (ADDJIME)
[0041]4)时间字段类型