本发明涉及一种数据仓库的数据质量监控方法,同时也涉及相应的数据质量监控系统,属于数据库。
背景技术:
1、随着计算机技术的发展和普及,很多企业实行了信息化管理。在信息化管理系统中,数据库管理是重中之重。数据库是信息化系统建设的核心,保证数据库系统的安全、稳定、持久的运行是每个运维人员的职责。
2、随着大数据时代的到来,前端业务越来越复杂化、多元化,传统的数据库监控无法及时发现系统运行过程中潜在的问题,容易造成数据库数据丢失,给企业带来不良影响。而且,数据复杂和多元增加了运维人员的工作,导致监控不全面,效率低下等问题。
3、另一方面,现有的数据仓库采集技术比较生硬且被动,往往只能根据提前配置好的信息去同步数据。然而,由于业务端的线上业务不断调整以及沟通不及时或者疏漏,容易造成数据仓库同步数据不及时甚至是出错。
技术实现思路
1、本发明所要解决的首要技术问题在于提供一种数据仓库的数据质量监控方法。
2、本发明所要解决的另一技术问题在于提供一种数据仓库的数据质量监控系统。
3、为实现上述目的,本发明采用以下的技术方案:
4、根据本发明实施例的第一方面,提供一种数据仓库的数据质量监控方法,包括如下步骤:
5、获取业务端的数据源信息;
6、基于预设规则,将所述数据源信息与数据仓库中的元数据信息相比对,以获取数据对比结果;
7、根据所述数据比对结果,判断数据仓库是否需要进行数据同步;
8、若无需数据同步,则结束本次数据同步流程;若需要数据同步,则发出预警通知并完成本次数据同步,以结束本次数据同步流程;
9、本次数据同步流程结束后,间隔预设时长,再次获取业务端的数据源信息,以进行下一次的数据同步流程。
10、其中较优地,所述数据源信息至少包括:数据量、数据包大小、表字段以及字段类型。
11、其中较优地,所述数据质量监控方法还包括:
12、基于数据源信息的不同数据类型,预先根据数据使用频率和数据敏感度设置数据优先级;其中,所述优先级至少包括低和高;
13、根据待同步数据的数据类型,确定所述待同步数据的优先级;
14、基于所述待同步数据的优先级,获取所述待同步数据的数据同步方式;其中,所述数据同步方式至少包括:系统自动同步和人工手动同步。
15、其中较优地,所述数据比对结果至少包括:数据新增、数据变更、数据突变和数据不变;
16、其中,所述数据新增表示已有数据不变且出现新数据;所述数据变更表示已有数据中的一部分出现变化;所述数据突变表示已有数据的数据包大小突增或突减;所述数据不变表示已有数据未出现变化。
17、其中较优地,若所述数据比对结果为数据新增,则数据同步过程包括:
18、根据预先配置好的元数据信息,检查出数据源信息中的新增数据;
19、根据所述新增数据的数据类型,获取所述新增数据的优先级;
20、根据所述新增数据的优先级,在数据仓库中创建相应的数据表,并调度新增的数据补入所述数据表内;
21、其中,低优先级的新增数据通过人工手动在数据仓库中创建相应的数据表;高优先级的新增数据通过数据仓库自动创建相应的数据表。
22、其中较优地,若所述数据比对结果为数据变更,则数据同步过程包括:
23、根据预先配置好的元数据信息,检查出数据源信息中的变更数据;所述变更数据至少包括:字段类型变更或字段数据变更;
24、根据所述变更数据的数据类型,获取所述变更数据的优先级;
25、根据所述变更数据的优先级,在数据仓库中修改已有的元数据信息;
26、其中,低优先级的变更数据通过人工手动在数据仓库中修改已有的元数据信息;高优先级的变更数据通过数据仓库自动修改已有的元数据信息。
27、其中较优地,若所述数据比对结果为数据突变,则数据同步过程包括:
28、根据预先配置好的元数据信息,检查出数据源信息中的数据量突增或突减;
29、系统触发报警提示,并通知异常处理人员;
30、通过异常处理人员分析确认后,人工手动同步已有的元数据信息。
31、其中较优地,所述数据同步之后,还包括:
32、通过显示界面向用户展示当前的数据同步结果。
33、其中较优地,所述数据质量监控方法还包括:
34、每隔预设周期,输出周期性数据同步报告;所述数据同步报告至少包括:数据同步次数、本周期内的新增数据和本周期内的变更数据。
35、根据本发明实施例的第二方面,提供一种数据仓库的数据质量监控系统,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作:
36、获取业务端的数据源信息;
37、基于预设规则,将所述数据源信息与数据仓库中的元数据信息相比对,以获取数据对比结果;
38、根据所述数据比对结果,判断数据仓库是否需要进行数据同步;
39、若无需数据同步,则结束本次数据同步流程;若需要数据同步,则发出预警通知并完成本次数据同步,以结束本次数据同步流程;
40、本次数据同步流程结束后,间隔预设时长,再次获取业务端的数据源信息,以进行下一次的数据同步流程。
41、与现有技术相比较,本发明具有以下的技术效果:
42、1.按照数据仓库对应的元数据信息进行监控,按照预设规则,将所采集数据源信息与已有数据进行数据比对,从而在数据比对结果出现异常时,及时做出预警通知以及异常处理,由此来保证数据的准确性,一致性和及时性。
43、2.可以根据数据使用频率和数据敏感度设置数据优先级,从而针对高优先级的待同步数据进行系统自动同步,以提高数据同步效率,节约人工成本;针对低优先级的待同步数据进行人工手动同步,以对待同步数据进行针对性处理,以避免关键信息的丢失。
44、3.通过当前数据同步展示以及阶段性数据统计的方式,能够获取数据仓库的数据变动情况,以便于后续的数据统计工作。
1.一种数据仓库的数据质量监控方法,其特征在于包括如下步骤:
2.如权利要求1所述的数据质量监控方法,其特征在于:
3.如权利要求1所述的数据质量监控方法,其特征在于还包括:
4.如权利要求3所述的数据质量监控方法,其特征在于所述数据比对结果至少包括:数据新增、数据变更、数据突变和数据不变;
5.如权利要求4所述的数据质量监控方法,其特征在于若所述数据比对结果为数据新增,则数据同步过程包括:
6.如权利要求4所述的数据质量监控方法,其特征在于若所述数据比对结果为数据变更,则数据同步过程包括:
7.如权利要求4所述的数据质量监控方法,其特征在于若所述数据比对结果为数据突变,则数据同步过程包括:
8.如权利要求1所述的数据质量监控方法,其特征在于所述数据同步之后,还包括:
9.如权利要求1所述的数据质量监控方法,其特征在于还包括:
10.一种数据仓库的数据质量监控系统,其特征在于包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作: