基于指标集的数据质量监控方法

文档序号:6583222阅读:714来源:国知局
专利名称:基于指标集的数据质量监控方法
技术领域
本发明有关于数据质量平台领域,且特别是有关于一种基于指标集的数据质量监
控方法。
背景技术
目前,现有的数据质量平台没有单独的数据指标监控机制,如果要得到一些数据 指标就需要靠人工手动等方式,例如到服务器上执行命令的方式以获得指标。上述传统的 方法存在重复劳动和不够灵活的问题。

发明内容
有鉴于此,本发明提供一种基于指标集的数据质量监控方法,对数据质量的监控 具有较高灵活性和移植性。 本发明提出一种基于指标集的数据质量监控方法,包括以下步骤根据数据指标 定义若干指标集;通过检查点判断指标集中的数据指标是否正常;通过可分离的调度模块 管理所述检查点。 进一步的,上述指标集通过自定义的SQL提取数据指标生成,并采用XML进行配置。 进一步的,上述检查点是由一段脚本构成。 进一步的,上述检查点可以扩展发送邮件和发送短信内置包。 进一步的,上述检查点使用通用缓存包,对脚本启动弓I擎进行缓存。 进一步的,上述调度模块的触发机制包括时间触发和条件触发。 本发明的有益效果为,在本发明所提供的基于指标集的数据质量监控方法中所有
的检查都是以数据指标集为中心,并且所有的检查点都是一段脚本,选择使用脚本来做判
断极大地提高了灵活性。检查点的调度模块是可分离的模块,并且不是专为数据质量平台
设计的,可以应用于其他任何模块,使其得到重复利用。利用本发明的监控方法能够减少
60%检查代码的代码量,避免了人工操作的繁琐和效率低下,能够使非业务专家也可以对
一些指标进行监控。


图1所示为根据本发明的基于指标集的数据质量监控方法的流程示意图。
图2所示为图1中的功能方块示意图。
具体实施例方式
为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例, 并配合附图,作详细说明如下。 图1所示为根据本发明的基于指标集的数据质量监控方法的流程示意图。图2所示为图1中的功能方块示意图,请一并参考图1与图2。如图1所示,该方法包括
步骤S10,根据数据指标定义若干指标集。在本实施例中,每个指标集都是有一个 自定义的SQL提取数据指标生成。考虑到移植性,采用XML来配置这些指标。将每个指标 定义为MAP,所有的这些MAP结合在一起就是我们需要的指标集。而且,这些指标是相互之 间没有重合,相互独立的。具体的XML如下
〈maps>〈m即id=〃 r印ortl〃 db = 〃 ods" name = 〃检查1 〃 >
〈 ! [CDATA[ SELECT KEY1FR0M TABLE_A WHERE....]]>
〈/map>
〈/maps> 步骤Sll,通过检查点判断所述指标集中的数据指标是否正常。在本实施例中,对 于数据指标是否正常是有一个检查点来判断。其中,检查点是一段RUBY脚本。如图2所示, 若检查点判断结果为正常,则进行循环;若检查点判断结果为异常,则告警。
具体例子如下 Checkpoint id = 〃 1〃 name = 〃 XXX的检查">
〈 ! [CDATA[ $result. error()if$reportl〈$report2 ]]> 〈/checkpoint> 检查点使用脚本进行判断极大的提高整个数据指标监控机制的扩展性。例如,可 以扩展发送邮件和发送短信内置包,在检查点检查出有问题时,作为告警机制的内置包使 用。 然而检查点使用脚本会带来一个很大的弊端就是在启动脚本时很慢,这样会就导 致系统效率低下。在本实施例中,检查点的脚本使用了一些通用缓存包,对于脚本启动引擎 进行缓存。这样只有在第一次启动脚本引擎是会有点慢,以后执行脚本就感觉不到运行速 度的延迟。 步骤S12,通过可分离的调度模块管理所述检查点。在本实施例中,所有检查点均 由一个统一调度模块进行管理。这里检查机制模块和调度模块完全实现了解耦合,使得调 度模块不是专为数据质量平台设计的,可以用于其他任何模块。这样可以让其他项目重复 利用这个调度平台。 在本实施例中,调度模块中时间调度主要是一个CR0NTAB来表达何时触发调用, 这里CR0NTAB的表达式比较丰富。具体来说, 一个CR0NTAB表达式有至少6个(也可能7 个)有空格分隔的时间元素。按顺序依次为
秒(0 59)
分钟(0 59)
小时(0 23)天(月)(0 31 ,需要考虑该月的天数)
4
月(0 11)天(星期)(1 71 = SUN或SUN, M0N, TUE, WED, THU, FRI, SAT)
年份(1970-2099)
—个简单的例子如下 〃 01510 *6#3〃代表在每月的第三个星期五上午10:15触发; 〃 00/5 14,18** 〃代表在每天下午2点到2:55期间和下午6点到6:55期间
的每5分钟触发。 传统的监控触发机制主要是时间触发,在本实施例中,除了时间触发机制还可以包括条件触发。条件触发可以进行外部触发,比如和ODS的ETL流程结合。例如可以设置一个外部触发的接口,当ETL —个流程结束时,ETL只要调用这个外部触发接口就可以触发一个检查点。 具体来说,首先在服务器上部署数据质量后台调度程序,并初始化后台调度程序的数据库;接着在服务器上部署数据质量指标监控程序,并在服务器上部署短信邮件告警服务程序;最后在监控平台上部署WEB模块用于配置调度和检查点,包括在指标监控界面上配置指标检查类型的调度服务,在指标监控界面上配置指标检查的XML以及在指标监控界面上配置指标检查的调度时间。 本发明中所述具体实施案例仅为本发明的较佳实施案例而已,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化与修饰,都应作为本发明的技术范畴。
权利要求
一种基于指标集的数据质量监控方法,其特征在于,包括以下步骤根据数据指标定义若干指标集;通过检查点判断所述指标集中的数据指标是否正常;通过可分离的调度模块管理所述检查点。
2. 根据权利要求1所述的基于指标集的数据质量监控方法,其特征在于,所述指标集 通过自定义的SQL提取数据指标生成,并采用XML进行配置。
3. 根据权利要求1所述的基于指标集的数据质量监控方法,其特征在于,所述检查点 是由一段脚本构成。
4. 根据权利要求3所述的基于指标集的数据质量监控方法,其特征在于,所述检查点 可以扩展发送邮件和发送短信内置包。
5. 根据权利要求3所述的基于指标集的数据质量监控方法,其特征在于,所述检查点 使用通用缓存包,对脚本启动弓I擎进行缓存。
6. 根据权利要求1所述的基于指标集的数据质量监控方法,其特征在于,所述调度模 块的触发机制包括时间触发和条件触发。
全文摘要
本发明提出一种基于指标集的数据质量监控方法,包括以下步骤根据数据指标定义若干指标集;通过检查点判断指标集中的数据指标是否正常;以及通过可分离的调度模块管理所述检查点。在本发明所提供的基于指标集的数据质量监控方法中所有的检查都是以数据指标集为中心,能够减少60%检查代码的代码量,避免了人工操作的繁琐和效率低下。检查点的调度模块是可分离的模块,可以应用于其他任何模块,使其得到重复利用。
文档编号G06F17/30GK101719139SQ20091021267
公开日2010年6月2日 申请日期2009年11月10日 优先权日2009年11月10日
发明者万星明, 余志刚, 兰清, 刘树权, 孙力斌, 沈鹏程 申请人:南京联创科技集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1