一种基于校验规则的分类和质检方法及系统的制作方法
【专利摘要】本发明公开了一种基于校验规则的分类和质检方法及系统,方法包括,对数据库中的数据表进行监控,根据所述监控的维度建立新的校验规则;将所述校验规则进行重要类型分类,并按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率;开启新增的作业,并进行质检;质检是否存在异常数据,若存在,则根据报警规则进行反馈。系统包括:监控模块,规则建立模块,处理模块,质检模块,作业单元以及数据库。本发明将数据库后台监控实现为平台的可视化操作;并且将繁杂的校验规则通过有效的分类管理,实现了根据重要性的进行分类、定时监控。
【专利说明】
一种基于校验规则的分类和质检方法及系统
技术领域
[0001]本发明属于数据库处理技术领域,涉及一种数据质检系统,尤其涉及金融资讯数据的质检系统;同时,本发明还涉及一种上述质检系统的校验规则。
[0002]
【背景技术】
[0003]随着金融资讯数据呈现出“几何级数”式的增长,对采集的资讯数据进行及时、有效的质检,保证数据的正确性,对于后续的数据存储、分发、衍生计算及应用起到重要的预警保障作用,是底层数据生产上关键的一环。传统的质检采取人工查询数据库方式,效率低、难以发现问题源、对数据库压力大,对于个别少量问题人工方式尚可,但难以应对大数据环境。
【发明内容】
[0004]本发明要解决的技术问题是,通过将繁杂的校验规则通过有效的分类管理,实现了根据重要性的进行分类、定时监控并按照周期进行质检。
[0005]解决上述技术问题,本发明提供了一种基于校验规则的分类和质检方法,包括,
[0006]对数据库中的数据表进行监控,根据所述监控的维度建立新的校验规则;
[0007]将所述校验规则进行重要类型分类;
[0008]并按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率;
[0009]开启新增的作业,并进行质检;
[0010]质检是否存在异常数据,若存在,则根据报警规则进行反馈。
[0011]更进一步,所述进行监控的方法为,对需要监控的数据库添加数据源。
[0012]更进一步,新的校验规则按照逐一增加或者EXCEL批量导入。
[0013]更进一步,所述新的校验规则的属性包括,需要检查的数据表、规则的描述、重要类型分类、对应的检查人员。
[0014]更进一步,所述执行频率包括,每小时、每天、每月、每年。
[0015]更进一步,所述检测是否存在异常数据的方法为,对于系统中某一作业,按设定的频率执行,执行成功后,如果校验的数据库中存在违反该作业下某一规则的记录时,则会在质检系统的报警界面出现对应规则及异常数据量信息。
[0016]更进一步,所述新的校验规则包括:字段与字段之间逻辑关系、记录与记录之间的逻辑关系、表与表之间的逻辑关系,所述字段包括:数值型字段、时间型字段、参数型字段、整数型字段进行重要类型分类;所述记录与记录之间的逻辑关系为:在一同个表中不同记录之间的逻辑关系校验;所述表与表之间的逻辑关系是指:有内在关系的不同表的记录之间的校验。
[0017]更进一步,将所述校验规则进行重要类型分类包括:及时性校验规则分类、准确性校验规则分类、完整性校验规则分类。
[0018]本发明还提供了一种基于校验规则的分类和质检系统,包括,
[0019]监控模块,所述监控模块用以对数据库中的数据表进行监控,
[0020]规则建立模块,所述规则建立模块用以根据所述监控的维度建立新的校验规则;
[0021]处理模块,所述处理模块用以将所述校验规则进行重要类型分类,并按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率;
[0022]质检模块,所述质检模块用以质检是否存在异常数据,若存在,则根据报警规则进行反馈;
[0023]作业单元,所述作业单元用以进行新增作业任务;并执行作业任务;
[0024]数据库,所述数据库用以储存待质检的数据。
[0025]更进一步,所述规则建立模块建立包括:及时性校验规则、准确性校验规则以及完整性校验规则。
[0026]本发明的有益效果:
[0027]I)本发明的方法将数据库后台监控实现为平台的可视化操作。
[0028]2)本发明的方法将繁杂的校验规则通过有效的分类管理,实现了根据重要性的进行分类、定时监控。
[0029]3)本发明的系统自动化作业质检系统,通过将数据本身的检查转化为对质检校验规则的监控,同时,采取程序自动化执行和人工监测可视化的报警界面,能迅速定位问题点,极大的提升了数据质检的效率和效果。
【附图说明】
[0030]图1是本发明一实施例中的基于校验规则的分类和质检方法流程示意图。
[0031 ]图2是图1中新的校验规则的结构示意图。
[0032]图3是本发明一实施例中检测是否存在异常数据的方法流程示意图。
[0033]图4是本发明一实施例中的基于校验规则的分类和质检系统的结构示意图。
[0034]图5是本发明一优选实施例中的基于校验规则的分类和质检方法流程示意图。
【具体实施方式】
[0035]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0036]请参考图1是本发明一实施例中的基于校验规则的分类和质检方法流程示意图。
[0037]在本实施例中的分类和质检方法流程如下:
[0038]步骤SlOl对数据库中的数据表进行监控,根据所述监控的维度建立新的校验规贝1J。作为本实施例中的优选,所述进行监控的方法为,对需要监控的数据库添加数据源。比如,可以通过数据入库的时间与数据源或者是三方进行对比,考核同一时间点的入库量差异或者最早的入库记录与数据源最早披露公告的时间差,用以确保及时性校验。
[0039]步骤S102将所述校验规则进行重要类型分类,作为本实施例中的优选,所述校验规则进行重要类型分类包括:及时性校验规则分类、准确性校验规则分类、完整性校验规则分类,具体地,所述及时性校验规则分类,可以通过数据入库的时间与数据源或者是三方进行对比。比如,ODBC开放数据库互连(Open Database Connectivity,)采用的是开放服务结构(TOSA,Windows Open Services Architecture)中有关数据库的一个组成部分,ODBC建立了一组规范,并提供了一组对数据库访问的标准应用程序编程接口 API。这些API利用SQL数据库来完成其大部分任务。更进一步,所述新的校验规则按照逐一增加或者EXCEL批量导入。
[0040]具体地,在步骤S102中,对于web网页需要的配置信息包括:web服务需要的数据源、操作类型(比如,添加、修改、删除或者查询)、请求参数和返回值、结果过滤条件、web服务名称及URL、版本号、服务描述。然后根据配置的操作类型、请求参数、返回值、过滤条件动态生成相关数据库查询语句。接着,生成用于保存单条数据记录的数据模型,进行规则的重要程度分类,根据配置的返回值信息动态生成用于保存单条数据记录的数据模型代码,生成数据模型。
[0041 ]步骤S103按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率,所述的作业是指将大量零散的校验规则按照统一执行频率、时间进行分类,实现统一管理的执行任务。更进一步,对作业的分类基于:数值型字段、时间型字段、参数型字段、整数型字段。或者按质检的角度划分为:及时性校验规则、准确性校验规则、完整性校验规则。作为本实施例中的优选,对新增的作业设定执行频率包括,每小时、每天、每月、每年。
[0042]步骤S104开启新增的作业,并进行质检。在设定了执行频率后,可以开始进行质检。本领域技术人员能够明了,对作业进行的质检包括但不限于:负责上市公司、基金、理财、保险、债券、机构、宏观、行业等各类金融数据的审计工作和错误汇总工作(包括日常数据审查和历史数据清理);或者,负责相关金融数据库表结构技术文档的审查工作。
[0043]步骤S105质检是否存在异常数据,若存在,则根据报警规则进行反馈。所述质检是否存在异常数据,根据设置的校验规则进行判断,若符合校验规则,则不进行报警。
[0044]具体地,在步骤S105中,如存在如下规则A:
[0045]任意一只股票的发行日期必须小于上市日期;
[0046]那么,所述规则A对应数据库中的对应的表B进行全表检验,当所述表B中存在数据【发行日期大于等于上市日期】时,则会在质检平台的报警界面显示规则A(包含数据表名,对应规则名、异常记录条数)。如果表B中的数据都满足【发行日期小于上市日期】时,该规则运行完毕,则不会在质检平台的报警界面进行显示。
[0047]图2是图1中新的校验规则的结构示意图。
[0048]所述新的校验规则的属性包括:需要检查的数据表201、规则的描述202、重要类型分类203、对应的检查人员204。具体地,需要检查的数据表201包括,表1、表2、表3以及表N。所述规则的描述202包括,字段与字段之间逻辑关系、记录与记录之间的逻辑关系、表与表之间的逻辑关系。重要类型分类203包括,及时性校验规则分类、准确性校验规则分类、完整性校验规则分类。所述及时性校验规则分类,可以通过数据入库的时间与数据源或者是三方进行对比,考核同一时间点的入库量差异或者最早的入库记录与数据源最早披露公告的时间差,用以确保及时性校验。所述准确性校验规则分类,字段与字段之间逻辑关系的准确性、记录与记录之间的逻辑关系的准确性、表与表之间的逻辑关系的准确性。所述完整性校验规则分类,包括:字段与字段、记录与记录、表与表的完整性,比如,记录的完整性主要是通过开发表间记录的业务关系、转换关系来验证记录的完整性。字段与字段的完整性需要,源表记录与目的表记录对应字段的完整性,或者与三方对应字段的检验。所述对应的检查人员204为金融数据质检员。
[0049]图3是本发明一实施例中检测是否存在异常数据的方法流程示意图。
[0050]在本实施例中,检测是否存在异常数据的方法为:
[0051]步骤S301对于系统中某一作业,按设定的频率执行,作为本实施例中的优选,设置的频率为,每小时、每天、每月、每年。所述在系统中某一作业包括但不限于,是指根据设置的校验规则,并按照统一执行频率、统一执行时间进行重要程度分类后,实现统一管理的执行任务。
[0052]步骤S302是否执行成功?若成功,则进入步骤S303;首先需要判断在步骤S301中的作业流程是否按照设定的频率进行执行,即判断是否执行成功。若不成功,则不进行下面的步骤。
[0053]步骤S303校验的数据库中是否存在违反该作业下的规则的记录,所述的某一规则可以是,在字段层面的校验规则,比如数值型字段只能存阿拉伯数字,如电话号码字段只能是数字,ID号码只能是数字;或者数值型字段的取值必须在一定范围内,比如输入金额必须大于O;或者参数型字段的取值种类必须大于字段的取值情况且必须在对应的参数范围内,比如参数A>参数B是必要条件时,分类才有意义。或者字段之间存在逻辑比较关系,比如参数A>参数B,参数A+参数B〈参数C......。
[0054]步骤S304校验的数据库中存在违反该作业下某一规则的记录,根据上述步骤的判断,来确定在作业中是否存在违反规则的记录。由于采用了自动化作业质检方式,对数据本身的检查转化为对质检校验规则的监控,能迅速定位问题点,同时配合上人工的报警处理,能够极大的提高数据质检的效率和效果。
[0055]步骤S305在质检报警界面出现对应规则及异常数据量信息。本领域技术人员能够明了,所述的质检报警界面在前端可以采用UKUser Interface)进行处理,后台可以选择包括但不限于JAVA等开源编程语言进行实现。所述异常数据量信息包括但不限于:数据之间的校验规则不符、记录之间的校验规则不符以及字段与字段的校验规则不符。
[0056]图4是本发明一实施例中的基于校验规则的分类和质检系统的结构示意图。
[0057]在本实施例中,基于校验规则的分类和质检系统包括:
[0058]监控模块401,所述监控模块401用以对数据库中的数据表进行监控,所述进行监控的方法为,所述监控模块401对需要监控的数据库添加数据源。比如,可以通过数据入库的时间与数据源或者是三方进行对比,考核同一时间点的入库量差异或者最早的入库记录与数据源最早披露公告的时间差,用以确保及时性校验。
[0059]规则建立模块402,所述规则建立模块402用以根据所述监控的维度建立新的校验规则;在所述规则建立模块402中的校验规则,是通过人工分析数据,根据已有规范约定或发现记录的变动规律,进而确定字段与字段之间、记录与记录之间、表与表之间的逻辑关系,将这些关系标准化为计算机可识别的语言,形成可以独立运行的SQL,由计算机或人工辅助计算机来实现对数据的逻辑约束。根据所述监控的维度建立新的校验规则包括:数值型字段、时间型字段、参数型字段、整数型字段等都可以从多角度开发其校验规则。同时从按检查的角度划分包括:及时性校验规则、准确性校验规则、完整性校验规则。
[0060]具体地,在本实施例中的及时性校验规则,主要是通过数据入库的时间与数据源或者是三方进行对比,考核同一时间点的入库量差异或者最早的入库记录与数据源最早披露公告的时间差。具体地,在本实施例中的准确性校验规则,主要根据I)字段层面的校验规则:数值型字段只能存阿拉伯数字,如电话号码字段只能是数字。数值型字段的取值必须在一定范围内,比如年份,以及参数型字段的取值种类必须大于字段的取值情况且必须在对应的参数范围内,以及字段之间存在逻辑比较关系。2)记录之间校验规则:在一个SQL中的表内不同记录之间的逻辑关系校验,比如,表中的记录之间的时间先后关系,即按照时间节点来确定校验关系。又比如,记录之间的数值大小关系。3)数据表之间校验规则:有内在关系的不同表的记录之间的校验。比如,表间记录存在依存关系的、表间记录存在转换关系的。
[0061 ]具体地,在本实施例中的完整性校验规则包括:
[0062]I)记录完整性校验,比如记录的完整性主要是通过开发表间记录的业务关系、转换关系来验证记录的完整性。
[0063]1.1)表间记录的业务关系
[0064]比如A表的记录依赖于B表的记录(如某证券当日上市,那么行情表中必须要有该证券行情记录);
[0065]1.2)表间记录的转换关系(如A表的股票简称字段到B表则可能转换成股票代码)
[0066]2)字段完整性校验
[0067]2.2)源表记录与目的表记录对应字段检验,比如,如源表字段A的单位是:万元,而目的表的字段B的单位是:元;则需要将字段A乘以10000后转到字段B,则需核查目的表的数据对应关系是否正确。
[0068]2.3)与第三方对应字段的检验,比如,同行业公司的数据对比。如万得、同花顺等第三方。
[0069]处理模块403,所述处理模块403用以将所述校验规则进行重要类型分类,并按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率;作为本实施例中的优选,在所述处理模块403中设置的频率为,每小时、每天、每月、每年。所述在系统中某一作业包括但不限于,是指根据设置的校验规则,并按照统一执行频率、统一执行时间进行重要程度分类后,实现统一管理的执行任务。重要类型分类为规则建立模块402中的:及时性校验规则分类、准确性校验规则分类、完整性校验规则分类。
[0070]质检模块404,所述质检模块404用以质检是否存在异常数据,若存在,则根据报警规则进行反馈;质检模块404中对作业进行的质检包括但不限于:负责上市公司、基金、理财、保险、债券、机构、宏观、行业等各类金融数据的审计工作和错误汇总工作(包括日常数据审查和历史数据清理);或者,负责相关金融数据库表结构技术文档的审查工作。异常数据即是不符合校验规则的数据。
[0071 ]作业单元405,所述作业单元405用以进行新增作业任务;并执行作业任务;在所述作业单元405执行完整的作业任务,即按照校验规则对金融数据进行分类以及质检。
[0072]数据库406,所述数据库406用以储存待质检的数据。在本实施例中可将数据库后台监控实现为平台的可视化操作;并且将繁杂的校验规则通过有效的分类管理,实现了根据重要性的进行分类、定时监控。具体地,对于系统中某一作业,按设定的频率执行,执行成功后,如果校验的数据库中存在违反该作业下某一规则的记录时,则会在质检系统的报警界面出现对应规则及异常数据量等信息。该规则的负责人员则会第一时间看到相关报警。另外,新上传至系统的规则在审核前是无法纳入作业并执行的。审核人员通过系统字段“是否审核”对规则进行筛选,过滤出尚未审核的规则审评是否满足规则开发规范、验证的数据是否符合逻辑、语法是否正确等。
[0073]另外,在本实施例中规则建立模块402还用以:根据数据入库时的人为约定、问题数据的分析与总结、字段与字段之间、记录与记录之间的逻辑关系等多种手段,结合校验规则开发规范编写校验规则文档,并转化为SQL在数据库中进行数据查询,验证规则的实用性。
[0074]图5是本发明一优选实施例中的基于校验规则的分类和质检方法流程示意图。
[0075]规则表50包括:字段与字段之间的逻辑关系501、记录与记录之间的逻辑关系501、表与表之间的逻辑关系501。在建立规则表50后进行如下步骤:
[0076]步骤S501建立多维度校验规则,在步骤S501中可以包括,人为约定、问题数据的分析与总结、表与表之间的逻辑关系、字段与字段之间、记录与记录之间的逻辑关系等多种手段,结合校验规则开发规范编写校验规则文档,并转化为SQL在数据库中进行数据查询,验证规则的实用性。
[0077]步骤S502审核,可以是人工审核,也可以是设定好对应规则的机器对字段的审核。另外,新上传至系统的规则在审核前是无法纳入作业并执行的。审核人员通过系统字段“是否审核”对规则进行筛选,过滤出尚未审核的规则审评是否满足规则开发规范、验证的数据是否符合逻辑、语法是否正确等。
[0078]步骤S503是否满足规则和逻辑,比如,数值型字段、时间型字段、参数型字段、整数型字段。或者按质检的角度划分为:及时性校验规则、准确性校验规则、完整性校验规则。
[0079]步骤S504按照规则重要级别、重要性分类将规则纳入不同的作业,所述校验规则进行重要类型分类包括:及时性校验规则分类、准确性校验规则分类、完整性校验规则分类,具体地,所述及时性校验规则分类,可以通过数据入库的时间与数据源或者是三方进行对比。比如,ODBC开放数据库互连(Open Database Connectivity,)采用的是开放服务结构(WOSA,Windows Open Services Architecture)中有关数据库的一个组成部分,ODBC建立了一组规范,并提供了一组对数据库访问的标准应用程序编程接口 API。这些API利用SQL数据库来完成其大部分任务。更进一步,所述新的校验规则按照逐一增加或者EXCEL批量导入。
[0080]步骤S505设定频率开始运行作业,对新增的作业设定执行频率包括,每小时、每天、每月、每年。
[0081]步骤S506是否有异常数据,按照上述的校验规则,进行判断。在本实施例中的准确性校验规则,主要根据I)字段层面的校验规则:数值型字段只能存阿拉伯数字,如电话号码字段只能是数字。数值型字段的取值必须在一定范围内,比如年份,以及参数型字段的取值种类必须大于字段的取值情况且必须在对应的参数范围内,以及字段之间存在逻辑比较关系。2)记录之间校验规则:在一个SQL中的表内不同记录之间的逻辑关系校验,比如,表中的记录之间的时间先后关系,即按照时间节点来确定校验关系。又比如,记录之间的数值大小关系。3)数据表之间校验规则:有内在关系的不同表的记录之间的校验。
[0082]步骤S507报警界面提醒,质检报警界面在前端可以采用UKUser Interface)进行处理,后台可以选择包括但不限于JAVA等开源编程语言进行实现。所述异常数据量信息包括但不限于:数据之间的校验规则不符、记录之间的校验规则不符以及字段与字段的校验规则不符。
[0083]步骤S508质检人员,主要负责上市公司、基金、理财、保险、债券、机构、宏观、行业等各类金融数据的审计工作和错误汇总工作(包括日常数据审查和历史数据清理);或者,负责相关金融数据库表结构技术文档的审查工作。
[0084]步骤S509问题数据,经过分类后不符合质检规则,
[0085]步骤S510数据处理单元,反馈到报警界面提醒,对于系统中某一作业,按设定的频率执行,执行成功后,如果校验的数据库中存在违反该作业下某一规则的记录时,则会在质检系统的报警界面出现对应规则及异常数据量等信息。该规则的负责人员则会第一时间看到相关报警。
[0086]所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于校验规则的分类和质检方法,其特征在于包括, 对数据库中的数据表进行监控,根据所述监控的维度建立新的校验规则; 将所述校验规则进行重要类型分类; 并按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率; 开启新增的作业,并进行质检; 质检是否存在异常数据,若存在,则根据报警规则进行反馈。2.根据权利要求1所述的基于校验规则的分类和质检方法,其特征在于,所述进行监控的方法为,对需要监控的数据库添加数据源。3.根据权利要求1所述的基于校验规则的分类和质检方法,其特征在于,新的校验规则按照逐一增加或者EXCEL批量导入。4.根据权利要求3所述的基于校验规则的分类和质检方法,其特征在于,所述新的校验规则的属性包括,需要检查的数据表、规则的描述、重要类型分类、对应的检查人员。5.根据权利要求1所述的基于校验规则的分类和质检方法,其特征在于,所述执行频率包括,每小时、每天、每月、每年。6.根据权利要求1所述的基于校验规则的分类和质检方法,其特征在于,所述检测是否存在异常数据的方法为,对于系统中作业,按设定的频率执行,执行成功后,如果校验的数据库中存在违反该作业下规则的记录时,则会在质检报警界面出现对应规则及异常数据量?目息O7.根据权利要求1所述的基于校验规则的分类和质检方法,其特征在于,所述新的校验规则包括:字段与字段之间逻辑关系、记录与记录之间的逻辑关系、表与表之间的逻辑关系,所述字段包括:数值型字段、时间型字段、参数型字段、整数型字段进行重要类型分类;所述记录与记录之间的逻辑关系为:在一同个表中不同记录之间的逻辑关系校验;所述表与表之间的逻辑关系是指:有内在关系的不同表的记录之间的校验。8.根据权利要求1所述的基于校验规则的分类和质检方法,其特征在于,将所述校验规则进行重要类型分类包括:及时性校验规则分类、准确性校验规则分类、完整性校验规则分类。9.一种基于校验规则的分类和质检系统,其特征在于,包括, 监控模块,所述监控模块用以对数据库中的数据表进行监控, 规则建立模块,所述规则建立模块用以根据所述监控的维度建立新的校验规则; 处理模块,所述处理模块用以将所述校验规则进行重要类型分类,并按照所述重要类型分类对作业进行分类;以及对新增的作业设定执行频率; 质检模块,所述质检模块用以质检是否存在异常数据,若存在,则根据报警规则进行反馈; 作业单元,所述作业单元用以进行新增作业任务;并执行作业任务; 数据库,所述数据库用以储存待质检的数据。10.根据权利要求9所述的系统,其特征在于,所述规则建立模块建立包括:及时性校验规则、准确性校验规则以及完整性校验规则。
【文档编号】G06Q40/00GK105824870SQ201610030974
【公开日】2016年8月3日
【申请日】2016年1月15日
【发明人】黄涛, 胡春华, 黄 俊, 鄢坤
【申请人】优品财富管理有限公司