一种数据质量检核方法、装置、设备及可读存储介质与流程

文档序号:22387401发布日期:2020-09-29 17:50阅读:117来源:国知局
一种数据质量检核方法、装置、设备及可读存储介质与流程
本发明涉及计算机
技术领域
,具体而言,涉及一种数据质量检核方法、装置、设备及可读存储介质。
背景技术
:我国银行业的信息化建设历经二十年的发展,目前已建立较为完备的信息系统,通过广泛的业务类型和多样的金融产品积累了大量的数据。2018年,银保监会发布“银保监发〔2018〕22号《银行业金融机构数据治理指引》”,为指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力。从数据生命周期的角度看,以下环节最容易产生数据质量问题:在系统建设阶段,如:信息要素登记缺失、定义模糊、内容重复,数据字典不完善以及与系统实际不符,系统内部遵循的标准不一致等等。在生产运行阶段,这是数据真正产生的阶段,是数据质量最容易出问题的环节,如:柜员录入不规范导致的数据质量问题,不该为空的数据出现空值,录入信息与实际不符,录入的信息重复、不一致、不完整等问题。在数据应用阶段,这不仅是检验业务系统数据质量的阶段,也是数据问题产生的阶段,如:指标名称、业务口径、技术口径不标准、不一致而导致的各部门统计的数据不一致的问题,指标数据质量检核缺乏规则及工具支撑、报表数据问题定位难度大,解决效率低等问题。为了解决数据质量问题,大型银行会成立专职的数据管理团队,采购专门的商业数据管控工具,对全行的数据进行治理,这往往需要至少几十上百人,几百上千万资金的投入。而广大的中小银行因为人力物力的缺乏,更倾向于向自有系统供应商的寻求支持,针对特定监管领域提供功能有限的质量管理工具。但是这些工具往往可配置性不够,无法根据需求的变化自定义质量检核规则,无法对银行各业务系统的数据进行全面的检核。技术实现要素:鉴于上述问题,本发明提供了一种数据质量检核方法、装置、设备及可读存储介质,可以大大提升质量检核结果的准确性和有效性,降低使用和维护成本。为解决上述技术问题,本发明实施例提供的具体技术方案如下:第一方面,提供一种数据质量检核方法,包括如下步骤:1)根据质量检核需求,对多业务系统数据进行关联建模,生成关联建模结果;2)根据所述关联建模结果,配置数据质量检核规则,获取数据配置结果;3)将所述数据配置结果导入规则解析器,生成检核脚本;4)将所述检核脚本导入脚本执行器,生成检核明细表;5)对所述检核明细表进行汇总统计,生成检核结果报告。结合第一方面,在第一种可能的实现方式中,步骤1)中所述对多业务系统数据进行关联建模,具体包括如下步骤:将多业务系统数据抽取到大数据平台中的贴源层中,生成贴源层数据表;通过编写hiveql对所述贴源层数据表进行关联,生成数据集;将所述数据集存储在大数据平台的模型层中,获取关联建模结果。结合第一方面,在第二种可能的实现方式中,步骤3)中所述生成检核脚本,具体为:所述规则解析器根据所述数据配置结果的规则类型和待检核字段以及检核逻辑进行匹配解析,生成一系列sql脚本语句。结合第一方面,在第三种可能的实现方式中,步骤4)中所述脚本执行器包括可配置进程池,执行者可以根据资源情况配置最大可用进程池。结合第一方面,在第四种可能的实现方式中,步骤5)中对所述检核明细表进行汇总统计,生成检核结果报告,具体为:对所述检核明细表中包含的异常数据进行汇总统计,获取汇总结果,并将所述汇总结果邮件发送,报表数据展示,质量趋势可视化分析。第二方面,提供一种数据质量检核装置,包括:关联建模模块,用于根据质量检核需求,对多业务系统数据进行关联建模,生成关联建模结果;规则配置模块,用于根据所述关联建模结果,配置数据质量检核规则,获取数据配置结果;解析器模块,用于将所述数据配置结果导入规则解析器,生成检核脚本;脚本执行器模块,用于将所述检核脚本导入脚本执行器,生成检核明细表;结果展示模块,用于对所述检核明细表进行汇总统计,生成检核结果报告。结合第二方面,在第一种可能的实现方式中,所述关联建模模块包括:数据抽取模块,用于将多业务系统数据抽取到大数据平台中的贴源层中,生成贴源层数据表;数据关联模块,用于通过编写hiveql对所述贴源层数据表进行关联,生成数据集;数据存储模块,用于将所述数据集存储在大数据平台的模型层中,获取关联建模结果。结合第二方面,在第二种可能的实现方式中,所述脚本执行器模块还包括进程池配置模块,用以使执行者可以根据资源情况为脚本执行器的进程池配置最大可用进程池。第三方面,提供一种数据处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现数据质量检核方法。第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行数据质量检核方法的计算机程序。与现有技术相比,本发明的有益效果包括:本发明通过针对不同的检核要求,将多业务系统数据进行临时关联汇总,初步对待检核数据进行筛选,限定数据范围,可以大大提升质量检核结果的准确性和有效性;通过可配置的质量检核规则,可以方便检核人员随时增加修改具体检核规则,实现质量检核需求的灵活性与可配置性;通过采用规则解析器,可以降低人工编写检核脚本的错误率和调试时间;通过采用脚本执行器并执行检核脚本,可以提高检核脚本运行和质量检核效率;通过检核结果报告,可以自定义检核结果的展示方式,以供不同用户使用;此外,本发明不需要额外采购新的应用系统和大量的人力投入,可以降低使用和维护成本,便于中小型银行采用。附图说明参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:图1为本发明实施例的数据质量检核方法的流程示意图;图2为本发明实施例的关联建模步骤的流程示意图;图3为本发明实施例的数据质量检核装置的结构示意图;图4为本发明实施例的关联建模模块的结构示意图。具体实施方式容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。图1示出了根据本发明实施例的数据质量检核方法的流程示意图。如图1所示,该方法包括如下步骤:s100:根据质量检核需求,对多业务系统数据进行关联建模,生成关联建模结果。具体的,质量检核需求包括监管报送要求,反洗钱要求,经营分析与报表要求等,不同的要求所需要的字段不同,数据标准也不同。比如,反洗钱要求对个人客户的九要素进行质量检核,个人九要素包括:姓名、证件号码、证件有效期、国籍、性别、职业、移动电话、通讯地址、工作单位名称。反洗钱要求检核这些字段是否为空,证件有效期是否满足日期格式及范围标准,国籍、性别、职业字段是否符合标准码值等。检核需求可以由风控部门提出,如涉及监管,反洗钱等;也可以由业务部门提出,如涉及数据经营分析与报表等。也可以由科技部门牵头,对行内重要基础数据进行统一检核,摸底全行数据质量状况。本发明实施例中,业务系统包括核心系统,用户中心系统,对公贷款系统,个人贷款系统,供应链系统等各种外围业务系统。每个业务系统都包含了至少几十张表,考虑到我们是有针对性的进行检核,所以要根据实际情况,抽取需要的表和字段进行关联建模。如图2所示,对多业务系统数据进行关联建模,具体包括如下步骤:s101:将多业务系统数据抽取到大数据平台中的贴源层中,生成贴源层数据表。s102:通过编写hiveql对贴源层数据表进行关联,生成数据集。s103:将数据集存储在大数据平台的模型层中,获取关联建模结果。比如,我们根据反洗钱要求对在我行开立一二类账户的个人客户九要素进行关联建模,这些字段分布在核心系统,柜面系统,客户管理系统等不同系统中,数据表有账户信息表,客户基本信息表,客户扩展信息表,证件信息表,联系方式信息表等。我们先将各业务系统的数据全部抽取到大数据平台中的贴源层中,生成贴源层数据表,然后通过编写hiveql(结构化查询语言)对贴源层数据表进行关联,生成数据集,最后将数据集存储在大数据平台的模型层中,获取关联建模结果。s200:根据关联建模结果,配置数据质量检核规则,获取数据配置结果。应理解,这里的关联建模结果,是一张从多个业务系统中经过etl(extract抽取、transform转换、load加载)的临时宽表结构,存储在大数据平台中。这张表结构包含了我们本次需要检核的字段和业务数据。我们根据这张临时宽表,对其中每个字段进行规则配置,获取数据配置结果。规则配置元数据包含规则大类,规则细类,检核源表,源字段,字段中文名,检核逻辑等,如下表所示:规则大类规则细类检核源表源字段字段中文名检核逻辑_2数据缺失类1非空校验intpersoncus_name客户名称不涉及_2数据缺失类1非空校验intpersonid_num证件号码不涉及_2数据缺失类1非空校验contactmethodctcmth_num手机号码不涉及_3违背编码规范类2时间/日期格式校验peridentstart_dt证件起始日yyyy-mm-dd_3违背编码规范类2时间/日期格式校验peridentexpiry_dt证件到期日yyyy-mm-dd_4违背技术规范类1范围/码值校验personcountry_tp_cd国籍nationality_4违背技术规范类1范围/码值校验persongender_tp_cd性别genders300:将数据配置结果导入规则解析器,生成检核脚本;具体的,规则解析器是一个linux系统可执行程序,可以用shell,java,c或者python等不同的编程语言实现。将数据配置结果文件作为规则解析器的输入参数,解析器逐条读取数据配置结果,根据不同的规则类型和待检核字段以及检核逻辑进行匹配解析,最后生成一系列sql脚本语句,即检核脚本。s400:将检核脚本导入脚本执行器,生成检核明细表;脚本执行器内部包含可配置进程池,执行者可以根据资源情况配置最大可用进程池。检核脚本文件作为脚本执行器的输入参数,由脚本执行器逐行读取,分配后台进程后并发执行,生成检核明细表。s500:对检核明细表进行汇总统计,生成检核结果报告。检核结果明细表包含检核过程中所有的异常数据,对这些数据进行统计汇总,获取汇总结果,可将汇总结果进行邮件发送,报表数据展示,质量趋势可视化分析等。如图3所示,本发明还公开了一种数据质量检核装置,包括:关联建模模块100,用于根据质量检核需求,对多业务系统数据进行关联建模,生成关联建模结果。如图4所示,其中,关联建模模块100包括:数据抽取模块101,用于将多业务系统数据抽取到大数据平台中的贴源层中,生成贴源层数据表。数据关联模块102,用于通过编写hiveql对所述贴源层数据表进行关联,生成数据集。数据存储模块103,用于将所述数据集存储在大数据平台的模型层中,获取关联建模结果。规则配置模块200,用于根据所述关联建模结果,配置数据质量检核规则,获取数据配置结果;解析器模块300,用于将所述数据配置结果导入规则解析器,生成检核脚本;脚本执行器模块400,用于将所述检核脚本导入脚本执行器,生成检核明细表;脚本执行器模块还包括进程池配置模块,用以使执行者可以根据资源情况为脚本执行器的进程池配置最大可用进程池。结果展示模块500,用于对所述检核明细表进行汇总统计,生成检核结果报告。相应地,本发明还公开了一种数据处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一数据质量检核方法。相应地,本发明还公开了一种计算机可读存储介质,计算机可读存储介质存储有执行任一数据质量检核方法的计算机程序。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1