闭环数据质量治理方法、装置、终端设备及存储介质与流程

文档序号:24970837发布日期:2021-05-07 22:41阅读:297来源:国知局
闭环数据质量治理方法、装置、终端设备及存储介质与流程

本发明涉及数据质量治理领域,尤其涉及闭环的数据质量治理方法、系统及存储介质。



背景技术:

随着大数据时代的到来,各企业越来越重视数据的收集和利用,如何让数据价值落地、如何使用大数据来提高竞争力,是所有企业面临的最大现实问题。在数据来源多样化的情况下,数据质量直接影响到数据分析和数据挖掘得到的结论的正确性,进而影响到管理决策的正确性和业务的发展,数据的管理和治理变得越来越重要。数据质量问题产生的原因有多方面,比如在技术、管理、流程、业务等方面。数据质量问题的治理就是要找到问题的源头并加以解决。目前现有市场的数据治理系统主要是在数据收集阶段,收集前或收集后进行数据质量评测,这些数据治理方法存在不易使用、有效性差,不够成熟的问题,在企业利用数据进行质量管理的过程中不能进行及时的问题提示与反馈,给用户的使用带来了不便。

因此,现有技术还有待改进和提高。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种闭环的数据质量治理方法、系统及存储介质,旨在解决现有技术中用户在为数据质量进行治理时,不易使用、有效性差,不够成熟,质量管理过程不能及时进行提示与反馈的问题。

为了解决上述技术问题,本发明所采用的技术方案如下:

第一方面,本发明提供一种闭环的数据质量治理方法,用于通过数据质量治理系统对数据进行量化评分,解决有质量问题的数据实现对数据质量的治理,其中,包括如下步骤:

收集数据问题并对数据问题进行归类;

对已归类的数据问题进行检测确认;

定义数据质量评分模型对所述数据问题的检测项给出治理方案;

根据所述治理方案进行数据治理检测;

根据数据治理检测的结果计算出数据质量评分并出具数据质量报告;

分析所述数据质量报告并输出问题告警后上传所述数据质量治理系统。

第二方面,本发明还提供一种闭环数据质量治理装置,其中,该闭环数据质量治理装置包括:

数据问题收集分类模块,用于收集数据问题并对数据问题进行归类;

数据问题检测模块,用于对已归类的数据问题进行检测确认;

治理指标定义模块,用于定义数据质量评分模型对所述数据问题的检测项给出治理方案;

数据质量治理检测模块,用于根据所述治理方案进行数据治理检测;

数据质量评分生成模块,用于根据数据治理检测的结果计算出数据质量评分并出具数据质量报告;

数据质量报告输出模块,用于分析所述数据质量报告并输出问题告警后上传所述数据质量治理系统。

第三方面,本发明还提供一种闭环数据质量治理终端设备,所述存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端设备的闭环数据质量治理程序,所述处理器执行所述终端设备的闭环数据质量治理程序时,实现方案中任一项的闭环数据质量治理方法的步骤。

第四方面,本发明还提供一种计算机可读存储介质,其上存储有终端设备的闭环数据质量治理程序,所述闭环数据质量治理程序被处理器执行时,实现上述方案中任一项的闭环数据质量治理方法的步骤。

有益效果:与现有技术相比,本发明提供了一种闭环数据质量治理方法,采用包括七个功能模块的闭环数据治理技术架构,首先对企业中各个管理环节中存在数据问题进行收集并分类,通过数据问题进行标准治理模型定义,使用质量监控系统检测数据问题,对于数据检测过程中按照标准治理模型的数据问题进行检测,检测出结果后进行计算数据质量评分,企业业务、分析和产品三方对质量报告分析并进行及时处理,从而使得企业达到问题发现、问题定位、问题告警、质量报告、问题反馈均在一个闭环内,问题反馈之后,相关人员解决相应问题,进而达到数据质量提升,形成一个数据质量提升的闭环,使得本发明数据质量治理系统易用高效而成熟。

附图说明

图1为本发明实施例提供的闭环数据质量治理方法的具体实施方式的技术架构框图。

图2为本发明实施例提供的闭环数据质量治理方法的具体实施方式的流程图。

图3为本发明实施例提供的闭环数据质量治理装置的具体实施方式的结构图。

图4为本发明实施例提供的终端设备的内部结构原理图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

随着数字技术、计算机技术和网络技术的进步,特别是移动网络技术的快速发展,人们的生活习惯发生了翻天覆地的变化,对网络的依赖达到了空前的高度,不论是信息的获取、平时的娱乐休闲还是生活购物,甚至教育学习都离不开网络。而每个人在网上的行为习惯也就形成了一个庞大的信息数据,怎样收集和利用这些数据,越来越成为了各机构、各部门和企业的重要事件。各机构、各部门和企业所需的数据当然还包括其内部和其业务部门的各种数据,各种决策和管理也越来越重视和依赖对所获取的数据的分析,所获取的数据的质量就变得尤其重要,根据劣质的数据分析业务、进行决策,那还不如没有数据。数据质量问题产生的原因有多方面,比如在技术、管理、流程、业务等方面,数据质量问题主要有:数据真实性、数据准确性、数据唯一性、数据完整性、数据一致性、数据关联性、数据及时性。针对收集的数据的质量问题,进行数据质量治理势在必行。目前现有市场的数据治理系统主要是在数据收集阶段,收集前或收集后进行数据质量评测,这种数据治理方法存在不易使用、有效性差,不够成熟的问题。

本实施例针对上述问题,提出了一种闭环数据质量治理方法,通过本实施例的方法,形成一个数据质量提升的闭环,使数据质量治理系统更加的易用、更加的有效、更加的成熟。具体实施时,本实施例可预先设计一个包括七个功能区块的闭环的数据治理技术架构,在闭环的数据治理技术架构基础上,设计对应的应用功能模块,通过数据质量管理系统,运用标准定义模型,使用质量监控系统检测数据,达到问题发现、问题定位、问题告警、质量报告、问题反馈,问题反馈之后,相关责任人解决问题,达到数据质量提升,形成一个数据质量提升的闭环,给用户的数据分析使用提供了方便。

本实施例的闭环的数据质量治理方法可应用于数据质量治理系统中,所述闭环的数据质量治理方法,通过规定一套标准的数据质量评分模型,通过数据质量治理系统对数据进行量化评分,对有质量问题的数据,发送给相关人员解决,为此,本实施例特别搭建了一个闭环数据质量治理技术架构,该架构为理论技术架构,在该理论技术架构上可以根据系统的需要进行具体的模块设置,具体如图1中所示七个功能区块:

标准定义、质量监控、绩效评估、质量分析、质量报告、问题告警和处理机制。

其中,所述标准定义区块支持数据质量检查方案的定义和管理,包括检查对象、检查范围、检查频度、检查规则、评分规则、阈值设置,可定义有效性、完整性、及时性质量维度的评估等功能。

所述质量监控区块支持实时或批量监控数据情况,包括对象名称、对象级别、违反规则,并记录每个质检规则的明细结果表,为数据质量分析提供数据。

所述绩效评估区块支持量化数据质量情况,激励数据质量的提升,支持自定义评分依据和权重,并可按照字段、表、规则类别、关键字粒度生成质量评估结果。

所述质量分析区块支持在各重要阶段设置数据检查监控点,并能实现跨监控点、数据源的比较分析,通过对数据问题的多维度分析,进行有针对性的质量改进。

所述质量报告区块支持通过报告形式将数据质量问题进行周期性的说明,供相关人员查看及对外发布,提供多种数据质量报告模板,根据质量监控情况定期自动生成质量报告,质量报告支持在线打印及导出为word、pdf或excel等文件格式。

所述问题告警区块支持检查结果多方式告警,包括采用电子邮件email或短信的形式进行通知告警,告知相关人员对数据质量问题进行整改。

所述处理机制区块支持通过规范数据问题的发现、反馈、分析、整改及跟踪流程,持续优化数据质量。

示例性方法

基于上述闭环数据治理技术机构,本实施例的闭环数据质量治理方法如图2所示,包括如下步骤:

步骤s100,收集数据问题并对数据问题进行归类。

具体而言,所述收集数据问题并对数据问题进行归类包括如下步骤:

由业务、分析、产品三方收集数据问题;企业的数据主要是体现在业务类、研发分析类、产品类等三个方面,在这三个方面对企业中所要运用的数据进行收集,基本能够完全体现出企业运行过程中的数据问题,当然,要全部体现企业存在的数据问题,还可以在其他的管理方面进行搜集,在具体应用中可以根据各个企业的实际情况进行确定,本实施例中仅从重要且必须的三个管理方面出发进行数据问题收集,但并不限于这三个方面的收集。

各方对所述数据问题进行归类,并将数据问题归类为三级:业务线、一级分类和二级分类。数据问题收集到之后,可能存在许多不同类别的问题,随着数据问题的增加,应该首先就对这些问题进行分类,便于后续系统进行分类处理。一般而言,可以将数据问题分为上述三级进行归类。

将归类的所述数据问题上传所述数据质量治理系统。收集了数据问题并定义了类别后即可将其上传到数据质量治理系统中,当然,初始化这些数据问题及其类别后,后续也可以通过增加数据问题及其类别进行上传保存,或者也可以在系统中将不需要的数据问题及其类别删除,实现对数据问题的动态调整。

步骤s200,对已归类的数据问题进行检测确认。

具体而言,所述对已归类的数据问题进行检测确认包括如下步骤:

由业务、分析、产品三方确定数据检测范围。数据问题收集后,还需要由业务、分析或产品三方进行确认数据检测的范围,数据检测的范围可以参考上述闭环数据治理技术机构基础上标准定义区块中对于数据质量检测方案中的对象,包括检查对象、检查范围、检查频度、检查规则、评分规则或阈值等检测对象范围。

对每类数据问题再确定检测范围或检测项。基于每类数据问题的区别,每类数据问题的检测范围或检测项会存在不同的差别,因此,还需要对每类数据问题分别再确定各自不同的检测范围或检测项。

步骤s300,定义数据质量评分模型对所述数据问题的检测项给出治理方案。

具体而言,所述定义数据质量评分模型对所述数据问题的检测项给出治理方案具体包括如下步骤:

设定数据质量检查方案的数据对象,包括检查对象、检查范围、检查频度、检查规则、评分规则和阈值。建立数据质量评分模型是为了对各个数据问题的评价得分能够客观、标准,标准化的质量评分模型首先需要确定检查数据问题的数据对象。

设定数据质量检查方案中数据对象的质量维度,包括有效性、完整性和及时性。对于各个数据对象,还需要设定其检测的质量维度,通过质量维度的检测,能够满足数据问题检查对象的有效性、完整性和及时性要求,量化爱护据质量的情况,激励数据质量的提升。

根据所述数据对象及其质量维度形成数据质量评分模型。标准化的质量评分模型支持自定义评分依据和权重,并可按照字段、表、规则类别、关键字等粒度进行量化评估。

根据所述数据质量评分模型对数据问题的检测项给出治理方案。在建立质量评分模型后,根据该模型对数据问题的检测项对应给出治理方案。治理方案可以根据不同的治理指标进行开发,这个需要根据不同的数据问题进行解决,解决方案并非本发明方法的内容,此处不赘述。

步骤s400,根据所述治理方案进行数据治理检测。

具体而言,所述根据所述治理方案进行数据治理检测具体包括如下步骤:

所述数据质量治理系统根据所述治理方案调用相应的治理任务运行;如前所述,根据不同的治理指标开发了治理方案后,数据质量治理系统则可以根据治理方案调用相应的治理任务运行,这里治理任务即开发人员根据治理方案开发的程序。

所述治理任务对所述数据问题进行质量检测。相应的治理任务运行后,即实现了对数据问题进行的质量检测。

步骤s500,根据数据治理检测的结果计算出数据质量评分并出具数据质量报告。

具体而言,所述根据数据治理检测的结果计算出数据质量评分并出具数据质量报告具体包括如下步骤:

所述数据质量治理系统调用数据治理任务进行质量检测后得出检测结果。如前所述,治理任务的运行实现了对数据问题的质量检测,进行质量检测后会产生相应的结果。

根据所述检测结果对数据质量进行评分,形成数据质量报告。治理任务对数据问题进行质量检测后,产生相应的结果可以进行质量评分,各个数据问题的最终评分即可生成对应的数据质量报告。比如,某项业务的数据准确率得分为90分,用户标签非空率得分为50分,质量检测对于低于50分的检测项输出问题明细。

步骤s600,分析所述数据质量报告并输出问题告警后上传所述数据质量治理系统。

具体而言,所述分析所述数据质量报告并输出问题告警后上传所述数据质量治理系统具体包括如下步骤:

业务、分析和产品三方对数据质量报告分析确认。在上述数据质量报告生成后,需要业务、分析和产品三方进行分析报告的分析,分析主要是各方对于数据质量报告中各个检测项的告警问题进行分析确认,看告警问题是否真实存在,以进一步确认该告警问题。

将数据质量报告输出给相应的处理对象。系统可以分配出现各个质量问题的相关负责人员,由其进行分析确认。

将数据质量报告中存在的问题告警输出给对应的对象并将数据质量报告上传到所述数据质量治理系统保存。最后,在数据质量报告输出到相应的对象人员进行处理后,由相关负责人员进行解决并将处理的进度上报系统反馈。

通过以上方法最后生成数据质量报告,发送给相关负责人员进行处理上报后,即实现了对数据问题的闭环处理。

示例性装置

基于上述闭环数据治理技术架构以及闭环数据质量治理方法,本实施例的闭环数据质量治理装置设计出相应的应用功能模块组成的装置来实现对数据质量进行的提升。如图3所示,所述闭环数据质量治理功能装置包括:数据问题收集分类模块10、数据问题检测模块20、治理指标定义模块30、数据质量治理检测模块40、数据质量评分生成模块50和数据质量报告输出模块60。

其中,数据问题收集分类模块10,用于收集数据问题并对数据问题进行归类。具体而言,具体而言,由业务、分析、产品三方收集数据问题;企业的数据主要是体现在业务类、研发分析类、产品类等三个方面,在这三个方面对企业中所要运用的数据进行收集,基本能够完全体现出企业运行过程中的数据问题,当然,要全部体现企业存在的数据问题,还可以在其他的管理方面进行搜集,在具体应用中可以根据各个企业的实际情况进行确定,本实施例中仅从重要且必须的三个管理方面出发进行数据问题收集,但并不限于这三个方面的收集。

各方对所述数据问题进行归类,并将数据问题归类为三级:业务线、一级分类和二级分类。数据问题收集到之后,可能存在许多不同类别的问题,随着数据问题的增加,应该首先就对这些问题进行分类,便于后续系统进行分类处理。一般而言,可以将数据问题分为上述三级进行归类。

将归类的所述数据问题上传所述数据质量治理系统。收集了数据问题并定义了类别后即可将其上传到数据质量治理系统中,当然,初始化这些数据问题及其类别后,后续也可以通过增加数据问题及其类别进行上传保存,或者也可以在系统中将不需要的数据问题及其类别删除,实现对数据问题的动态调整。

数据问题检测模块20,用于对已归类的数据问题进行检测确认。具体而言,由业务、分析、产品三方确定数据检测范围。数据问题收集后,还需要由业务、分析或产品三方进行确认数据检测的范围,数据检测的范围可以参考上述闭环数据治理技术机构基础上标准定义区块中对于数据质量检测方案中的对象,包括检查对象、检查范围、检查频度、检查规则、评分规则或阈值等检测对象范围。

对每类数据问题再确定检测范围或检测项。基于每类数据问题的区别,每类数据问题的检测范围或检测项会存在不同的差别,因此,还需要对每类数据问题分别再确定各自不同的检测范围或检测项。

治理指标定义模块30,用于定义数据质量评分模型对所述数据问题的检测项给出治理方案。具体而言,设定数据质量检查方案的数据对象,包括检查对象、检查范围、检查频度、检查规则、评分规则和阈值。建立数据质量评分模型是为了对各个数据问题的评价得分能够客观、标准,标准化的质量评分模型首先需要确定检查数据问题的数据对象。

设定数据质量检查方案中数据对象的质量维度,包括有效性、完整性和及时性。对于各个数据对象,还需要设定其检测的质量维度,通过质量维度的检测,能够满足数据问题检查对象的有效性、完整性和及时性要求,量化爱护据质量的情况,激励数据质量的提升。

根据所述数据对象及其质量维度形成数据质量评分模型。标准化的质量评分模型支持自定义评分依据和权重,并可按照字段、表、规则类别、关键字等粒度进行量化评估。

根据所述数据质量评分模型对数据问题的检测项给出治理方案。在建立质量评分模型后,根据该模型对数据问题的检测项对应给出治理方案。治理方案可以根据不同的治理指标进行开发,这个需要根据不同的数据问题进行解决,解决方案并非本发明方法的内容,此处不赘述。

数据质量治理检测模块40,用于根据所述治理方案进行数据治理检测。具体而言,所述数据质量治理系统根据所述治理方案调用相应的治理任务运行;如前所述,根据不同的治理指标开发了治理方案后,数据质量治理系统则可以根据治理方案调用相应的治理任务运行,这里治理任务即开发人员根据治理方案开发的程序。

所述治理任务对所述数据问题进行质量检测。相应的治理任务运行后,即实现了对数据问题进行的质量检测。

数据质量评分生成模块50,用于根据数据治理检测的结果计算出数据质量评分并出具数据质量报告。具体而言,所述数据质量治理系统调用数据治理任务进行质量检测后得出检测结果。如前所述,治理任务的运行实现了对数据问题的质量检测,进行质量检测后会产生相应的结果。

根据所述检测结果对数据质量进行评分,形成数据质量报告。治理任务对数据问题进行质量检测后,产生相应的结果可以进行质量评分,各个数据问题的最终评分即可生成对应的数据质量报告。比如,某项业务的数据准确率得分为90分,用户标签非空率得分为50分,质量检测对于低于50分的检测项输出问题明细。

数据质量报告输出模块60,用于分析所述数据质量报告并输出问题告警后上传所述数据质量治理系统。具体而言,业务、分析和产品三方对数据质量报告分析确认。在上述数据质量报告生成后,需要业务、分析和产品三方进行分析报告的分析,分析主要是各方对于数据质量报告中各个检测项的告警问题进行分析确认,看告警问题是否真实存在,以进一步确认该告警问题。

将数据质量报告输出给相应的处理对象。系统可以分配出现各个质量问题的相关负责人员,由其进行分析确认。

将数据质量报告中存在的问题告警输出给对应的对象并将数据质量报告上传到所述数据质量治理系统保存。最后,在数据质量报告输出到相应的对象人员进行处理后,由相关负责人员进行解决并将处理的进度上报系统反馈。

通过以上装置最后生成数据质量报告,发送给相关负责人员进行处理上报后,即实现了对数据问题的闭环处理。

示例性终端设备

如图4所示,本发明实施例提供一种闭环数据质量治理终端设备,在一个实施例中,提供了一种终端设备,终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的终端设备的计算机程序,该计算机程序为闭环数据质量治理程序,处理器执行终端设备的计算机程序时,实现如下操作指令:

收集数据问题并对数据问题进行归类;

对已归类的数据问题进行检测确认;

定义数据质量评分模型对所述数据问题的检测项给出治理方案;

根据所述治理方案进行数据治理检测;

根据数据治理检测的结果计算出数据质量评分并出具数据质量报告;

分析所述数据质量报告并输出问题告警后上传所述数据质量治理系统。

本实施例中,具体的操作指令实现方法与上述闭环数据质量治理方法相同,此处不赘述。

本领域技术人员可以理解,图4中示出的终端设备原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1