一种基于溯源分析技术的数据质量监察系统的制作方法

文档序号:22387386发布日期:2020-09-29 17:50阅读:130来源:国知局
一种基于溯源分析技术的数据质量监察系统的制作方法

本发明涉及一种基于溯源分析技术的数据质量监察系统,属于计算机大数据技术领域。



背景技术:

常规的数据监察手段主要通过正则表达式、规则集、约束条件表达式、三元操作等方式反馈数据存在的错误。这种事后控制机制仅能过滤和告知错误数据,避免造成错误数据应用产生的系统崩溃,但无法积极、主动地提高数据质量。

大数据的发展离不开大量聚合数据和离散数据的结构化组织分析,要想做到有价值、有决策辅助意义的数据分析,就必然需要无错误、高质量、高价值的数据作为基础。目前,市场上主要的数据共享交换平台大多数解决的都是多源异构系统的数据采集、数据的主题化存储分块以及对外的接口化数据服务,一旦采集到错误的数据,采取的都是原样存储或过滤器过滤的方式,这种数据质量稽核方式仅能做到确保没有错误的数据被采集,无法在顶层结构上主动改变数据的质量问题,导致原本可以提高数据质量的源系统不知道如何改进数据、甚至不知道需要改进数据质量的问题。因此,需要一种新的体系化的解决方案来解决上述问题。



技术实现要素:

本发明所要解决的技术问题在于提供一种基于溯源分析技术的数据质量监察系统,通过该系统定位出数据质量问题的根源和改进方案,帮助数据源提高数据质量,主动减少错误数据的产生,克服上述现有技术的不足。

为解决上述技术问题,本发明采用的技术方案如下:

一种基于溯源分析技术的数据质量监察系统,包括数据采集器、数据分析与过滤器、数据质量报告反馈系统,所述的数据采集器,用于通过数据爬虫、消息队列监听和数据接口抽取的方式采集数据,并运用血缘标记为采集的数据项标记数据源系统信息,形成数据元组;

所述的数据分析与过滤器,用于对采集到的、即将进入存储单元的数据元组进行数据流监测,将符合质量筛查条件的数据放行,进入数据存储单元,等待存储入库;将不符合质量筛查条件的疑似问题数据送入分析器,形成问题数据组,送入到数据质量报告反馈系统;

所述的数据质量报告反馈系统,用于接收来自数据分析与过滤器生成的问题数据组,并形成数据报告文本,推送到通信服务模块,由通信服务模块将告警消息反馈到数据源系统。

上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的数据采集器在使用数据爬虫、消息队列监听或数据接口抽取前,需要由管理人员创建数据采集任务,创建数据采集任务时需要用户为本次采集的目标对象打上文本标签进行血缘描述,任务创建完毕后依照用户设定自行采集数据,其采集的数据均携带血缘数据,每一个数据项从被采集、进入分析、存储入库、直至对外服务均携带了血缘信息。

上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的数据分析与过滤器,先对采集的数据字段以及数据字段的字段名,以一组符合数据质量筛查条件的数据进行快速学习训练,形成自动化的筛选器和分析器。

上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的分析器,对所有的疑似问题数据,依照训练结果二次判定数据是否存在质量问题,以及数据质量问题产生的可能原因,将原因依照元数据组纳入概率矩阵,通过概率矩阵对照同类数据进行正态分布迭代查询,将确认出现问题的数据标记上问题可能的原因;通过数据血缘反查数据的源系统位置,将确认出现问题的数据标记上产生问题的数据源地址,形成该批次数据质量问题的问题数据组,送入到数据质量报告反馈系统。

上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的数据质量报告反馈系统,将接收的来自数据分析与过滤器生成的问题数据组,由反馈报告模块依照内置的模板装填,将每一条数据的问题、问题原因的概率数形成一段数据报告文本,推送到通信服务模块,由通信服务模块通过数据接口或短信,将告警消息反馈到数据源系统或血缘数据中记载的维护单位联系人手机上;同时,反馈报告模块将不断与数据分析与过滤部件通信,查看数据问题是否依旧存在,并通知通信服务模块持续地发送告警消息。

本发明的有益效果:与现有技术相比,本发明能够通过对采集数据的错误情况,结合机器训练成果与数据血缘信息,自动地、智能化地推导出数据质量问题背后的可能因素,这些因素与概率数据能够被准确记录,形成问题报告,及时向数据源发出质量反馈信息,数据源系统的建设单位可以依照数据质量反馈信息,有针对性地对系统功能进行改造,实现了数据质量问题精准解决、数据质量最小成本提升的目标。经项目实际运用效果来看,使用数据质量稽核机制前,数据采集第一周,平均每1000条数据项产生18.8个数据质量问题,造成数据使用方逻辑错误6.5个,数据采集第二周,平均每1000条数据项产生12.8个数据质量问题,造成数据使用方逻辑错误7个;使用数据稽核机制后,数据采集第三周,平均每1000条数据项产生10.6个数据质量问题,第四周数据质量问题骤降至3.2个,数据质量提升成果显著,数据源系统收到11个数据质量反馈信息,有10个准确定位到业务系统填报表单的验证机制漏洞,源系统建设单位耗时3个工作日完成所有整改工作,成效明显。

本专利的技术亮点在于:(1)将传统的多源异构数据采集,以采集任务设置时的文本标签为基础进行语义分析,形成数据血缘分析的核心数据,这些核心数据描述了数据源系统中数据项的含义、业务、方式等常规人工录入所难以规范的描述信息,是数据筛选器设定数据筛查规则、数据分析器查找分析数据问题原因的依赖数据。(2)以无问题数据作为样本,通过机器学习方式训练分析模型,通过分析模型对数据问题的原因进行概率化分布,其分布范围和频次与各个疑似原因形成关联映射,对疑似问题数据进行数据问题组构造,为数据反馈消息组装、反馈数据问题提供了核心依赖。

本发明通过数据采集装置、数据过滤分析器和质量反馈系统的有机结合,通过错误数据的采集记录和数据错误特征,结合数据所在字段位置等业务信息,定位出数据质量问题的根源和改进方案,帮助数据源提高数据质量,主动减少错误数据的产生。

附图说明

图1为本发明的流程图。

下面结合具体实施方式对本发明作进一步的说明。

具体实施方式

实施例1:如图1所示,本发明作为一种面向数据质量监察与主动推进数据质量提升的技术机制,主要由三个部分组成:带有数据血缘记录的数据采集器、数据分析与过滤器与数据质量报告反馈系统。

(1)数据采集器:本数据采集器与一般的多源异构系统数据采集装置不同,该数据采集器在使用数据爬虫、消息队列监听或数据接口抽取前,需要由管理人员创建数据采集任务,创建数据采集任务时需要用户为本次采集的目标对象打上文本标签进行血缘描述,任务创建完毕后依照用户设定自行采集数据,其采集的数据均携带血缘数据,每一个数据项从被采集,进入分析、存储入库、直至对外服务均携带了血缘信息,例如:data:{value:‘地址信息’,bloodhood:{src:’地理信息管理系统’,updated:20190925102523}}。血缘数据可使用实体携带的方式随数据传入,也可使用索引表映射或哈希查找的方式将血缘信息统一存储。

(2)数据分析与过滤器:数据分析与过滤器基于正则表达式和规则集筛选技术方案的优点,结合机器学习训练框架(注:训练框架采用tensorflow技术),先对该采集的数据字段以及数据字段的字段名等描述信息,以一组符合数据质量筛查条件的数据进行快速学习训练,形成自动化的筛选器和分析器,数据过滤部件使用筛选器,先对所有采集到的、即将进入存储单元的数据进行流式监察,将符合质量筛查条件的数据放行,进入数据存储单元;将不符合质量筛查条件的疑似问题数据送入数据分析部件。数据分析部件使用分析器,对所有的疑似问题数据,依照训练结果二次判定数据是否存在质量问题,以及数据质量问题产生的可能原因,将原因依照元数据组纳入概率矩阵,通过概率矩阵对照同类数据进行正态分布迭代查询,将确认出现问题的数据标记上问题可能的原因;通过数据血缘反查数据的源系统位置,将确认出现问题的数据标记上产生问题的数据源地址,形成该批次数据质量问题的问题数据组,送入到数据质量报告反馈系统。

(3)数据质量报告反馈系统:数据质量报告反馈系统是一个精巧的数据报告生成和通信服务系统,它接收到所有来自数据分析与过滤器生成的问题数据组,反馈报告模块依照内置的模板装填,将每一条数据的问题、问题原因的概率数形成一段数据报告文本,推送到通信服务模块。通信服务模块可通过数据接口的方式,推送告警消息到源系统,描述其数据质量的问题和原因,督促源系统维护单位整改数据问题;对于不开放接收消息接口的源系统,通信服务模块则改为短信的方式,将告警消息推送至血缘数据中记载的维护单位联系人手机上,同时,反馈报告模块将不断与数据分析与过滤部件通信,查看数据问题是否依旧存在,并通知通信服务模块持续地发送告警消息。

图1是本发明的流程图,数据采集器通过数据爬虫、消息队列监听和数据接口抽取等方式采集数据,运用血缘标记为数据项标记数据源系统信息,形成数据元组(metagroup),数据元组首先进入筛选器进行数据流监测,使用规则匹配的方式筛查出符合质量筛查条件的数据(无质量问题的数据)和不符合质量筛查条件的疑似问题数据(筛查出有问题的数据),无质量问题的数据进入存储单元,等待存储入库,筛查出有问题的数据进入分析器,分析器依照训练样本结果分析筛查出有问题的数据的问题概率矩阵,形成问题数据组(描述数据问题的一组数据),问题数据组进入反馈报告模块组装错误消息,并委托通信服务模块将错误消息反馈到数据源系统。

本发明的数据质量监察系统成功运用于贵阳市“智慧消防”大数据建设项目的数据融合分析平台(dataintegratedanalyser,dia)。dia平台作为该项目的数据资源交换平台,其核心职责在于对贵阳市消防支队7个业务系统的所有业务数据进行采集、清洗、加工、存储形成消防块数据主题库,并为消防主题应用、智慧消防统一app以及智慧消防大数据视图三个顶层主题应用提供数据服务。采用本发明的数据质量监察机制运行13个月以来,累计采集数据量148万余项,发现疑似数据质量问题4431个,确认数据质量问题3892个,累计形成数据质量问题报告273份,推送数据质量问题消息4266次,为7个业务系统提供了精准的数据质量整改意见,数据质量问题在运行3个月后有明显的下降趋势,从201年11月运行至2019年9月,数据质量问题已从1100个骤降至4个,有效保障了消防支队的数据质量,推动了贵阳市消防支队大数据建设工作的稳步进行。

本发明的实施方式不限于上述实施例,在不脱离本发明宗旨的前提下做出的各种变化均属于本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1