一种面向政府数据的数据质量检测方法与流程

文档序号:17263658发布日期:2019-03-30 09:50阅读:284来源:国知局

本发明涉及数据质量管理技术领域,特别涉及一种面向政府数据的数据质量检测方法。



背景技术:

近年来,数据质量问题引起了人们的高度重视.数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。数据质量的好坏决定了数据价值的高低,除此之外政府各部门到底掌握了多少数据、数据的类型有几种、哪些是“死”数据、哪些是“活”数据、动态更新的频率如何等也是政府各个部门首先需要搞清楚的问题,即摸清自己的“数据家底”。唯有高质量的数据,能够融合互通的数据网,才是各类丰富的辅助决策手段的基石,才能体现数据的高价值。

为了依据清晰规范的数据质量检测维度,实现对政府数据的质量评估,辅助决策者“摸清家底”,为数据治理奠定基础、指明方向,更大程度的挖掘出政府数据的价值。本发明提出了一种面向政府数据的数据质量检测方法。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的面向政府数据的数据质量检测方法。

本发明是通过如下技术方案实现的:

一种面向政府数据的数据质量检测方法,其特征在于,包括以下步骤:

(s1)基于政府发布的政策法规,提取出数据质量检测维度,包括目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度;

(s2)基于提取出的数据质量检测维度,对政府的开放数据,共享数据,基础库数据,主题库数据,专题库数据,单部门数据和单数据集进行检测,根据数据场景的不同,业务情况的不同,灵活选用工具检测方法或人工检测方法,分析问题产生的原因和造成的影响,划分问题等级,为数据清洗治理提供依据。

(s3)汇总整理检测结果,根据数据质量问题的不同选用不同的图表,序列图,地图,流程图,矩阵,网状关系图和信息图的展现方式对检测结果进行可视化展示,提供检测报告。

所述步骤(s1)具体方法为研读政府发布的关于数据的政策法规,以及标准规范和相关文档,提取出数据质量检测维度;所述目录层面分析维度包括对目录名规范性,目录名重复性,目录名含义,目录名长度和核心元数据信息完整性的分析。

所述对目录名规范性的分析是指通过分析目录名是否含有特殊字符,是否出现中英文混搭,是否含地名或固定时间来判定;若目录名含有特殊字符,或者出现中英文混搭,含有地名或者固定时间,则认为目录名不规范;

所述对目录重复性的分析是将目录名依据不同的属性进行拆分,分析是否含有相同字段;若含有相同字段,则该类目录可合并,属于重复问题;

所述对目录名含义的分析是指分析目录名含义是否模糊,或者有歧义,当1个以上部门有相同的目录名称时,则判定目录名含义模糊,难以理解;

所述对目录名长度的分析是指分析目录名长度是否过长或者过短,当长度超过20个字符或者低于3个字符均属于目录名长度不规范;

所述对核心元数据信息完整性的分析是指政务数据核心元数据信息缺少任何一个信息项视为不完整;所述政务数据核心元数据信息包括信息资源分类,信息资源名称,信息资源代码,信息资源提供方,信息资源提供方代码,信息资源摘要,信息资源格式,信息项信息,开放与共享属性,更新周期,发布日期和关联资源代码。

所述数据资源层面质量检测维度包括对字段,目录和数据的分析,具体规则如下:

(1)若字段名中出现中英文混搭,有特殊字符或者含固定的时间或地点,则认为字段名不规范;

(2)字段应选用与数据属性相当的类型定义,数字应采用数值型,日期应选用时间型,否则则认为字段类型定义不规范;

(3)字段长度应设置为保证正常使用需求下的最小长度,过长或者过短则认为字段长度定义不规范;

(4)若有字典表对应的未转义成对应的中文,机关代码或行政区划代码未转义成对应的中文则认为字典表未转义;

(5)数据加密方式不恰当,通过关联可复原,或者是数据加密之后完全无任何分析意义则认为是无价值的数据加密;

(6)对没有涉及国家安全,公共安全或个人隐私的数据进行加密,则属于无价值数据的加密;

(7)以对照表做参考,若发现记录不全,则属于记录缺失;

(8)依据目录的意义以及业务知识,识别字段不全,则认为字段缺失;

(9)数据值填写不完整,则认为数据值缺失;

(10)字段内容为空,则认为是空值;

(11)目录仅有1个字段的,则属于低字段目录,信息不全,不易理解和利用;

(12)记录中所有字段的内容相同,则属于记录重复;

(13)目录中关键字段或者关联字段重复,则认为关键字段重复;

(14)字段内容与字段名不匹配,移位后可匹配,则认为字段内容移位;

(15)字段有明确的标准,数据不符合标准,则认为关键字段错误;

(16)当字段对数值或者时间有范围要求时,实际值不在要求的范围内,则认为不符合值域要求;

(17)通过数据字段之间的逻辑关系判断数据错误,则认为相关性错误;

(18)目录的含义与字段不对应,则认为目录与字段不一致;

(19)目录与内容不对应,则认为目录与内容不一致;

(20)字段意义与所填内容不一致,则认为字段与内容不一致;

(21)依据数据更新频率分析数据时效性;

(22)依据字段敏感度,分析数据保密性;

(23)分析数据的覆盖度,包括目录量,数据量,部门数和主题数。

所述目录名和字段名中的特殊字符是指相对于传统或常用的符号外,使用频率较少字符且难以直接输入的符号。比如注音符号,数学符号,单位符号,制表符等。

所述步骤(s2)中,检测方法具体包括以下按步骤:

(a)基于数据所属领域,涉事主体,数据性质,数据字段敏感度以及业务实际,经过用户调研及用户确认,确定政务数据的业务场景,是开放场景,还是共享场景;

(b)把通过sql统计的或者python代码段的进行封装,整合开发成检测工具,对目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度,逐个进行检测分析;

(c)检测工具的初步检测之后,对数据问题再次进行人工检测,确认问题详情;

(d)对不同的字段和数据确立不同的处理规范,按照数据问题的严重程度,结合业务场景,将问题数据分为严重问题和非严重问题两种等级。

所述步骤(a)中,可提供给所有政务部门共享使用的政务信息资源目录属于无条件共享类;可提供给相关政务部门共享使用或仅能够部分提供给所有政务部门共享使用的政务信息资源目录属于有条件共享类;不宜提供给其他政务部门共享使用的政务信息资源目录属于不予共享类;主动在网上公开的政府信息,任何人都能不受限制的获取、再利用和再分发的政务信息资源目录属于开放类。

所述步骤(b)中,目录层面分析维度检测办法,包括以下步骤:

(1)利用检测工具中依据正则表达式识别特殊字符或者中英文混搭,人工识别目录的固定地名或者固定时间,分析目录名规范性;

(2)通过sql的分组处理结合字符串截取查看目录的重复情况,分析目录重复性;

(3)采用人工逐个检查目录,分析目录名含义是否模糊;

(4)采用sql语句统计目录长度,人工分析过长或者过短的目录,分析目录名长度规范性;

(5)利用检测工具定义好核心元数据信息内容,进行逐个判断是否存在,分析核心元数据信息完整性。

所述步骤(b)中,数据资源层面分析维度检测办法,包括以下步骤:

(1)利用检测工具中依据正则表达式识别特殊字符或者中英文混搭,人工识别目录的固定地名或者固定时间,分析字段名规范性;

(2)人工判断数据类型,分析字段类型定义规范性;

(3)采用sql统计字段长度,人工分析过长或过短的字段,分析字段长度定义规范性;

(4)人工检测是否存在字典表未转义;

(5)对加密数据通过sql关联查询检测,判断是否存在无价值的数据加密;

(6)人工检测加密数据是否有意义,判断是否存在无价值数据进行加密;

(7)分析与该目录有关的关联目录,判断是否存在记录缺失;

(8)人工检测字段是否存在字段缺失;

(9)人工检测是否存在数据值缺失;

(10)通过sql或者python代码段检测空值情况;

(11)sql统计目录字段数,判断是否存在目录仅1个字段的低字段目录;

(12)sql统计是否存在记录重复情况;

(13)sql统计是否存在关键字段重复情况;

(14)sql按字段分组结合人工检测,分析是否存在字段内容移位;

(15)数据标准结合sql统计关键字段内容,分析是否存在关键字段错误;

(16)人工检测,分析是否存在不符合值域要求的字段;

(17)通过数据字段的逻辑关系判断数据错误,分析是否存在相关性错误;

(18)人工检测目录与字段一致性;

(19)人工检测目录与内容一致性;

(20)人工检测字段与内容一致性;

(21)人工挑出时间字段,sql进行统计,分析数据时效性;

(22)人工分析敏感字段,分析字数据保密性;

(23)sql分析数据的覆盖度。

所述步骤(d)中,按照数据问题的严重程度,结合业务场景,将问题数据分为严重问题和非严重问题两种等级。

对于已开放数据,涉及国家安全,商业秘密,个人隐私,以及数据质量严重不符合开放数据定义要求或严重影响用户使用,对外发布后对社会及政府都造成不良影响的,定义为严重问题;对外发布会对用户使用产生一定影响,同一类问题出现较多也会严重影响本单位形象的,定义为非严重问题。

本发明的有益效果是:该面向政府数据的数据质量检测方法,采用工具自动检测方法和人工检测方法相结合的形式精准统计数据问题,不仅可以使决策者快速掌握数据现状,还为数据治理指明了方向,提供了可靠的依据,能够显著提高数据质量。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该面向政府数据的数据质量检测方法,包括以下步骤:

(s1)基于政府发布的政策法规,提取出数据质量检测维度,包括目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度;

(s2)以数据质量检测维度为标准,对政府数据进行质量检测,根据问题种类以及具体情况灵活选择程序检测还是人工检测;

(s3)汇总整理检测结果,提供检测报告。

所述步骤(s1)具体方法为研读政府发布的关于数据的政策法规,以及标准规范和相关文档,提取出数据质量检测维度;所述目录层面分析维度包括对目录名规范性,目录名重复性,目录名含义,目录名长度和核心元数据信息完整性的分析。

所述对目录名规范性的分析是指通过分析目录名是否含有特殊字符,是否出现中英文混搭,是否含地名或固定时间来判定;若目录名含有#、¥或%等特殊字符,或者出现中英文混搭,含有地名或者固定时间,则认为目录名不规范;

所述对目录重复性的分析是将目录名依据不同的属性进行拆分,分析是否含有相同字段;若含有相同字段,则该类目录可合并,属于重复问题;

所述对目录名含义的分析是指分析目录名含义是否模糊,或者有歧义,当1个以上部门有相同的目录名称时,则判定目录名含义模糊,难以理解;

所述对目录名长度的分析是指分析目录名长度是否过长或者过短,当长度超过20个字符或者低于3个字符均属于目录名长度不规范;

所述对核心元数据信息完整性的分析是指政务数据核心元数据信息缺少任何一个信息项视为不完整;所述政务数据核心元数据信息包括信息资源分类,信息资源名称,信息资源代码,信息资源提供方,信息资源提供方代码,信息资源摘要,信息资源格式,信息项信息,开放与共享属性,更新周期,发布日期和关联资源代码。

所述数据资源层面质量检测维度包括对字段,目录和数据的分析,具体规则如下:

(1)若字段名中出现中英文混搭,有特殊字符或者含固定的时间或地点,则认为字段名不规范;

(2)字段应选用与数据属性相当的类型定义,数字应采用数值型,日期应选用时间型,否则则认为字段类型定义不规范;

(3)字段长度应设置为保证正常使用需求下的最小长度,过长或者过短则认为字段长度定义不规范;

(4)若有字典表对应的未转义成对应的中文,机关代码或行政区划代码未转义成对应的中文则认为字典表未转义;

(5)数据加密方式不恰当,通过关联可复原,或者是数据加密之后完全无任何分析意义则认为是无价值的数据加密;

(6)对没有涉及国家安全,公共安全或个人隐私的数据进行加密,则属于无价值数据的加密;

(7)以对照表做参考,若发现记录不全,则属于记录缺失;

(8)依据目录的意义以及业务知识,识别字段不全,则认为字段缺失;

(9)数据值填写不完整,缺少起止时间或者开始时间,则认为数据值缺失;

(10)字段内容为空,则认为是空值;

(11)目录仅有1个字段的,则属于低字段目录,信息不全,不易理解和利用;

(12)记录中所有字段的内容相同,则属于记录重复;

(13)目录中关键字段或者关联字段重复,则认为关键字段重复;

(14)字段内容与字段名不匹配,移位后可匹配,则认为字段内容移位;

(15)字段有明确的标准,数据不符合标准,则认为关键字段错误;

(16)当字段对数值或者时间有范围要求时,实际值不在要求的范围内,则认为不符合值域要求;

(17)通过数据字段之间的逻辑关系判断数据错误,例如地址和邮编不对应,则认为相关性错误;

(18)目录的含义与字段不对应,则认为目录与字段不一致;

(19)目录与内容不对应,则认为目录与内容不一致;

(20)字段意义与所填内容不一致,则认为字段与内容不一致;

(21)依据数据更新频率分析数据时效性;

(22)依据字段敏感度,分析数据保密性;

(23)分析数据的覆盖度,包括目录量,数据量,部门数和主题数。

所述目录名和字段名中的特殊字符是指相对于传统或常用的符号外,使用频率较少字符且难以直接输入的符号。比如注音符号,数学符号,单位符号,制表符等。

所述步骤(s2)的具体方法为基于提取出的数据质量检测维度,对政府的开放数据,共享数据,基础库数据,主题库数据,专题库数据,单部门数据和单数据集进行检测,根据数据场景的不同,业务情况的不同,灵活选用工具检测方法或人工检测方法,分析问题产生的原因和造成的影响,划分问题等级,为数据清洗治理提供依据。

所述检测方法具体包括以下按步骤:

(a)基于数据所属领域,涉事主体,数据性质,数据字段敏感度以及业务实际,经过用户调研及用户确认,确定政务数据的业务场景,是开放场景,还是共享场景;

(b)把通过sql统计的或者python代码段的进行封装,整合开发成检测工具,对目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度,逐个进行检测分析;

(c)检测工具的初步检测之后,对数据问题再次进行人工检测,确认问题详情;

(d)对不同的字段和数据确立不同的处理规范,按照数据问题的严重程度,结合业务场景,将问题数据分为严重问题和非严重问题两种等级。

所述步骤(a)中,可提供给所有政务部门共享使用的政务信息资源目录属于无条件共享类;可提供给相关政务部门共享使用或仅能够部分提供给所有政务部门共享使用的政务信息资源目录属于有条件共享类;不宜提供给其他政务部门共享使用的政务信息资源目录属于不予共享类;主动在网上公开的政府信息,任何人都能不受限制的获取、再利用和再分发的政务信息资源目录属于开放类。

所述步骤(b)中,目录层面分析维度检测办法,包括以下步骤:

(1)利用检测工具中依据正则表达式识别特殊字符或者中英文混搭,人工识别目录的固定地名或者固定时间,分析目录名规范性;

(2)通过sql的分组处理结合字符串截取查看目录的重复情况,分析目录重复性;

(3)采用人工逐个检查目录,分析目录名含义是否模糊;

(4)采用sql语句统计目录长度,人工分析过长或者过短的目录,分析目录名长度规范性;

(5)利用检测工具定义好核心元数据信息内容,进行逐个判断是否存在,分析核心元数据信息完整性。

所述步骤(b)中,数据资源层面分析维度检测办法,包括以下步骤:

(1)利用检测工具中依据正则表达式识别特殊字符或者中英文混搭,人工识别目录的固定地名或者固定时间,分析字段名规范性;

(2)人工判断数据类型,分析字段类型定义规范性;

(3)采用sql统计字段长度,人工分析过长或过短的字段,分析字段长度定义规范性;

(4)人工检测是否存在字典表未转义;

(5)对加密数据通过sql关联查询检测,判断是否存在无价值的数据加密;

(6)人工检测加密数据是否有意义,判断是否存在无价值数据进行加密;

(7)分析与该目录有关的关联目录,判断是否存在记录缺失;

(8)人工检测字段是否存在字段缺失;

(9)人工检测是否存在数据值缺失;

(10)通过sql或者python代码段检测空值情况;

(11)sql统计目录字段数,判断是否存在目录仅1个字段的低字段目录;

(12)sql统计是否存在记录重复情况;

(13)sql统计是否存在关键字段重复情况;

(14)sql按字段分组结合人工检测,分析是否存在字段内容移位;

(15)数据标准结合sql统计关键字段内容,分析是否存在关键字段错误;

(16)人工检测,分析是否存在不符合值域要求的字段;

(17)通过数据字段的逻辑关系判断数据错误,分析是否存在相关性错误;

(18)人工检测目录与字段一致性;

(19)人工检测目录与内容一致性;

(20)人工检测字段与内容一致性;

(21)人工挑出时间字段,sql进行统计,分析数据时效性;

(22)人工分析敏感字段,分析字数据保密性;

(23)sql分析数据的覆盖度。

所述步骤(d)中,按照数据问题的严重程度,结合业务场景,将问题数据分为严重问题和非严重问题两种等级。

对于已开放数据,涉及国家安全,商业秘密,个人隐私,以及数据质量严重不符合开放数据定义要求或严重影响用户使用,对外发布后对社会及政府都造成不良影响的,定义为严重问题;例如:数据内容包含个人联系方式等敏感信息等。

对外发布会对用户使用产生一定影响,同一类问题出现较多也会严重影响本单位形象的,定义为非严重问题。例如:同一开放目录按时间属性拆分为多个目录、数据项重复等。

所述步骤(s3)中,根据数据质量问题的不同选用不同的图表,序列图,地图,流程图,矩阵,网状关系图和信息图的展现方式进行可视化展示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1