一种基于政府数据的质量检测方法与流程

文档序号:18119539发布日期:2019-07-10 09:32阅读:394来源:国知局

本发明涉及数据质量检测技术领域,特别涉及一种基于政府数据的质量检测方法。



背景技术:

政府数据覆盖社会管理与公众服务的方方面面,并且具有较高的权威性。各级政府掌握着社会80%的数据,是最大的数据保有者,大量的数据资源急需政府和社会开放、共享和利用。

政府数据本身作为一种信息资源,过程中存在着采集、加工、分析、保存、传输等操作,其中就可能会导致数据的异常甚至错误,而政府数据又必须具有权威性和准确性,且存在着行业多样、数据量大、变化快的特征。因此,对大量的、千差万别的政府数据的高效、通用的质量检测,问题可视化处理对帮助政府和社会更快、更直观地认识数据、理解数据、利用数据显得尤为重要。

基于上述情况,本发明提出了一种基于政府数据的质量检测方法,对数据问题进行有效检测,使得在保证政府数据准确性和规范性上成为可能,使得政府和社会快速、直观地发现问题数据成为可能;提供图形化的问题数据展示和处理,使得在快速统计问题数据,处理问题数据和监督问题处理情况成为可能。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于政府数据的质量检测方法。

本发明是通过如下技术方案实现的:

一种基于政府数据的质量检测方法,其特征在于:在数据库中对质量检测规则进行定义,创建规则模型和分布式质量检测任务,完成质量检测任务后统计质量检测结果,向问题责任人和监督人同时发送提醒通知,对检测数据进行评分,并生产质量检测报告。

本发明基于政府数据的质量检测方法,采用druid数据库连接池实现,监控druid数据库连接池连池和sql执行情况,每次调用的连接和释放,保证合理的资源利用;同时,建立一个大的数据库sql生成工厂,在质量检测任务执行时根据数据源的类型选择对应工厂,保证在不同的数据库下正常的执行。

为避免重复监测,在数据监测时设定时间指针偏移和最大量监测,以便快速完成一次质量检测任务。

所述质量检测规则包括数据元规则和通用规则,所述数据元规则需要相应的政府平台数据标准服务的支持;所述通用规则定义sql类型和正则表达式的类型,通过sql类型实现对多种数据源的支持,对多个数据源的规则进行配置和统一管理;在质量检测时选择相应类型的质量检测规则来处理,进而动态的实现了数据源的配置,为以后的扩展提供支持。

所述质量检测任务采用轻量级分布式任务管理方案,以实现多任务的负载均衡;所述质量检测任务分配到执行器后,由调度中心触发执行器执行质量检测任务;所述调度中心基于集群quartz实现并支持集群部署,所述执行器支持集群部署;当有新的执行器上线或者下线时,重新分配任务;所述轻量级分布式任务管理方案可以降低单台服务器硬件需求和服务器的压力,同时可以避免某个服务器出现问题影响数据质量的检测。

所述质量检测任务分别按照各自配置的路由方式分发到各个执行器;所述执行器集群部署,周期性的自动注册到调度中心,调度中心自动发现注册的质量检测任务并触发执行。

所述调度中心支持手动录入执行器地址。

所述路由方式包含选择第一个,最后一个,轮询或故障转移,每个质量检测任务配置一种路由方式。

本发明的有益效果是:该基于政府数据的质量检测方法,通过对数据的检测,分析,告警,督查,评分等工作高效且有效的保证了数据的准确规范,不仅可以快速准确的定位问题数据的位置以及问题的原因,还能提供快速处理的界面操作,为更好的理解数据、利用数据、挖掘数据价值提供了支持。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

由于在内存中消耗资源大且执行速度慢,该基于政府数据的质量检测方法,在数据库中对质量检测规则进行定义,创建规则模型和分布式质量检测任务,完成质量检测任务后统计质量检测结果,向问题责任人和监督人同时发送提醒通知,对检测数据进行评分,并生产质量检测报告。

该基于政府数据的质量检测方法,采用druid数据库连接池实现,监控druid数据库连接池连池和sql(structuredquerylanguage,结构化查询语言)执行情况,每次调用的连接和释放,保证合理的资源利用;同时,建立一个大的数据库sql生成工厂,在质量检测任务执行时根据数据源的类型选择对应工厂,保证在不同的数据库下正常的执行。

druid数据库连接池替换dbcp和c3p0,提供了一个高效、功能强大、可扩展性好的数据库连接池,具有一下功能:

(1)druid数据库连接池内置提供了一个功能强大的statfilter插件,能够详细统计sql的执行性能,可以监控数据库访问性能,对于线上分析数据库访问性能有帮助。

(2)druiddruiver和druiddatasource都支持passwordcallback,支持数据库密码加密,能够保障数据安全。

(3)支持sql执行日志,druid数据库连接池提供了不同的logfilter,能够支持common-logging、log4j和jdklog,用户按需要选择相应的logfilter,监控应用的数据库访问情况。

(4)支持扩展jdbc,当用户对jdbc(javadatabaseconnectivity,java数据库连接)层有编程需求时,可以通过druid数据库连接池提供的filter过滤器机制,很方便编写jdbc层的扩展插件。

为避免重复监测,在数据监测时设定时间指针偏移和最大量监测,以便快速完成一次质量检测任务。

所述质量检测规则包括数据元规则和通用规则,所述数据元规则需要相应的政府平台数据标准服务的支持;所述通用规则定义sql类型和正则表达式的类型,通过sql类型实现对多种数据源的支持,对多个数据源的规则进行配置和统一管理;在质量检测时选择相应类型的质量检测规则来处理,进而动态的实现了数据源的配置,为以后的扩展提供支持。

检测数据元的正确性,数据是否准确,规范,完整是数据质量监测的重要内容。数据元又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元,是数据不可再分的最小数据单元。

政府数据中各行各业都存在着一些特定的数据元。例如:“学生类别”就是一个数据元,政府中保存着所有人的教育信息,数据量很大,单靠人来审查是不现实的。此时,可以对数据选择“学生类别”的数据元规则,然后对所有数据进行筛选,当数据中的学生类别信息不符合“学生类别”数据元的标准,就会被筛选出来。

所述质量检测任务采用轻量级分布式任务管理方案,以实现多任务的负载均衡;所述质量检测任务分配到执行器后,由调度中心触发执行器执行质量检测任务;所述调度中心基于集群quartz实现并支持集群部署,所述执行器支持集群部署;当有新的执行器上线或者下线时,重新分配任务;所述轻量级分布式任务管理方案可以降低单台服务器硬件需求和服务器的压力,同时可以避免某个服务器出现问题影响数据质量的检测。

在设计和开发时,本着易扩展,解耦合和可插拔的思路,当添加一种数据库时,不会对代码进行大的变动。

所述质量检测任务分别按照各自配置的路由方式分发到各个执行器;所述执行器集群部署,周期性的自动注册到调度中心,调度中心自动发现注册的质量检测任务并触发执行。

所述调度中心支持手动录入执行器地址。

所述路由方式包含选择第一个,最后一个,轮询或故障转移,每个质量检测任务配置一种路由方式。

该基于政府数据的质量检测方法,基于政府目录数据的信息,提供了一种问题数据查找的方法,在一个操作台界面对数据进行多方位的有效的检测,包括数据元检测,规范性,一致性,准确性的检测。具体包含规则定义、质量模型、质量检核、问题告警、质量分析、质量督查、质量报告等一系列完整的处理过程。面对大量的、千差万别的政府开放数据,通用的质量检测方案对帮助政府和社会更快更直观地认识数据、理解数据、利用数据提供了的指导,不仅可以快速准确的定位问题数据的位置和问题的原因,还能提供快速处理的界面操作。

同时,该基于政府数据的质量检测方法,基于在数据库中处理比在内存中更加高效,同时兼容了当前通用的所有数据源类型,使用起来更加方便广泛;且为了快速稳定高效的统计,我们采用了分布式任务的技术,减少了服务器端的压力和保证了当一个服务器需要维护或瘫痪时还可以保证其它服务器任务的正常执行。

完成质量检测任务,筛选出问题数据只是第一步,用户需要了解数据的整体情况,并且及时处理,就需要对问题数据呈现多维度的分组统计;例如规则标准的种类,当前使用的规则,出现问题的部门,问题的趋势等;向问题责任人和监督人同时发出问题告警可以及时通知数据的编写者进行及时的处理,指定权限的质量督查人员可以对问题进行跟踪审查,保证数据得到及时的处理;质量检测报告可以实现对数据的汇总,方便存储和查阅,从而实现了对问题处理的闭环。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1