一种消防业务中自动化数据校验方法及装置与流程

文档序号:23804130发布日期:2021-02-03 07:23阅读:55来源:国知局
一种消防业务中自动化数据校验方法及装置与流程

[0001]
本发明涉及数据校验技术领域,具体涉及一种消防业务中自动化数据校验方法及装置。


背景技术:

[0002]
在互联网应用中,数据库是非常重要的组成部分,数据库中的数据是否规范、合理、有效,直接影响应用系统的准确性、可用性和效率,因而,对数据质量的校验是非常有必要的。
[0003]
尤其是数据中心、数据汇集这样的系统中,为了兼容不同的数据来源、数据类型,数据库的表字段设计常常采用比较通用的字符串类型,如此,接入数据的规范性无法得到保障,因而,数据库中数据质量的管理显得尤其重要,需要数据质量校验工具,对数据库的数据进行质量检测,进而督促提高数据质量。
[0004]
现有的数据质量检验技术存在以下的不足:
[0005]
1.操作复杂度高:现有的数据校验功能,需要用户自行配置数据源、数据表、表字段、字段属性、字段校验规则等,对于数据库表数量大的情况,这个配置过程就非常繁琐,而且容易出现遗漏。
[0006]
2.使用专业性强:数据的校验规则,一般需要有计算机编程能力的用户进行编写,这无疑增加了系统使用难度。


技术实现要素:

[0007]
有鉴于此,本发明提供一种自动化的数据质量校验装置,用于对数据库系统中已有的数据进行检测,用于解决现有数据检验技术操作复杂度高、使用专业性强的问题。
[0008]
本发明第一方面,公开一种消防业务中自动化数据校验方法,所述方法包括:
[0009]
获取消防业务中常用数据对象的多组标准样本数据,提取数据对象的数据特征,根据所述数据特征生成每类数据对象的校验规则;
[0010]
从数据库中读取待校验字段,运用apriori关联分析算法确定待检验字段与校验规则的匹配关系,根据所述匹配关系执行数据字段校验;
[0011]
采用阴阳对优化算法改进的k均值聚类算法对消防大数据进行聚类;对每一聚类类簇采用密度峰值异常值检测算法进行数据异常检测;
[0012]
通过可视化窗口展示数据表的数据准确性校验结果、数据字段校验结果和对应的校验规则。
[0013]
优选的,所述数据字段校验包括:完整性校验、唯一性校验、一致性校验、有效性校验。
[0014]
优选的,所述运用apriori关联分析算法确定待检验字段与校验规则的匹配关系具体包括:
[0015]
从数据库中读取待校验字段,随机抽取n个包含所述字段的非空数据对象,分别提
取数据特征,建立数据对象-数据特征项集对应关系表;
[0016]
运用apriori关联分析算法计算各个数据特征项集的频繁程度,选择频繁程度最高的数据特征项集,确定待校验字段对应的数据对象,结合每个数据对象的校验规则建立待检验字段与校验规则的匹配关系。
[0017]
优选的,所述改用阴阳对优化算法改进的k均值聚类算法对获取的消防大数据进行聚类具体为:
[0018]
s01、初始化点集p1、p2并归一化处理,设置存储更新的最小数i
min
和最大数i
max
,最大迭代次数为t,数据维度为d;
[0019]
s02、设置适应度函数,所述适应度函数的目标是类内距离值之和最小;
[0020]
s03、利用目标函数评估点集p1、p2的适应度值,若p1优于p2,则p1、p2互换,存储p1、p2,并令当前迭代次数t=t+1;
[0021]
s04、分别执行p1、p2分裂和存储操作,并获得更新的p1、p2以及对应的适应度值;若存储中的最佳点比点p1、p2更合适,则与点p1、p2交换;
[0022]
s05、分别更新点集p1、p2的搜索半径δ1和δ2:
[0023][0024]
其中=t为最大迭代次数,t为当前迭代次数,k、c为常数;
[0025]
s06、存储矩阵设置为空,并在其指定范围i
min
和i
max
内随机生成存储更新数i的新值;
[0026]
s07、判断算法是否达到最大迭代次数t,若是,输出最佳点适应度值及所处空间位置,否则返回s03重新评估适应度值,进行点集和搜索半径的迭代更新,直到迭代结束,输出输出最佳点适应度值所在的空间位置作为聚类中心点集。
[0027]
优选的,所述步骤s04中,p1、p2的分裂操作具体为:
[0028]
设点p的二维相同副本被存储为s,
[0029]
单向分裂:
[0030][0031]
d向分裂:
[0032][0033]
r为0~1之间的随机数,δ为搜索半径,b长度为d的二维随机二进制矩阵。
[0034]
优选的,所述对每一聚类类簇采用密度峰值异常值检测算法进行数据异常检测具体为:
[0035]
对每一聚类类簇,计算其中每个样本的局部密度,并根据局部密度得到knn距离,然后将局部密度小于预设密度阈值和knn距离大于预设距离阈值的样本作为异常数据。
[0036]
优选的,用户通过所述可视化窗口对校验结果进行纠正或完善。
[0037]
本发明第二方面,公开一种消防业务中自动化数据校验装置,所述装置包括:
[0038]
规则生成单元:获取消防业务中常用数据对象的多组标准样本数据,提取数据对象的数据特征,根据所述数据特征生成每类数据对象的校验规则;
[0039]
字段校验单元:从数据库中读取待校验字段,运用apriori关联分析算法确定待检验字段与校验规则的匹配关系,根据所述匹配关系执行数据字段校验;
[0040]
异常检测单元:采用阴阳对优化算法改进的k均值聚类算法对消防大数据进行聚类;对每一聚类类簇采用密度峰值异常检测算法进行数据异常检测;
[0041]
可视化单元:通过可视化窗口展示数据表的数据异常检测结果、数据字段校验结果和对应的校验规则。
[0042]
本发明相对于现有技术具有以下有益效果:
[0043]
1)本发明通过内置强大的校验规则池,涵盖丰富、全面的校验规则,可实现校验规则自动生成、自动匹配和字段自动校验,完成局部数据字段校验,减少操作复杂度;
[0044]
2)通过采用阴阳对优化算法改进的k均值聚类算法对消防大数据进行聚类;对每一聚类类簇采用密度峰值异常值检测算法进行数据异常检测,完成全局异常校验,提高数据校验准确性;
[0045]
3)通过可视化窗口展示局部数据字段校验和全局异常校验检测结果,并根据用户对检测结果的反馈,自动修正、完善检测结果,增强易用性。
附图说明
[0046]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0047]
图1为本发明的消防业务中自动化数据校验方法流程示意图。
具体实施方式
[0048]
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0049]
如图1所示,本发明公开一种消防业务中自动化数据校验方法,所述方法包括:
[0050]
s1、获取消防业务中常用数据对象的多组标准样本数据,提取数据对象的数据特征,根据所述数据特征生成每类数据对象的校验规则,组建校验规则池;
[0051]
所述消防业务中常用数据包括消防器材数据、消防站点数据、设备台账数据、在线监测数据、消防任务数据等。
[0052]
s2、从数据库中读取待校验字段,运用apriori关联分析算法确定待检验字段与校验规则的匹配关系,根据所述匹配关系执行数据字段校验;
[0053]
所述运用apriori关联分析算法确定待检验字段与校验规则的匹配关系具体包括:
[0054]
从数据库中读取待校验字段,随机抽取n个包含所述字段的非空数据对象d=
{d1,...,d
n
},分别提取数据特征f,建立数据对象-数据特征项集对应关系表;例如表1,为数据对象-数据特征项集对应关系示例:
[0055]
表1
[0056]
数据数据特征集d1f1,f2,f3,..d2f2,f5,.........d
n
f1,f2,f5,...
[0057]
运用apriori关联分析算法计算各个数据特征项集的频繁程度,选择频繁程度最高的数据特征项集,确定待校验字段对应的数据对象,结合每个数据对象的校验规则建立待检验字段与校验规则的匹配关系,根据所述匹配关系执行数据字段校验;
[0058]
所述数据字段校验包括:完整性校验、唯一性校验、一致性校验、有效性校验。
[0059]
所述完整性校验检验数据是否存在缺失值;
[0060]
所述唯一性校验检测数据数据表中是否存在重复、不同行或列对应的数值数据的相同个数是否超过预设阀值;
[0061]
所述准确性校验检验各数据的精度是否满足要求;
[0062]
所述一致性校验检验数据的表达格式是否与样本表达格式一致;
[0063]
所述有效性校验检验数据格式是否符合要求、检查数值数据的大小是否处于预设的值域范围之内。
[0064]
本发明通过标准样本数据自动生成校验规则,组建校验规则池,实现待检验字段的校验规则自动匹配和校验,完成局部数据字段校验,减少操作复杂度;
[0065]
s3、采用阴阳对优化算法改进的k均值聚类算法对消防大数据进行聚类;对每一聚类类簇采用密度峰值异常值检测算法进行数据异常检测;具体为:
[0066]
s01、初始化点集p1、p2并归一化处理,设置存储更新的最小数i
min
和最大数i
max
,最大迭代次数为t,数据维度为d;
[0067]
s02、设置适应度函数,所述适应度函数的目标是类内距离值之和最小;
[0068]
s03、利用目标函数评估点集p1、p2的适应度值,若p1优于p2,则p1、p2互换,存储p1、p2,并令当前迭代次数t=t+1;
[0069]
s04、分别执行p1、p2分裂和存储操作,并获得更新的p1、p2以及对应的适应度值;若存储中的最佳点比点p1、p2更合适,则与点p1、p2交换;
[0070]
其中,p1、p2的分裂操作具体为:
[0071]
设点p的二维相同副本被存储为s,
[0072]
单向分裂:
[0073][0074]
d向分裂:
[0075][0076]
r为0~1之间的随机数,δ为搜索半径,b长度为d的二维随机二进制矩阵。
[0077]
s05、分别更新点集p1、p2的搜索半径δ1和δ2:
[0078][0079]
其中=t为最大迭代次数,t为当前迭代次数,k、c为常数,c∈[0,2];
[0080]
s06、存储矩阵设置为空,并在其指定范围i
min
和i
max
内随机生成存储更新数i的新值;
[0081]
s07、判断算法是否达到最大迭代次数t,若是,输出最佳点适应度值及所处空间位置,否则返回s03重新评估适应度值,进行点集和搜索半径的迭代更新,直到迭代结束,输出输出最佳点适应度值所在的空间位置作为聚类中心点集。
[0082]
s08、对每一聚类类簇,采用欧氏距离计算其中每个样本的局部密度,并根据局部密度得到knn距离,然后将局部密度小于预设密度阈值和knn距离大于预设距离阈值的样本作为异常数据。
[0083]
本发明通过采用阴阳对优化算法改进的k均值聚类算法对消防大数据进行聚类,实现准确的数据划分;对每一聚类类簇采用密度峰值异常值检测算法进行数据异常检测,完成全局异常校验,提高数据校验准确性;
[0084]
s4、通过可视化窗口展示数据表的异常数据检测结果、数据字段校验结果和对应的校验规则。
[0085]
用户可通过所述可视化窗口对校验结果进行纠正或完善,增强易用性和可靠性。
[0086]
s5、创建定时调度任务,周期性的执行数据校验,并将检测结果生成检数据质量测报告。
[0087]
与上述方法实施例相对应,本发明还公开一种消防业务中自动化数据校验装置,所述装置包括:
[0088]
规则生成单元:获取消防业务中常用数据对象的多组标准样本数据,提取数据对象的数据特征,根据所述数据特征生成每类数据对象的校验规则;
[0089]
字段校验单元:从数据库中读取待校验字段,运用apriori关联分析算法确定待检验字段与校验规则的匹配关系,根据所述匹配关系执行数据字段校验;
[0090]
异常检测单元:采用阴阳对优化算法改进的k均值聚类算法对消防大数据进行聚类;对每一聚类类簇采用密度峰值异常检测算法进行数据异常检测;
[0091]
可视化单元:创建定时调度任务,周期性的执行数据校验,通过可视化窗口展示数据表的数据异常检测结果、数据字段校验结果和对应的校验规则。
[0092]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1