本发明涉及数据处理领域,尤其涉及一种数据质量规则统一校验方法。
背景技术:
1、数据质量,即是在某个行业、某个场景业务下,符合数据使用者的业务需求、组织方式及展现形式。首先数据使用者利用数据存系统,比如数据库、文件等方式保存了一批数据,此数据可能是使用者的业务系统产生并进行过一定的筛选得到,最终保存到数据存储系统中。而其中数据的内容是否符合某个行业,某个场景业务下的规范,用数据符合规范的分值来权衡数据的质量。但是常存在不够直观且上手成本相对较高,且不方便维护等缺点。
2、中国专利公开号cn116450719a公布了一种数据处理系统及方法,包括:数据交换模块,用于基于用户的项目任务需求进行数据源类型的统一;数据质量校验模块,用于对同一类型的数据源依据预设的校验指标和校验规则进行数据质量校验;scriptis模块,用于配置目标数据分析程序并对进行数据质量校验分析。由此可见,对比文件未考虑到质量校验不够直观且上手成本相对较高,且不方便维护的问题。
技术实现思路
1、为此,本发明提供一种数据质量规则统一校验方法,用以克服现有技术中质量校验不够直观且上手成本相对较高,且不方便维护的问题。
2、为实现上述目的,本发明提供一种数据质量规则统一校验方法,包括:
3、针对单条数据进行进行一次判定;
4、根据数据的非空率确定是否针对评估分数进行减小调节;
5、针对单条数据是否合格进行二次判定;
6、根据数据的时间点是否处于预设时间范围判定是否针对评估分数进行减小调节;
7、用户自行设定判定规则,判定规则的数量以及最大评估分数。
8、进一步地,针对单条数据是否合格进行一次判定,若数据的非空率大于单条数据的数据量的10%,则该数据对应评估分数进行减小预设差值;
9、若数据的非空率小于或等于单条数据的数据量的10%,则该数据对应评估分数不变。
10、进一步地,针对单条数据是否合格进行二次判定,若数据的时间点处于预设时间范围,则该数据对应评估分数不变;
11、若数据的时间点不处于预设时间范围,则该数据对应评估分数进行减小预设差值。
12、进一步地,预设时间范围为用户自行设定。
13、进一步地,用户自行设定判定规则,判定规则的数量n应满足,n×预设差值=100。
14、进一步地,使用表达式表示质量规则之间的关系,表达式基本组成单位为规则。
15、进一步地,单个规则值为true或者false,若单条数据对应的评估分数大于60,则规则值为true,若单条数据对应的评估分数小于等于60,规则值为false。
16、与现有技术相比,本发明的有益效果在于,本发明技术方案中设计了一种在大数据平台通用场景下数据质量评估方式,使用者只需要在系统中定义一个质量规则,在定义多个规则之间的逻辑关系既可以完成数据质量计算,解决了传统大数据量质量计算通过数据sql语句进行处理,不够直观且上手成本相对较高,且不方便维护的问题。
1.一种数据质量规则统一校验方法,其特征在于,包括:
2.根据权利要求1所述的数据质量规则统一校验方法,其特征在于,针对单条数据是否合格进行一次判定,若数据的非空率大于单条数据的数据量的10%,则该数据对应评估分数进行减小预设差值;
3.根据权利要求2所述的数据质量规则统一校验方法,其特征在于,针对单条数据是否合格进行二次判定,若数据的时间点处于预设时间范围,则该数据对应评估分数不变;
4.根据权利要求3所述的数据质量规则统一校验方法,其特征在于,预设时间范围为用户自行设定。
5.根据权利要求4所述的数据质量规则统一校验方法,其特征在于,用户自行设定判定规则,判定规则的数量n应满足,n×预设差值=100。
6.根据权利要求5所述的数据质量规则统一校验方法,其特征在于,使用表达式表示质量规则之间的关系,表达式基本组成单位为规则。
7.根据权利要求6所述的数据质量规则统一校验方法,其特征在于,单个规则值为true或者false,若单条数据对应的评估分数大于60,则规则值为true,若单条数据对应的评估分数小于等于60,规则值为false。