技术特征:
1.一种基于交叉校验置信度计算的数据可信评估方法,其特征在于:对对照数据进行清洗和预处理;选择/标定基准数据,将各对照数据表与基准数据表的字段排序对齐;按照匹配计算规则将各对照数据表的字段值分别与基准数据表的字段值进行匹配,为各对照数据表建立匹配结果矩阵;根据匹配结果对应的置信度,计算所有对照数据表的匹配结果矩阵对应的置信度。2.根据权利要求1所述的数据可信评估方法,其特征在于,所述对照数据是来自非权威渠道、待评估的真实数据,其标定基准数据的过程为:直接选择来自权威数据作为基准数据。3.根据权利要求1所述的数据可信评估方法,其特征在于,所述对照数据是来自非权威渠道的数据,其标定基准数据的过程为:对各对照数据表进行排列和关联,再依次遍历各对照数据表,计算每个关联键rid在所有对照数据表中出现的次数times(rid),若times(rid)=n,将关联键rid对应的数据记录加入待评估数据集中,生成临时数据集1,在临时数据集1中,依次遍历所有关联键rid,将临时数据集1中的所有字段值填充完毕,生成临时数据集2,删除临时数据集2中不可用的基准字段值,生成基准数据集;所述在临时数据集1中,依次遍历所有关联键rid,并计算临时数据集1中每个字段值在所有表中出现的次数times(valuei_j),若:times(valuei_j)>=floor(n*tp),将valuei_j作为对应基准字段值;同时存在多个字段值valuei_j,均满足times(valuei_j)>=floor(n*tp),先按照次数由大到小排序,然后按照对照数据表排列顺序对valuei_j进一步排序,最终选择第一顺位对应的valuei_j作为基准字段值;不存在valuei_j满足times(valuei_j)>=floor(n*tp),则将基准字段值标记为不可用;其中:n表示对照数据表的数量,floor表示向下取整,tp表示f在n份对照数据表中出现概率的阈值。4.根据权利要求1所述的数据可信评估方法,其特征在于,所述匹配计算规则包括:空值:空白值与其他值进行匹配,对应的置信度参考值为50%;精确匹配:相同类型值是否相等匹配,对应的置信度参考值为100%;范围匹配:大小范围、集合范围、时间范围的匹配,对应的置信度参考值为90%;模糊匹配:分词包含、文本相似度的匹配关系,对应的置信度参考值为70%;无匹配,对应的置信度参考值为0%。5.根据权利要求1所述的数据可信评估方法,其特征在于,所述置信度包括记录级/行级置信度和字段级/列级置信度;所述记录级/行级置信度的计算公式为:所述字段级/列级置信度的计算公式为:
其中:vm,n为对照数据表字段的置信度,m表示关联键,n表示字段,num()表示数量。6.根据权利要求1所述的数据可信评估方法,其特征在于,还包括生成数据可信评估报告,所述数据可信评估报告根据中间过程数据生成,所述中间过程数据是在数据清洗、基准标定、基准维度对齐和匹配计算过程中产生的。7.根据权利要求6所述的数据可信评估方法,其特征在于,所述清洗和预处理包括但不限于如下方式:字典/枚举转换、字段类型转换、异常值处理、关联键生成、去除或忽略部分无业务含义或价值的字段。8.一种实现权利要求1-7任一项所述的数据可信评估方法的系统,其特征在于,包括:数据导入模块,用于将对照数据导入;数据清洗模块,对对照数据进行清洗和预处理;基准标定模块,标定基准数据;基准维度对齐模块,将各对照数据表与基准数据表的字段排序进行对齐;计算模块,将各对照数据表的字段值分别与基准数据表的字段值进行匹配,计算匹配结果对应的置信度;报告输出与清理模块,利用中间过程数据生成和输出数据可信评估报告,并对中间过程数据进行清除。9.一种电子设备,其特征在于,包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-7任一项所述的数据可信评估方法。10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7任一项所述的数据可信评估方法。
技术总结
本发明提供了一种基于交叉校验置信度计算的数据可信评估方法和系统,评估方法包括:先对对照数据进行清洗和预处理,然后选择/标定基准数据,将各对照数据表与基准数据表的字段排序对齐,接着按照匹配计算规则将各对照数据表的字段值分别与基准数据表的字段值进行匹配,为各对照数据表建立匹配结果矩阵,再根据匹配结果对应的置信度,计算所有对照数据表的匹配结果矩阵对应的置信度;最后根据数据清洗、基准标定、基准维度对齐和匹配计算过程中产生的过程数据生成数据可信评估报告。本发明简化了由人工参与数据质量分析和可信评估的过程,显著提高了数据评估工作的效率和准确率。率。率。
技术研发人员:齐宁 周云松 王治平 朱巍 李育 于航
受保护的技术使用者:江苏省联合征信有限公司
技术研发日:2022.06.16
技术公布日:2022/10/11