数据一致性评估方法、装置、电子设备以及程序产品与流程

文档序号:33541209发布日期:2023-03-22 09:14阅读:82来源:国知局
数据一致性评估方法、装置、电子设备以及程序产品与流程

1.本技术涉及数据处理技术领域,特别是涉及一种数据一致性评估方法、装置、电子设备以及程序产品。


背景技术:

2.随着互联网技术迅速发展,it 产业和人们的生产生活结合的越加紧密,数字化技术已经普及到人们生活的各个角落。随之而来的,是社会中各行各业中产生源源不断的大量数据。而数据的大量更新也会导致大量的过时数据迅速产生,并且伴随着数据来源在形式上的多样化,数据源头的数据和存储的数据之间,不一致数据也变得更加容易出现,由此会严重影响数据的质量。
3.为此,需要对数据进行一致性评估,以判断数据的质量。但是,现有技术中,在评估一致性时,往往要基于决策树、贝叶斯分类器、knn(k-nearest neighboo)分类器等,由此导致数据一致性的计算较为复杂,实时性较差。


技术实现要素:

4.基于上述问题,本技术实施例提供了一种数据一致性评估方法、装置、电子设备、存储介质以及计算机程序产品。
5.本技术实施例公开了如下技术方案:一种数据一致性评估方法,其包括:获取待处理数据集以及待处理数据集副本;对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
6.可选地,所述确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码,包括:对所述待处理数据集进行向量化处理,得到对应的特征向量;针对相邻待处理数据组,确定每个待处理数据组在所述待处理数据集中的位置;
根据每个待处理数据组在所述待处理数据集中的位置,以及所述待处理数据集对应的特征向量的长度,计算对应待处理数据组的位置编码;所述确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码,包括:对所述待处理数据集副本进行向量化处理,得到对应的特征向量;针对相邻待处理数据组副本,确定每个待处理数据组副本在所述待处理数据集副本中的位置;根据每个待处理数据组副本在所述待处理数据集副本中的位置,以及所述待处理数据集副本对应的特征向量的长度,计算对应待处理数据组副本的位置编码。
7.可选地,在针对相邻待处理数据组中的每个待处理数据组计算对应位置编码时,对待处理数据组在所述待处理数据集中的位置,以及所述待处理数据集对应的特征向量的长度整体作为映射对象,进行正弦或者余弦映射,以计算对应待处理数据组的位置编码;或者,在针对相邻待处理数据组副本中的每个待处理数据组副本计算对应位置编码时,对待处理数据组副本在所述待处理数据集副本中的位置,以及所述待处理数据集副本对应的特征向量的长度整体作为映射对象,进行正弦或者余弦映射,以计算对应待处理数据组副本的位置编码。
8.可选地,所述根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征,包括:对每个所述待处理数据组及对应的位置编码进行哈希运算,将哈希运算的结果作为该待处理数据组的指纹特征;所述根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征,包括:对每个所述待处理数据组副本及对应的位置编码进行哈希运算,将哈希运算的结果作为该待处理数据组副本的指纹特征。
9.可选地,所述根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值,包括:对所述待处理数据组和待处理数据组副本对应指纹特征分别进行二值化,得到二值化指纹特征;根据所述待处理数据组和待处理数据组副本对应的二值化指纹特征,计算待处理数据集以及待处理数据集副本的一致性程度值。
10.可选地,所述的方法,还包括:判断所述待处理数据集以及待处理数据集副本的一致性程度值是否小于设定的一致性程度阈值;若小于,则使用所述待处理数据集更新所述待处理数据集副本。
11.可选地,所述使用所述待处理数据集更新所述待处理数据集副本,包括:将所述待处理数据集添加到构建的数据集缓冲队列中;通过访问所述数据集缓冲队列,获取所述待处理数据集,以使用所述待处理数据集更新所述待处理数据集副本。
12.一种数据一致性评估装置,其包括:数据获取单元,用于获取待处理数据集以及待处理数据集副本;切块单元,用于对所述待处理数据集以及待处理数据集副本分别进行切块处理,
得到n1个待处理数据组和n1个待处理数据组副本;第一编码单元,用于确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;第二编码单元,用于确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;第一指纹特征生成单元,用于根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;第二指纹特征生成单元,用于根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;一致性程度计算单元,用于根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
13.一种电子设备,其包括处理器、存储器,其中:所述存储器上存储有计算机可执行指令,所述处理器运行所述计算机可执行指令以执行如下步骤:获取待处理数据集以及待处理数据集副本;对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
14.一种计算机程序产品,所述计算机程序产品上存储有计算机可执行指令,运行所述计算机可执行指令以执行如下步骤:获取待处理数据集以及待处理数据集副本;对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;
根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
15.本技术中,通过对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值,从而降低了数据一致性计算的复杂性,提高了数据一致性程度计算的实时性。
附图说明
16.图1为本技术实施例提供的一种数据一致性评估方法的流程示意图。
17.图2为本技术实施例提供的一种数据一致性评估装置的结构示意图。
具体实施方式
18.实施本技术实施例的任一技术方案必不一定需要同时达到以上的所有优点。
19.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.图1为本技术实施例提供的一种数据一致性评估方法的流程示意图。如图1所示,其包括:s101、获取待处理数据集以及待处理数据集副本;s102、对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;s103、确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;s104、确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;s105、根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;s106、根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;s107、根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
21.可选地,在一可能的实施例中,所述确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码,包括:
对所述待处理数据集进行向量化处理,得到对应的特征向量;针对相邻待处理数据组,确定每个待处理数据组在所述待处理数据集中的位置;根据每个待处理数据组在所述待处理数据集中的位置,以及所述待处理数据集对应的特征向量的长度,计算对应待处理数据组的位置编码;所述确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码,包括:对所述待处理数据集副本进行向量化处理,得到对应的特征向量;针对相邻待处理数据组副本,确定每个待处理数据组副本在所述待处理数据集副本中的位置;根据每个待处理数据组副本在所述待处理数据集副本中的位置,以及所述待处理数据集副本对应的特征向量的长度,计算对应待处理数据组副本的位置编码。
22.在一应用场景中,可以基于训练好的神经网络模型,分别对所述待处理数据集、所述待处理数据集进行向量化处理,得到对应的特征向量。
23.示例地,所述神经网络模型比如为transformer架构。
24.本实施例中,通过上述位置编码从而使得待处理数据组之间、待处理数据组副本之间进行了逻辑关联,保留了逻辑语义和逻辑语序信息,以保证后续生成的指纹特征准确度较高,以及指纹特征之间的差异度能反应待处理数据组之间、待处理数据组副本之间的差异。
25.可选地,在一可能的实施例中,在针对相邻待处理数据组中的每个待处理数据组计算对应位置编码时,对待处理数据组在所述待处理数据集中的位置,以及所述待处理数据集对应的特征向量的长度整体作为映射对象,进行正弦或者余弦映射,以计算对应待处理数据组的位置编码;或者,在针对相邻待处理数据组副本中的每个待处理数据组副本计算对应位置编码时,对待处理数据组副本在所述待处理数据集副本中的位置,以及所述待处理数据集副本对应的特征向量的长度整体作为映射对象,进行正弦或者余弦映射,以计算对应待处理数据组副本的位置编码。
26.在计算待处理数据组以及待处理数据组副本的位置编码时,具体可以参见如下公式来计算:公式来计算:其中pos指相邻两个待处理数据组(或者待处理数据组副本)中的待处理数据组(或者待处理数据组副本)在待处理数据集(或者待处理数据集副本)中的位置,l指待处理数据集(或者待处理数据集副本)对应特征向量的长度,i的取值范围是:0、1、2、

、l-1。i的值为偶数,使用上述正弦映射关系,当i的值为奇数,使用上述余弦映射关系。
27.可选地,在一可能的实施例中,所述根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征,包括:对每个所述待处理数据组及对应的位置编码进
行哈希运算,将哈希运算的结果作为该待处理数据组的指纹特征;所述根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征,包括:对每个所述待处理数据组副本及对应的位置编码进行哈希运算,将哈希运算的结果作为该待处理数据组副本的指纹特征。
28.示例性地,可以基于训练好的哈希运算神经网络模型进行上述哈希运算。
29.在具体实施时,为了降低数据运算量,提高数据处理效率,可以提取每个所述待处理数据组、所述待处理数据组副本中的特征数据,并基于对应位置编码的维度进行编码的特征数据向量,与位置编码进行逻辑运算(比如向量积)后再进行哈希运算。
30.可选地,在一可能的实施例中,所述根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值,包括:对所述待处理数据组和待处理数据组副本对应指纹特征分别进行二值化,得到二值化指纹特征;根据所述待处理数据组和待处理数据组副本对应的二值化指纹特征,计算待处理数据集以及待处理数据集副本的一致性程度值。
31.示例性地,可以通过二分类函数分别对所述待处理数据组和待处理数据组副本对应指纹特征进行分类处理,从而实现所述二值化。而二分类函数比如为激活函数。
32.本实施例中, 由于二值化指纹特征是由0/1组成,因此,可以降低一致性程度值计算的复杂度,同时,能保证该二值化指纹特征能表明对应所述待处理数据组和待处理数据组副本的属性,同时,能准确地反应所述待处理数据组之间、待处理数据组副本之间属性的异同。
33.可选地,在一可能的实施例中,所述根据所述待处理数据组和待处理数据组副本对应的二值化指纹特征,计算待处理数据集以及待处理数据集副本的一致性程度值,包括:对所述待处理数据组和待处理数据组副本对应的二值化指纹特征进行异或运算,以计算待处理数据集以及待处理数据集副本的一致性程度值。
34.本实施例,在具体进行异或运算时,可以将二值化指纹特征映射到汉明空间中,然后在汉明空间下,通过对二值化指纹特征进行异或运算,从而快速地计算出所述一致性程度值。
35.具体地,可以参照如下公式二值化指纹特征进行异或运算:待处理数据集x=(x1,x2,x3…
x
n1
)以及待处理数据集副本y=(y1,y2,y3…yn1
), x1,x2,x3…
x
n1
表示对待处理数据集进行分块得到的n1个待处理数据组分别对应的二值化指纹特征,y1,y2,y3…yn1
表示对待处理数据集副本进行分块得到的n1个待处理数据组副本对应的二值化指纹特征,则待处理数据集以及待处理数据集副本的一致性程度值按照如下公式计算:上述公式中,表示异或运算,表示一致性程度值。
36.由此可见,由于是基于二值化指纹特征在汉明空间上进行计算,因此得到的一致性程度值实际上是待处理数据集以及待处理数据集副本之间的汉明距离,其数值位于0至
n1范围内,从而降低了算法的复杂度,提高了算法执行的效率,降低了算法执行时消耗的资源。同时,由于一致性程度值得最大与待处理数据组n1、待处理数据组副本n1相同,从而相当于通过使得相似程度与待处理数据组、待处理数据组副本的数量建立了关系,对一致性程度值的计算进行监督,防止算法执行时出现异常溢出。
37.可选地,在一可能的实施例中,所述的方法,还包括:判断所述待处理数据集以及待处理数据集副本的一致性程度值是否小于设定的一致性程度阈值;若小于,则使用所述待处理数据集更新所述待处理数据集副本。
38.可选地,在一可能的实施例中,所述使用所述待处理数据集更新所述待处理数据集副本,包括:将所述待处理数据集添加到构建的数据集缓冲队列中;通过访问所述数据集缓冲队列,获取所述待处理数据集,以使用所述待处理数据集更新所述待处理数据集副本。
39.可选地,在一可能的实施例中,所述将所述待处理数据集添加到构建的数据集缓冲队列中时,对所述待处理数据集进行持久化存储处理,以在所述数据集缓冲队列重新加载时,还原所述待处理数据集。
40.可选地,在一可能的实施例中,所述通过访问所述数据集缓冲队列,获取所述待处理数据集,之前包括:判断是否具备使用所述待处理数据集更新所述待处理数据集副本的条件,若具备,则立即使用所述待处理数据集更新所述待处理数据集副本;否则,等待具备所述条件时,使用所述待处理数据集更新所述待处理数据集副本。
41.示例性,所述条件,比如为网络通畅程度。
42.上述实施例中,所述待处理数据集比如产生于移动终端上,而待处理数据集副本存储在服务端,服务端可以是服务器或者服务器集群。
43.上述实施例中,所述待处理数据集的具体数据内容可以根据应用场景来确定,比如为视频数据、直播数据等。
44.图2为本技术实施例提供的一种数据一致性评估装置的结构示意图。如图2所示,其包括:数据获取单元201,用于获取待处理数据集以及待处理数据集副本;切块单元202,用于对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;第一编码单元203,用于确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;第二编码单元204,用于确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;第一指纹特征生成单元205,用于根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;第二指纹特征生成单元206,用于根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;
一致性程度计算单元207,用于根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
45.图2所示实施例中,各个功能单元示例性说明,可以参见上述图1实施例的记载。
46.本技术实施例一种电子设备,其包括处理器、存储器,其中:所述存储器上存储有计算机可执行指令,所述处理器运行所述计算机可执行指令以执行如下步骤:获取待处理数据集以及待处理数据集副本;对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
47.本技术实施例的电子设备以多种形式存在,包括但不限于:(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
48.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
49.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
50.(4)服务器:提供计算服务的设备,服务器的构成包括处理器410、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
51.(5)其他具有数据交互功能的电子装置。
52.本技术实施例还提供一种计算机程序产品,所述计算机程序产品上存储有计算机可执行指令,运行所述计算机可执行指令以执行如下步骤:获取待处理数据集以及待处理数据集副本;对所述待处理数据集以及待处理数据集副本分别进行切块处理,得到n1个待处理数据组和n1个待处理数据组副本;确定所述n1个待处理数据组中相邻待处理数据组的位置关系,以为每个待处理数据组分配位置编码;确定所述n1个待处理数据组副本中相邻待处理数据组副本的位置关系,以为每个待处理数据组副本分配位置编码;
根据每个所述待处理数据组及对应的位置编码,生成该待处理数据组的指纹特征;根据每个所述待处理数据组副本及对应的位置编码,生成该待处理数据组副本的指纹特征;根据待处理数据组和待处理数据组副本对应指纹特征之间的相似度,计算待处理数据集以及待处理数据集副本的一致性程度值。
53.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块提示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
54.以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1