本技术涉及数据处理,尤其涉及一种隐私数据求交集的方法、装置、设备及存储介质。
背景技术:
1、近年来,隐私保护集合交集(private set intersection,psi)允许持有数据集合的两方共同确定两个数据集合的交集。一方或是两方获取两个数据集合的交集的过程中,不会得到交集以外的任何数据,因此提高了持有数据集合的各方的数据安全。其中,隐私保护集合交集可以应用在多个场景中,例如,应用在确定广告转换率的场景中,一方的数据集合包括已浏览某一物品广告的多个用户信息,另一方的数据集合包括已购买该物品的多个用户信息。通过确定两方数据集合的交集,可以确定广告的转换率。
2、在现有技术中,一般是通过计算机设备分别提取两方数据集合内的数据,然后两两对比,确定两方数据集合的交集。发明人发现现有技术至少存在如下技术问题:当数据集合内的数据量较大时,通过两两对比的次数较多,导致计算机设备处理两方数据集合的交集时存在效率低的问题。
技术实现思路
1、本技术提供一种隐私数据求交集的方法、装置、设备及存储介质,能够提高隐私数据求交集的效率。
2、第一方面,本技术提供一种隐私数据求交集的方法,包括:
3、对第一方的第一原始数据集合进行转换,得到第一数据集合,所述第一数据集合包括多个第一业务数据;
4、获取第二方发送的对第二方的第二原始数据集合进行转换得到的第二数据集合,所述第二数据集合包括多个第二业务数据;
5、根据预设阈值,确定约等集合;
6、对所述第二数据集合中的每个第二业务数据计算特征值,根据所述特征值对所述第二数据集合中的第二业务数据进行特征分类,得到多个类别集合;
7、确定每个所述第一业务数据的特征值;
8、根据所述第一业务数据的特征值、所述多个类别集合和所述约等集合,确定所述第一原始数据集合和所述第二原始数据集合的交集。
9、在一种可能的设计中,所述根据所述第一业务数据的特征值、所述多个类别集合和所述约等集合,确定所述第一原始数据集合和所述第二原始数据集合的交集,包括:
10、对于每个第一业务数据,根据所述第一业务数据的特征值和所述约等集合,从所述多个类别集合中确定待对比的第一目标集合;
11、将所述待对比的第一目标集合中的每个第二业务数据与所述第一业务数据进行比对,得到所述第一原始数据集合和所述第二原始数据集合的交集。
12、在一种可能的设计中,所述将所述待对比的第一目标集合中的每个第二业务数据与所述第一业务数据进行比对,得到所述第一原始数据集合和所述第二原始数据集合的交集,包括:
13、将所述待对比的第一目标集合中的每个第二业务数据与所述第一业务数据进行比对;
14、若存在所述第一业务数据和所述第二业务数据之间的误差值不大于误差阈值,则确定所述第一业务数据对应的第一原始数据属于第一原始数据集合和第二原始数据集合的交集。
15、在一种可能的设计中,所述根据所述第一业务数据的特征值、所述多个类别集合和所述约等集合,确定所述第一原始数据集合和所述第二原始数据集合的交集,包括:
16、对于每个类别集合,根据所述类别集合中每个第二业务数据的特征值和所述约等集合,确定多个第二目标集合;
17、根据所述每个第一业务数据的特征值,从所述多个第二目标集合中选取与所述第一业务数据对应的第二目标集合;
18、将所述第一业务数据对应的第二目标集合中的每个第二业务数据与所述第一业务数据进行比对,得到所述第一原始数据集合和所述第二原始数据集合的交集。
19、在一种可能的设计中,所述确定每个所述第一业务数据的特征值,包括:
20、对于每个所述第一业务数据,确定所述第一业务数据的段数;
21、根据所述第一业务数据的段数,对所述第一业务数据内的字符进行逐段求和;
22、将多个求和结果作为所述第一业务数据的特征值。
23、在一种可能的设计中,其中对所述第二数据集合中的每个第二业务数据计算特征值,包括:
24、对于每个所述第二业务数据,确定所述第二业务数据的段数;
25、根据所述第二业务数据的段数,对所述第二业务数据内的字符进行逐段求和;
26、将多个求和结果作为所述第二业务数据的特征值。
27、在一种可能的设计中,所述根据预设阈值,确定约等集合,包括:
28、对于任一m个约等字符,确定各个约等字符的绝对值,其中,m为正整数;
29、若所述各个约等字符的绝对值之和不大于所述误差阈值,则将所述m个约等字符组合为约等数据,得到约等集合。
30、在一种可能的设计中,所述根据第一业务数据的特征值、多个类别集合和约等集合,确定第一原始数据集合和第二原始数据集合的交集之前,还包括:初始化所述第一原始数据集合和所述第二原始数据集合的交集为空集。
31、第二方面,本技术提供一种隐私数据求交集的装置,包括:
32、转换模块,用于对第一方的第一原始数据集合进行转换,得到第一数据集合,所述第一数据集合包括多个第一业务数据;
33、获取模块,用于获取第二方发送的对第二方的第二原始数据集合进行转换得到的第二数据集合,所述第二数据集合包括多个第二业务数据;
34、第一确定模块,用于根据预设阈值,确定约等集合;
35、特征分类模块,用于对所述第二数据集合中的每个第二业务数据计算特征值,根据所述特征值对所述第二数据集合中的第二业务数据进行特征分类,得到多个类别集合;
36、第二确定模块,用于确定每个所述第一业务数据的特征值;
37、第三确定模块,用于根据所述第一业务数据的特征值、所述多个类别集合和所述约等集合,确定所述第一原始数据集合和所述第二原始数据集合的交集。
38、第三方面,本发明提供一种电子设备,包括:至少一个处理器和存储器;
39、所述存储器存储计算机执行指令;
40、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面所述的隐私数据求交集的方法。
41、第四方面,本发明提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面所述的隐私数据求交集的方法。
42、第五方面,本技术还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时,实现如上第一方面所述的隐私数据求交集的方法。
43、本技术提供的隐私数据求交集的方法、装置、设备及存储介质,对第一方的第一原始数据集合进行转换,得到第一数据集合,第一数据集合包括多个第一业务数据;获取第二方发送的对第二方的第二原始数据集合进行转换得到的第二数据集合,第二数据集合包括多个第二业务数据;根据预设阈值,确定约等集合;对第二数据集合中的每个第二业务数据计算特征值,根据特征值对第二数据集合中的第二业务数据进行特征分类,得到多个类别集合;确定每个第一业务数据的特征值;根据第一业务数据的特征值、多个类别集合和约等集合,确定第一原始数据集合和第二原始数据集合的交集。由于通过将业务数据进行特征分类,将同一类型的第二业务数据进行分类,第一业务数据只需与特定类别的第二业务数据进行对比即可,这样降低了参与比对的第二业务数据的数量,因此提高了隐私数据求交集的效率。