本发明属于机器学习和隐私安全,具体涉及一种联邦图神经网络的隐私泄露侦测方法。
背景技术:
1、图是现实世界中无处不在的一种重要数据表现形式,然而,由于其是非欧几里得数据,分析图数据在计算上是十分困难的,不过最近神经网络被扩展到了图数据,这被称为图神经网络,又由于其优越的性能,图神经网络已经有了许多的应用程序,如医疗保健系统、推荐系统等等。同时,随着图的规模越来越大,人们总会发现它们的子图被存储在多个本地系统中。为了训练出更加贴切真实分布的图神经网络模型,那么就需要用到多方的数据,但是由于数据具有非常大的价值,实现数据共享是不切实际的,在此背景下诸多企业、实验室等利用联邦学习来解决数据共享问题,因为联邦学习作为一种分布式学习范式,使得本地系统可以充分利用来自其他系统的数据,并且得到集中式模型。因此,近年来子图联邦学习模型发展十分迅速。随着神经网络的进一步发展,人们发现神经网络在训练模型时,往往会记住训练数据的有关信息,这是人们不愿看到的,因为图数据,如化学网络和社交网络等,都被视为是机密的,数据所有者经常花费大量的资源收集数据,或数据本身包含了敏感性息,如社会关系等。那么如果联邦子系统在参与子图联邦学习后,还是导致了数据的隐私泄露,在数据信息时代的今天其带来的危害不言而喻。
2、现有的针对训练成员的隐私泄露侦测技术大多是在联邦学习的非图数据下进行的或者是中心化的图数据下进行。例如,现有研究一分析了中心化下的图神经网络的私泄露情况,发现其与数据集本身的属性,例如节点数边数等,还与模型过拟合以及图神经网络种类有关,较好地评估了中心化下图神经网络的隐私泄露程度。又如,现有研究二分析了联邦学习下对非图数据的隐私泄露情况,发现其与恶意客户端的数量和特定节点有关。以上两种技术方案,都在其应用背景下,取得了良好的实验结果。
3、然而,以上两种技术在考虑隐私泄露情况时,一者忽略了图数据的情况,在应对现实情况时存在诸多的局限,因为真实世界中的关系往往是图数据才能够表示,并且进一步的损失值和梯度信息并没有考虑在内。另一者没有考虑图数据规模较大,需要利用联邦学习方法来充分利用各个局部系统数据的特点,仅评估中心化下的隐私泄露情况并不能够应用到评估联邦学习过程中的隐私泄露情况。所以现有技术都不能很好的切合实际情况对子图联邦学习下的训练成员的隐私泄露情况进行评估。
技术实现思路
1、为了解决现有技术中存在的上述问题,本发明提供了一种联邦图神经网络的隐私泄露侦测方法。本发明要解决的技术问题通过以下技术方案实现:
2、本发明实施例提供了一种联邦图神经网络的隐私泄露侦测方法,包括步骤:
3、获取每个子系统的训练集成员和非训练集成员经过子图联邦模型时的目标信息;
4、根据所述目标信息获取特征向量;
5、将所述特征向量中的测试数据输入训练好的编码器中,得到测试精度,其中,所述训练好的编码器为采用所述特征向量中的训练数据对编码器训练得到,所述训练数据中所述训练集成员和所述非训练集成员的比例相同;
6、根据所述测试精度判断所述训练集成员的隐私泄露程度。
7、在本发明的一个实施例中,所述目标信息包括损失值、后验概率、梯度中的一种或多种。
8、在本发明的一个实施例中,当所述目标信息包括损失值、后验概率和梯度时,根据所述目标信息获取特征向量,包括:
9、对所述梯度进行降维,得到降维后的梯度信息;
10、将所述降维后的梯度信息与所述损失值、所述后验概率进行拼接,构成所述特征向量。
11、在本发明的一个实施例中,对所述梯度进行降维,得到降维后的梯度信息,包括:
12、将所述梯度输入全连接神经网络中进行降维,得到所述降维后的梯度信息。
13、在本发明的一个实施例中,所述全连接神经网络的层数为2-3层,输出维度为1×32或者1×64。
14、在本发明的一个实施例中,所述特征向量中50%数据作为所述测试数据,所述特征向量中的50%数据作为所述训练数据。
15、在本发明的一个实施例中,所述编码器包括二分类的全连接神经网络。
16、在本发明的一个实施例中,所述二分类的全连接神经网络的层数为2-3层。
17、在本发明的一个实施例中,所述测试精度范围为0.5-1。
18、在本发明的一个实施例中,根据测试精度判断所述训练集成员的隐私泄露程度,包括:
19、所述隐私泄露程度随着所述测试精度的增大而增加。
20、与现有技术相比,本发明的有益效果:
21、本发明的隐私泄露侦测方法通过获取子系统的训练集成员和非训练集成员经过子图联邦模型时的目标信息以获取特征向量,并对编码器进行训练,之后利用训练好的编码器对测试数据进行测试得到测试精度以进行隐私泄露程度判断,能够对子图联邦模型本身的隐私泄露情况进行评估与分析,并且对子图联邦模型的深度神经网络不同参数泄露的隐私情况进行对比分析,从而协助模型拥有者去优化模型,进而减少训练成员的隐私泄露,填补了子图联邦学习模型下隐私泄露侦测技术的空白。
1.一种联邦图神经网络的隐私泄露侦测方法,其特征在于,包括步骤:
2.根据权利要求1所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,所述目标信息包括损失值、后验概率、梯度中的一种或多种。
3.根据权利要求2所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,当所述目标信息包括损失值、后验概率和梯度时,根据所述目标信息获取特征向量,包括:
4.根据权利要求3所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,对所述梯度进行降维,得到降维后的梯度信息,包括:
5.根据权利要求4所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,所述全连接神经网络的层数为2-3层,输出维度为1×32或者1×64。
6.根据权利要求1所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,所述特征向量中50%数据作为所述测试数据,所述特征向量中的50%数据作为所述训练数据。
7.根据权利要求1所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,所述编码器包括二分类的全连接神经网络。
8.根据权利要求7所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,所述二分类的全连接神经网络的层数为2-3层。
9.根据权利要求1所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,所述测试精度范围为0.5-1。
10.根据权利要求1所述的联邦图神经网络的隐私泄露侦测方法,其特征在于,根据测试精度判断所述训练集成员的隐私泄露程度,包括: