一种联邦过采样方法、装置、电子设备及存储介质与流程

文档序号:35024092发布日期:2023-08-04 21:54阅读:46来源:国知局
一种联邦过采样方法、装置、电子设备及存储介质与流程

本技术实施例涉及联邦过采样,尤其涉及一种联邦过采样方法、装置、电子设备及计算机可读存储介质。


背景技术:

1、随着人们隐私保护意识的不断提高,社会对数据在流通和使用过程中的安全性要求越来越严苛,纵向联邦学习作为一种新兴的隐私计算保护技术,能够在保护各参与方数据安全的前提下,实现对各参与方数据的协同处理,从而最大程度地释放数据的价值。

2、相关技术中,纵向联邦学习场景下的各个参与方拥有相同样本的不同样本特征,各个参与方将本地的样本特征转换为秘密形式,再通过秘密形式的样本特征对目标模型进行训练,从而在不暴露自身数据样本特征的情况下,完成对目标模型的训练。纵向联邦学习场景下,为了避免由于样本量不足和样本不均衡(例如整体样本中存在较多的正样本,但负样本数量较少)等问题导致的模型训练效果不佳,通常需要各方人工收集更多样本对模型进行训练。

3、但是,在多个参与方中通过人工收集的方式增加样本,成本较高难度大,且有时必须等待业务产生新的样本,无法及时收集到这些新增的样本,导致难以有效增加纵向联邦学习场景中的样本数量。


技术实现思路

1、本技术实施例提供一种联邦过采样方法、装置、电子设备及计算机可读存储介质,以解决相关技术中难以有效增加纵向联邦学习场景中的样本数量的问题。

2、第一方面,本技术实施例提供了一种联邦过采样方法,该方法包括:

3、基于秘密分享算法对第一参与方持有的目标样本的第一样本特征,以及第二参与方持有的所述目标样本的第二样本特征进行聚类,得到聚类集群;

4、所述第一参与方基于自身持有的标签信息从所述聚类集群中获取第一样本量的少数类样本的样本索引,和第二样本量的多数类样本的样本索引,得到待处理样本索引集;

5、基于秘密分享算法生成所述待处理样本索引集对应的最近邻矩阵;

6、所述第一参与方基于所述最近邻矩阵,从所述待处理样本索引集中确定待合成样本索引对;

7、各参与方基于自身持有的样本特征对所述待合成样本索引对指示的目标样本进行过采样处理,得到所述聚类集群对应的合成样本特征。

8、在一种可选实施方式中,所述基于秘密分享算法对第一参与方持有的目标样本的第一样本特征,以及第二参与方持有的所述目标样本的第二样本特征进行聚类,得到聚类集群,包括:

9、中间方随机生成初始聚类中心,基于所述初始聚类中心生成第一聚类中心特征和第二聚类中心特征;

10、所述第一参与方确定自身持有的各个第一样本特征与所述第一聚类中心特征之间的第一特征距离,得到由所述第一特征距离构成的第一距离矩阵;

11、所述第二参与方确定自身持有的各个第二样本特征与第二聚类中心特征之间的第二特征距离,得到由所述第二特征距离构成的第二距离矩阵;

12、基于所述第一距离矩阵和所述第二距离矩阵,调整所述第一聚类中心特征和所述第二聚类中心特征,分别得到目标第一聚类中心特征和目标第二聚类中心特征;

13、基于所述目标第一聚类中心特征和所述目标第二聚类中心特征对所述目标样本进行聚类,得到所述聚类集群。

14、在一种可选实施方式中,所述基于所述第一距离矩阵和所述第二距离矩阵,调整所述第一聚类中心特征和所述第二聚类中心特征,分别得到目标第一聚类中心特征和目标第二聚类中心特征,包括:

15、基于所述第一聚类中心特征和所述第二聚类中心特征,生成全局聚类中心秘密;

16、基于所述全局聚类中心秘密和所述第一距离矩阵的第一距离矩阵秘密,确定所述第一样本特征对应的最近邻全局聚类中心秘密,基于具有相同最近邻全局聚类中心秘密的第一样本特征对应的目标样本生成第一近邻样本集合;

17、基于所述全局聚类中心秘密和所述第二距离矩阵,确定所述第二样本特征对应的最近邻全局聚类中心秘密,基于具有相同最近邻全局聚类中心秘密的第二样本特征对应的目标样本生成第二近邻样本集合;

18、所述第一参与方基于所述第一近邻样本集合生成第一更新聚类中心特征;其中,所述第一更新聚类中心特征与所述第一近邻样本集合对应的所有第一样本特征之间的平均距离最小;

19、所述第二参与方基于所述第二近邻样本集合生成第二更新聚类中心特征;其中,所述第二更新聚类中心特征与所述第二近邻样本集合对应的所有第二样本特征之间的平均距离最小;

20、基于所述第一更新聚类中心特征和所述第二更新聚类中心特征,调整所述第一聚类中心特征和所述第二聚类中心特征,分别得到目标第一聚类中心特征和目标第二聚类中心特征。

21、在一种可选实施方式中,所述基于所述第一更新聚类中心特征和所述第二更新聚类中心特征,调整所述第一聚类中心特征和所述第二聚类中心特征,分别得到目标第一聚类中心特征和目标第二聚类中心特征,包括:

22、在所述第一更新聚类中心特征与所述第一聚类中心特征的特征距离小于或等于第一预设距离,且所述第二更新聚类中心特征与所述第二聚类中心特征的特征距离小于或等于第二预设距离的情况下,将所述第一聚类中心特征确定为所述目标第一聚类中心特征,将所述第二聚类中心特征确定为所述目标第二聚类中心特征;

23、在所述第一更新聚类中心特征与所述第一聚类中心特征的特征距离大于所述第一预设距离,和/或,所述第二更新聚类中心特征与所述第二聚类中心特征的特征距离大于所述第二预设距离的情况下,基于所述第一更新聚类中心特征更新所述第一聚类中心特征,并重新确定第一更新聚类中心特征,基于所述第二更新聚类中心特征更新所述第二聚类中心特征,并重新确定第二更新聚类中心特征;直至最新的第一更新聚类中心特征与最新的第一聚类中心特征的特征距离小于或等于所述第一预设距离。

24、在一种可选实施方式中,所述第一参与方基于自身持有的标签信息从所述聚类集群中获取第一样本量的少数类样本的样本索引,和第二样本量的多数类样本的样本索引,得到待处理样本索引集,包括:

25、所述第一参与方确定所述聚类集群对应的少数类样本量;

26、在所述少数类样本量符合第一预设条件的情况下,所述第一参与方基于自身持有的标签信息从所述聚类集群中获取第一样本量的少数类样本的样本索引,和第二样本量的多数类样本的样本索引,得到待处理样本索引集。

27、在一种可选实施方式中,所述第二样本量为预设比例的所述第一样本量。

28、在一种可选实施方式中,所述基于秘密分享算法生成所述待处理样本索引集对应的最近邻矩阵,包括:

29、所述第一参与方基于所述第一样本特征,确定所述待处理样本索引集中各个第一样本的最近邻样本距离,得到第一最近邻矩阵,并基于秘密分享算法对所述第一最近邻矩阵进行加密,得到所述第一最近邻矩阵的第一最近邻矩阵秘密;

30、所述第二参与方基于所述第二样本特征,确定所述待处理样本索引集中各个第二样本的最近邻样本距离,得到第二最近邻矩阵,并基于秘密分享协议对所述第二最近邻矩阵进行加密,得到所述第二最近邻矩阵的第二最近邻矩阵秘密;

31、中间方基于所述第一最近邻矩阵秘密和所述第二最近邻矩阵秘密,生成所述最近邻矩阵。

32、在一种可选实施方式中,所述第一参与方基于所述最近邻矩阵,从所述待处理样本索引集中确定待合成样本索引对,包括:

33、所述第一参与方基于所述最近邻矩阵,确定所述待处理样本集的少数类样本对应的两个目标最近邻少数类样本,将一个少数类样本对应的两个目标最近邻少数类样本的样本索引确定为一个待合成样本索引对。

34、在一种可选实施方式中,所述第一参与方基于所述最近邻矩阵,从所述待处理样本索引集中确定待合成样本索引对,包括:

35、所述第一参与方基于所述最近邻矩阵,确定所述待处理样本集的多数类样本对应的近邻多数类样本数量;

36、所述第一参与方从所述近邻多数类样本数量符合第二预设条件的目标多数类样本对应的近邻多数类样本中,随机选取一个目标近邻多数类样本,将所述目标多数类样本和所述目标近邻多数类样本的样本索引确定为一个待合成样本索引对。

37、在一种可选实施方式中,所述合成样本特征由第一参与方生成的第一合成样本特征和第二参与方生成的第二合成样本特征构成,所述各参与方基于自身持有的样本特征对所述待合成样本索引对指示的目标样本进行过采样处理,得到所述聚类集群对应的合成样本特征,包括:

38、所述第一参与方对所述待合成样本索引对指示的目标样本的第一样本特征进行特征合成,得到第一合成样本特征;

39、所述第二参与方对所述待合成样本索引对指示的目标样本的第二样本特征进行特征合成,得到第二合成样本特征。

40、在一种可选实施方式中,所述对所述待合成样本索引对指示的目标样本的第一样本特征进行特征合成,得到第一合成样本特征,包括:

41、获取所述待合成样本索引对指示的两个目标样本对应的两个第一样本特征;

42、确定所述两个第一样本特征之间的特征差值;

43、根据所述两个第一样本特征中的一个第一样本特征与所述特征差值确定所述第一合成样本特征。

44、第二方面,本技术实施例提供了一种联邦过采样装置,该装置包括:

45、聚类模块,用于基于秘密分享算法对第一参与方持有的目标样本的第一样本特征,以及第二参与方持有的所述目标样本的第二样本特征进行聚类,得到聚类集群;

46、索引集模块,用于通过所述第一参与方基于自身持有的标签信息从所述聚类集群中获取第一样本量的少数类样本的样本索引,和第二样本量的多数类样本的样本索引,得到待处理样本索引集;

47、最近邻矩阵模块,用于基于秘密分享算法生成所述待处理样本索引集对应的最近邻矩阵;

48、索引对模块,用于通过所述第一参与方基于所述最近邻矩阵,从所述待处理样本索引集中确定待合成样本索引对;

49、合成模块,用于通过各参与方基于自身持有的样本特征对所述待合成样本索引对指示的目标样本进行过采样处理,得到所述聚类集群对应的合成样本特征。

50、在一种可选实施方式中,所述聚类模块包括:

51、聚类中心特征子模块,用于通过中间方随机生成初始聚类中心,基于所述初始聚类中心生成第一聚类中心特征和第二聚类中心特征;

52、第一距离矩阵子模块,用于通过所述第一参与方确定自身持有的各个第一样本特征与所述第一聚类中心特征之间的第一特征距离,得到由所述第一特征距离构成的第一距离矩阵;

53、第二距离矩阵子模块,用于通过所述第二参与方确定自身持有的各个第二样本特征与第二聚类中心特征之间的第二特征距离,得到由所述第二特征距离构成的第二距离矩阵;

54、聚类中心特征子模块,用于基于所述第一距离矩阵和所述第二距离矩阵,调整所述第一聚类中心特征和所述第二聚类中心特征,分别得到目标第一聚类中心特征和目标第二聚类中心特征;

55、聚类集群子模块,用于基于所述目标第一聚类中心特征和所述目标第二聚类中心特征对所述目标样本进行聚类,得到所述聚类集群。

56、在一种可选实施方式中,所述聚类中心特征子模块包括:

57、全局聚类中心秘密子模块,用于基于所述第一聚类中心特征和所述第二聚类中心特征,生成全局聚类中心秘密;

58、第一近邻样本集合子模块,用于基于所述全局聚类中心秘密和所述第一距离矩阵的第一距离矩阵秘密,确定所述第一样本特征对应的最近邻全局聚类中心秘密,基于具有相同最近邻全局聚类中心秘密的第一样本特征对应的目标样本生成第一近邻样本集合;

59、第二近邻样本集合子模块,用于基于所述全局聚类中心秘密和所述第二距离矩阵,确定所述第二样本特征对应的最近邻全局聚类中心秘密,基于具有相同最近邻全局聚类中心秘密的第二样本特征对应的目标样本生成第二近邻样本集合;

60、第一更新聚类中心特征子模块,用于通过所述第一参与方基于所述第一近邻样本集合生成第一更新聚类中心特征;其中,所述第一更新聚类中心特征与所述第一近邻样本集合对应的所有第一样本特征之间的平均距离最小;

61、第二更新聚类中心特征子模块,用于通过所述第二参与方基于所述第二近邻样本集合生成第二更新聚类中心特征;其中,所述第二更新聚类中心特征与所述第二近邻样本集合对应的所有第二样本特征之间的平均距离最小;

62、聚类中心特征更新子模块,用于基于所述第一更新聚类中心特征和所述第二更新聚类中心特征,调整所述第一聚类中心特征和所述第二聚类中心特征,分别得到目标第一聚类中心特征和目标第二聚类中心特征。

63、在一种可选实施方式中,所述聚类中心特征更新子模块包括:

64、第一更新子模块,用于在所述第一更新聚类中心特征与所述第一聚类中心特征的特征距离小于或等于第一预设距离,且所述第二更新聚类中心特征与所述第二聚类中心特征的特征距离小于或等于第二预设距离的情况下,将所述第一聚类中心特征确定为所述目标第一聚类中心特征,将所述第二聚类中心特征确定为所述目标第二聚类中心特征;

65、第二更新子模块,用于在所述第一更新聚类中心特征与所述第一聚类中心特征的特征距离大于所述第一预设距离,和/或,所述第二更新聚类中心特征与所述第二聚类中心特征的特征距离大于所述第二预设距离的情况下,基于所述第一更新聚类中心特征更新所述第一聚类中心特征,并重新确定第一更新聚类中心特征,基于所述第二更新聚类中心特征更新所述第二聚类中心特征,并重新确定第二更新聚类中心特征;直至最新的第一更新聚类中心特征与最新的第一聚类中心特征的特征距离小于或等于所述第一预设距离。

66、在一种可选实施方式中,所述索引集模块包括:

67、第一样本量子模块,用于通过所述第一参与方确定所述聚类集群对应的少数类样本量;

68、索引集子模块,用于在所述少数类样本量符合第一预设条件的情况下,所述第一参与方基于自身持有的标签信息从所述聚类集群中获取第一样本量的少数类样本的样本索引,和第二样本量的多数类样本的样本索引,得到待处理样本索引集。

69、在一种可选实施方式中,所述第二样本量为预设比例的所述第一样本量。

70、在一种可选实施方式中,所述最近邻矩阵模块包括:

71、第一最近邻矩阵秘密子模块,用于通过所述第一参与方基于所述第一样本特征,确定所述待处理样本索引集中各个第一样本的最近邻样本距离,得到第一最近邻矩阵,并基于秘密分享算法对所述第一最近邻矩阵进行加密,得到所述第一最近邻矩阵的第一最近邻矩阵秘密;

72、第二最近邻矩阵秘密子模块,用于通过所述第二参与方基于所述第二样本特征,确定所述待处理样本索引集中各个第二样本的最近邻样本距离,得到第二最近邻矩阵,并基于秘密分享协议对所述第二最近邻矩阵进行加密,得到所述第二最近邻矩阵的第二最近邻矩阵秘密;

73、最近邻矩阵生成子模块,用于通过中间方基于所述第一最近邻矩阵秘密和所述第二最近邻矩阵秘密,生成所述最近邻矩阵。

74、在一种可选实施方式中,所述索引对模块包括:

75、第一待合成样本索引对子模块,用于通过所述第一参与方基于所述最近邻矩阵,确定所述待处理样本集的少数类样本对应的两个目标最近邻少数类样本,将一个少数类样本对应的两个目标最近邻少数类样本的样本索引确定为一个待合成样本索引对。

76、在一种可选实施方式中,所述第一参与方基于所述最近邻矩阵,从所述待处理样本索引集中确定待合成样本索引对,包括:

77、第二样本量子模块,用于通过所述第一参与方基于所述最近邻矩阵,确定所述待处理样本集的多数类样本对应的近邻多数类样本数量;

78、第二待合成样本索引对子模块,用于通过所述第一参与方从所述近邻多数类样本数量符合第二预设条件的目标多数类样本对应的近邻多数类样本中,随机选取一个目标近邻多数类样本,将所述目标多数类样本和所述目标近邻多数类样本的样本索引确定为一个待合成样本索引对。

79、在一种可选实施方式中,所述合成样本特征由第一参与方生成的第一合成样本特征和第二参与方生成的第二合成样本特征构成,所述合成模块包括:

80、第一合成样本特征子模块,用于通过所述第一参与方对所述待合成样本索引对指示的目标样本的第一样本特征进行特征合成,得到第一合成样本特征;

81、第二合成样本特征子模块,用于通过所述第二参与方对所述待合成样本索引对指示的目标样本的第二样本特征进行特征合成,得到第二合成样本特征。

82、在一种可选实施方式中,所述第一合成样本特征子模块包括:

83、样本特征获取子模块,用于获取所述待合成样本索引对指示的两个目标样本对应的两个第一样本特征;

84、特征差值子模块,用于确定所述两个第一样本特征之间的特征差值;

85、样本合成子模块,用于根据所述两个第一样本特征中的一个第一样本特征与所述特征差值确定所述第一合成样本特征。

86、第三方面,本技术实施例还提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现所述的联邦过采样方法。

87、第四方面,本技术实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行所述的联邦过采样方法。

88、在本技术实施例中,基于秘密分享算法对第一参与方持有的目标样本的第一样本特征,以及第二参与方持有的目标样本的第二样本特征进行聚类,得到聚类集群;第一参与方基于自身持有的标签信息从聚类集群中获取第一样本量的少数类样本的样本索引,和第二样本量的多数类样本的样本索引,得到待处理样本索引集;基于秘密分享算法生成待处理样本索引集对应的最近邻矩阵;第一参与方基于最近邻矩阵,从待处理样本索引集中确定待合成样本索引对;各参与方基于自身持有的样本特征对待合成样本索引对指示的目标样本进行过采样处理,得到聚类集群对应的合成样本特征。本技术可以基于各参与方的样本特征对目标样本进行聚类,从聚类得到的聚类集群中选取出待合成样本索引对,并根据待合成样本索引对指示的样本特征生成合成样本特征,从而提高扩展全局的样本数量的效率。

89、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1