一种保护多方数据隐私的联邦异常检测方法

文档序号:32403830发布日期:2022-12-02 19:55阅读:64来源:国知局
一种保护多方数据隐私的联邦异常检测方法

1.本发明涉及数据安全和隐私计算技术领域,具体是一种保护多方数据隐私的联邦异常检测方法。


背景技术:

2.多视图数据异常检测是从多视图数据中识别异常样本的一项重要技术,被应用在许多不同领域,例如网络入侵检测、视频监控、垃圾邮件检测、金融账户欺诈分析、电力大数据分析等等。多视图数据一般由多个机构采集,每个机构拥有数据的一个视图,传统的多视图数据检测方法主要采用集中式的多视图数据异常值检测方法。
3.然而这种方法存在一个主要问题:需要收集所有来自各数据拥有方的数据,并只能在单个服务器上以集中的方式进行检测,集中式方法没有考虑各方拥有的敏感数据存在泄露私人信息的风险,容易引发严重的隐私问题。
4.因此,针对多方数据拥有者的场景,如何在不直接共享数据的基础上,设计一种保护数据隐私信息的多方多视图数据异常检测方法,已成为当下亟待解决的问题。


技术实现要素:

5.本发明的目的在于提供一种保护多方数据隐私的联邦异常检测方法,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种保护多方数据隐私的联邦异常检测方法,包括如下步骤:
7.步骤1、将m个数据拥有者do连接在相互通信的安全通道上,每个do通过该通道广播信息,或从其他do接收信息;
8.步骤2:对于其中一个do,联邦谱聚类模块通过通道与其他do交换信息,并将u
*
和gi提供给多视图联邦异常评估模块;
9.步骤3:多视图联邦异常评估模块广播gi并接收来自其他do的所有簇分配矩阵,以识别两种类型的多视图异常。
10.作为本发明更进一步的方案:步骤2中联邦谱聚类模块的具体工作流程如下:
11.s1、初始化:利用可信中心机构(ta)来为每个数据拥有者(do)生成密钥,并假设密钥以一种安全的方式分配给所有的do,生成秘钥的公式为:
12.keygen(κ)

(pa,sk
′i,sk),i=1,...,m
13.s2、视觉特征的特征向量矩阵优化:对每个do进行求解,得到视图特征向量矩阵(vem)ui的最佳值,求解公式为:
[0014][0015][0016]
s3、加密:每个do通过初始化的密钥为自己拥有的参数进行加密,并发送给其他
do,加密算法采用paillier同态加密算法下的安全联邦多视图谱聚类算法,其定义:
[0017][0018]
每个人都需要安全地与其他do共享自己的因此,每个do通过修改的paillier系统的密钥sk
′i对si进行加密:
[0019]
encrypt(si,sk
′i)

[[si]]
[0020]
对于si中的每个元素si,都可以通过下式计算来实现:
[0021][0022]
s4、聚合:每个do将自己的参数和接收到的其余do的参数合并在一起,在发送si后,每个do还接收了其他do的m个密文,为了得到si的和,do需要执行聚合操作:aggregate([[s1]],

,[[sm]])

[[s]],具体计算方式:
[0023][0024]
s5、解密:对聚合后的参数解密,do通过密钥sk解密密文[[s]]:decrypt([[s]],sk)

s,具体计算方式:
[0025][0026]
s6、公共特征向量矩阵优化(cem优化):当得到s的值时,即do用下述公式求得公共特征向量矩阵u
*

[0027][0028]
s.t.u
*tu*
=i
[0029]
s1-s6迭代执行,直到特征向量矩阵u
*
满足预定义的收敛标准;
[0030]
s7、聚类:通过u
*
采用传统的聚类算法导出全局聚类分配矩阵gi。
[0031]
作为本发明更进一步的方案:s1式中:κ是一个给定的安全系数,pa表示公共参数,sk
′i是do加密的密钥,sk是do解密的密钥。
[0032]
作为本发明更进一步的方案:s2式中:l=d-1/2
wd-1/2
为归一化的拉普拉斯矩阵,d为度矩阵,w为相似度矩阵;λ=lcm(p-1,q-1),其中lcm(,)表示取最小公倍数操作,p和q是满足|p|=|q|=κ的两个大数;tr(
·
)表示矩阵的迹。
[0033]
作为本发明更进一步的方案:s3式中ri是满足的随机数,n=p
·
q,do通过通道广播密文[[si]]。
[0034]
作为本发明更进一步的方案:s4式中:s,si分别是s,si的元素。
[0035]
作为本发明更进一步的方案:s5式中:[[s]]是[[s]]的一个元素,且μ=(l(g
λ
mod n2))-1
,其中g是一个随机整数,满足且gcd(l(g
λ
mod n2),n)=1,gcd(,)表
示最大公约数操作;γ是ta随机选择的一个随机数,满足且gcd(k,γ)=1,其中k是一个整数。
[0036]
作为本发明更进一步的方案:两种类型的多视图异常分别为属性异常和类别异常;
[0037]
对于属性异常,假设正常样本与相似样本接近,位于某个聚类中心周围,而异常样本远离其他样本和任何聚类中心,因此,对于多视图样本l,我们将异常评分ψ1(l)定义为l与其k近邻(knn)之间的平均距离,即:
[0038][0039]
其中:l
*
和是从公共特征向量矩阵u
*
中提取的相应的全局特征,distance(,)表示两个输入间的距离,knn(l)表示样本l的k个最近邻的集合;
[0040]
对于类别异常,假设异常样本和其他样本之间的聚类分配一致性明显高于正常样本,将gi转化为一个本地成员矩阵mi∈rn×n,满足
[0041][0042]
其中:c(
·
)表示样本的集群分配指示,为了在多个视图之间获得集群分配协议,每个do广播其本地成员矩阵mi,并接收其他do的成员矩阵,然后,定义异常评分ψ2(l)为聚类分配协议:
[0043][0044]
其中:i(
·
)是指示函数,如果为真则等1,否则为零;m(m>2)是视图或do的数量;
[0045]
给出了一个总异常评估分数函数ψ(l),对于每个多视图样本l:
[0046]
ψ(l)=ψ1(l)+ηψ2(l)
[0047]
其中:η是控制两类异常评分权重的参数,如果样本l的异常得分高于预先定义的阈值τ,则将其识别为多视图异常。
[0048]
与现有技术相比,本发明的有益效果是:本发明采用安全联邦多视图谱聚类算法,其中只有加密参数在各方之间共享,借助paillier同态加密机制,每一方只能解密来自各方的聚合参数,然后在每次迭代时计算其局部聚类结构,直到收敛。多视图联邦异常评估模块结合全局和局部聚类结果,定义一种多视图数据异常度量方法,识别不同类型的多视图异常数据,并且能够保证所有参与方都可以得出相同的检测结果。
附图说明
[0049]
图1为一种保护多方数据隐私的联邦异常检测方法的框架示意图;
[0050]
图2为一种保护多方数据隐私的联邦异常检测方法中联邦谱聚类模块的框架示意图。
具体实施方式
[0051]
请参阅图1~2,本发明实施例中,一种保护多方数据隐私的联邦异常检测方法,包括如下步骤:
[0052]
步骤1、将m个数据拥有者do连接在相互通信的安全通道上,每个do通过该通道广播信息,或从其他do接收信息;
[0053]
步骤2:对于其中一个do,联邦谱聚类模块通过通道与其他do交换信息,并将u
*
和gi提供给多视图联邦异常评估模块;
[0054]
步骤3:多视图联邦异常评估模块广播gi并接收来自其他do的所有簇分配矩阵,以识别两种类型的多视图异常。
[0055]
进一步的,步骤2中联邦谱聚类模块的具体工作流程如下:
[0056]
s1、初始化:利用可信中心机构(ta)来为每个数据拥有者(do)生成密钥,并假设密钥以一种安全的方式分配给所有的do,生成秘钥的公式为:
[0057]
keygen(κ)

(pa,sk
′i,sk),i=1,...,m
[0058]
s2、视觉特征的特征向量矩阵优化:对每个do进行求解,得到视图特征向量矩阵(vem)ui的最佳值,求解公式为:
[0059][0060][0061]
s3、加密:每个do通过初始化的密钥为自己拥有的参数进行加密,并发送给其他do,加密算法采用paillier同态加密算法下的安全联邦多视图谱聚类算法,其定义:
[0062][0063]
每个人都需要安全地与其他do共享自己的因此,每个do通过修改的paillier系统的密钥sk
′i对si进行加密:
[0064]
encrypt(si,sk
′i)

[[si]]
[0065]
对于si中的每个元素si,都可以通过下式计算来实现:
[0066][0067]
s4、聚合:每个do将自己的参数和接收到的其余do的参数合并在一起,在发送si后,每个do还接收了其他do的m个密文,为了得到si的和,do需要执行聚合操作:aggregate([[s1]],

,[[sm]])

[[s]],具体计算方式:
[0068][0069]
s5、解密:对聚合后的参数解密,do通过密钥sk解密密文[[s]]:decrypt([[s]],sk)

s,具体计算方式:
[0070]
[0071]
s6、公共特征向量矩阵优化(cem优化):当得到s的值时,即do用下述公式求得公共特征向量矩阵u
*

[0072][0073]
s.t.u
*tu*
=i
[0074]
s1-s6迭代执行,直到特征向量矩阵u
*
满足预定义的收敛标准;
[0075]
s7、聚类:通过u
*
采用传统的聚类算法导出全局聚类分配矩阵gi。
[0076]
进一步的,s1式中:κ是一个给定的安全系数,pa表示公共参数,sk
′i是do加密的密钥,sk是do解密的密钥。
[0077]
进一步的,s2式中:l=d-1/2
wd-1/2
为归一化的拉普拉斯矩阵,d为度矩阵,w为相似度矩阵;λ=lcm(p-1,q-1),其中lcm(,)表示取最小公倍数操作,p和q是满足|p|=|q|=κ的两个大数;tr(
·
)表示矩阵的迹。
[0078]
进一步的,s3式中ri是满足的随机数,n=p
·
q,do通过通道广播密文[[si]]。
[0079]
进一步的,s4式中:s,si分别是s,si的元素。
[0080]
进一步的,s5式中:[[s]]是[[s]]的一个元素,且μ=(l(g
λ
mod n2))-1
,其中g是一个随机整数,满足且gcd(l(g
λ
mod n2),n)=1,gcd(,)表示最大公约数操作;γ是ta随机选择的一个随机数,满足且gcd(k,γ)=1,其中k是一个整数。
[0081]
进一步的,两种类型的多视图异常分别为属性异常和类别异常;
[0082]
对于属性异常,假设正常样本与相似样本接近,位于某个聚类中心周围,而异常样本远离其他样本和任何聚类中心,因此,对于多视图样本l,我们将异常评分ψ1(l)定义为l与其k近邻(knn)之间的平均距离,即:
[0083][0084]
其中:l
*
和是从公共特征向量矩阵u
*
中提取的相应的全局特征,distance(,)表示两个输入间的距离,knn(l)表示样本l的k个最近邻的集合;
[0085]
对于类别异常,假设异常样本和其他样本之间的聚类分配一致性明显高于正常样本,将gi转化为一个本地成员矩阵mi∈rn×n,满足
[0086][0087]
其中:c(
·
)表示样本的集群分配指示,为了在多个视图之间获得集群分配协议,每个do广播其本地成员矩阵mi,并接收其他do的成员矩阵,然后,定义异常评分ψ2(l)为聚类分配协议:
[0088][0089]
其中:i(
·
)是指示函数,如果为真则等1,否则为零;m(m>2)是视图或do的数量;
[0090]
给出了一个总异常评估分数函数ψ(l),对于每个多视图样本l:
[0091]
ψ(l)=ψ1(l)+ηψ2(l)
[0092]
其中:η是控制两类异常评分权重的参数,如果样本l的异常得分高于预先定义的阈值τ,则将其识别为多视图异常。
[0093]
综上所述:本发明采用安全联邦多视图谱聚类算法,其中只有加密参数在各方之间共享,借助paillier同态加密机制,每一方只能解密来自各方的聚合参数,然后在每次迭代时计算其局部聚类结构,直到收敛。多视图联邦异常评估模块结合全局和局部聚类结果,定义一种多视图数据异常度量方法,识别不同类型的多视图异常数据,并且能够保证所有参与方都可以得出相同的检测结果;
[0094]
在几个现实世界数据集中进行了评估,与集中式方法相比,无论是聚类还是异常检测,实验结果都很乐观。
[0095]
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1