一种基于图压缩的深度图分类模型防御方法

文档序号:26349936发布日期:2021-08-20 20:22阅读:100来源:国知局
一种基于图压缩的深度图分类模型防御方法

本发明涉及图科学技术领域,具体涉及一种基于图压缩的深度图分类模型防御方法。



背景技术:

在过去的几十年中,由于大量结构化数据的收集,对于图结构数据的研究越来越受到重视。在对图的研究中,已经提出了围绕节点和连边的一系列结构属性,包括节点中心性,聚类系数,协同性,成对节点之间的相似性等,这些属性是许多基于图的模型的基础。此外,它们捕获系统的某些本地拓扑信息,因此可用于设计网络算法。

通常,节点中心性始终用于衡量系统中的个体重要性,liben-nowell和kleinberg在社交网络中采用了许多节点的相似性度量来预测它们之间在未来是否会存在新交互(参照文献1:davidliben-nowell,kleinbergj.thelink-predictionproblemforsocialnetworks[j].journaloftheamericansocietyforinformationscienceandtechnology,2007.;即社交网络中的链路预测问题)。他们发现有关未来交互的信息确实可以从网络拓扑中提取出来。同样地,连边的重要性可以通过其相连的两个节点的个体重要性来表示,例如salton系数、jaccard系等都是基于其两个节点的共同邻居,只是采用了不同的规范化方法。

深度图神经网络(gnn)相比一般算法,具有更强大的特征学习能力和特征表达能力,它依靠图中节点之间的信息传递来捕捉图中的依赖关系,进而得到每个节点的特征。深度图分类模型是深度图神经网络在图分类任务中的应用,常规的做法是将节点特征聚合为整体的图特征(参考文献2:j.gilmer,s.s.schoenholz,p.f.riley,o.vinyals,andg.e.dahl,“neuralmessagepassingforquantumchemistry,”arxivpreprintarxiv:1704.01212,2017.)。

随着深度图分类模型的进一步研究与应用,其安全性也逐渐得到研究人员的重视。许多研究人员已经注意到,用于图分类的模型很容易被攻击。甚至对图的轻微、故意的扰动(也称为对抗性扰动),例如针对图中较少连边进行修改、添加虚假网络节点等,都可能导致错误的预测。

tang等人(参考文献3:h.tang,g.ma,y.chen,l.guo,w.wang,b.zeng,andl.zhan,“adversarialattackonhierarchicalgraphpoolingneuralnetworks,”arxivpreprintarxiv:2005.11560,2020.)针对深度图分类模型提出了对抗性训练防御手段,这种防御方法在对抗性样本未知的前提下难以进行,且需要重新训练模型,对计算资源要求较高。因此如何仅在已知初始干净样本的情况下,更简便高效地提高深度图分类模型的鲁棒性有着重要的实践意义。



技术实现要素:

本发明目的是设计一种基于图压缩的深度图分类模型防御方法及装置,该防御方法通过比较干净/对抗样本基于梯度的连边重要性与传统连边重要性指标的相似度差异,选择差异变化最大的传统连边重要性指标进行图压缩,在保留对抗样本中原始的关键连边的同时滤除扰动连边,提高深度图分类模型对于对抗性攻击的防御能力。

为实现上述目的,本发明采用的技术方案是:

一种基于图压缩的深度图分类模型防御方法,包括以下步骤:

(1)设计端到端的深度图分类模型,根据分类准确率损失函数分别对干净样本与对抗样本的连边进行求梯度,得到所有连边权重系数;

(2)分别计算干净样本与对抗样本基于梯度的连边重要性与多种传统连边重要性指标的相关性,得到干净/对抗样本的梯度-传统连边重要性相似度;

(3)选择传统连边重要性指标与对抗样本中的连边进行排序,并与基于梯度的连边重要性排序结果进行重合率比较,提取对抗样本中的关键连边;

(4)根据提取到的关键连边进行图压缩,删除其余连边和孤立的节点,得到压缩后的图样本,并将压缩后的图样本重新输入深度图分类模型,输出压缩后的图分类准确率,实现深度图分类模型的防御过程。

本发明的防御方法通过对输入图进行图压缩,实现在保留输入样本中原始的关键连边的同时滤除扰动连边,从而在保证深度图分类模型性能下降不大的前提下减弱图中添加的恶意绕藕丁对图分类结果的影响,提高深度图分类模型对于对抗性攻击的防御能力。

步骤(1)中,设计端到端的深度图分类模型可以是任意的目标图分类模型,优选地,以图卷积网络(gcn)作为图分类模型,包括图卷积、池化与全连接三个模块;其构建过程包括:

s1:利用图卷积模块得到节点特征:使用两层gcn网络对含有n个节点的真实网络gclean(v,e)的n×n的邻接矩阵a∈rn×n和节点特征x∈rn×k进行预训练,得到d维的节点特征z∈rn×d

其中,是添加自连接的无向网络g的邻接矩阵,in是网络g的自连边矩阵;的度值矩阵对角线上的值,i与j分别表示的第i行与第j列;分别为输入到隐藏,隐藏到输出的权重矩阵,h1为人为设定的隐藏层维度,本发明设置为64,|f|为图的类别数目;f和σ是softmax函数和relu函数;

s2:利用池化模块对节点特征加权求和转化为图的特征,通过全连接输出图的预测类标置信度o∈r|f|×1

o=f(σ(wpz)wl)(2)

其中,wp∈r1×n是池化模块中的权重矩阵,它将整个图嵌入映射到一个1×d的潜在空间;wl∈rd×|f|是全连接模块中将嵌入映射到输出的权重矩阵;

s3:以公式(3)作为优化目标,对基于gcn的图分类模型进行迭代优化至收敛,提取收敛时对应的网络参数作为图分类器;

其中,ll为图分类模型的优化损失函数;f=[τ1,…,τ|f|]表示图类标集合,k表示第k类图,l表示第l个图,若图gl属于类τk,则ylk=1,否则ylk=0,olk(xl,al)是由公式(2)计算出的图分类置信度输出o的第l行中的第k列的值。

步骤(1)中,连边权重系数的计算过程包括:

基于端到端的深度图分类模型,计算分类损失函数ll/l′l对第l个个干净/对抗样本gl/g′l的邻接矩阵al/a′l的偏导数,并进一步获得梯度矩阵gl/g′l:

其中,梯度矩阵gl/g′l中的每一个元素gl,ij/g′l,ij分别对应于邻接矩阵al/a′l中的第i行与第j列;gl,ij/g′l,ij的值反映了其对图分类模型的重要性;考虑到无向图的邻接矩阵是对称的,通过公式(5)将gl/g′l调整为对称梯度矩阵

其中,若节点vi与节点vj相连,则al,ij/a′l,ij=1,否则al,ij/a′l,ij=0。

步骤(2)中,传统连边重要性指标的计算过程包括:

将原始图g=(v,e)转化为连边图l(g)=(e,d),原始图中的连边e作为连边图的节点,原始图中的两条连边若存在公共节点,则连边图中的相应节点存在连边d,再在连边图中利用节点的中心性来定义原始图中传统的连边重要性指标;

利用连边图中的节点中心性指标定义原始图中的连边重要性,分别计算干净/对抗样本的连边重要性指标,包括度中心性(degreecentrality,dc),紧密中心性(closenesscentrality,cc),中介中心性(betweennesscentrality,bc)与聚类系数(clusteringcoefficient,c)等,其计算公式为:

其中,dci,cci,bci,ci分别表示节点vi的连边重要性指标值;ki表示图中节点vi的度值,n表示图中节点的个数,dij表示节点vi到节点vj的最短路径长度,gst表示节点vs到节点vt的最短路径数量,表示节点vs到节点vt的最短路径中经过节点vi的数量,nli表示节点vi一阶邻居节点集合之间存在的连边数量。

上述连边图l(g)=(e,d)中的每一个节点v∈e对应原始图g=(v,e)中的连边e∈e。为每条连边eij∈e计算其连边重要性指标值,得到最终的传统连边重要性指标矩阵i∈rn×n,其中i的第i行与第j列iij为连边eij的连边重要性指标值,可以由公式(6)~公式(9)中的任意一种计算得到。

步骤(2)中,干净/对抗样本的梯度-传统连边重要性相似度的计算过程包括:将连边权重系数的计算过程得到的第l个图的对称梯度矩阵与多种传统的连边重要性指标矩阵il分别展开成一维向量利用余弦距离来计算干净/对抗样本的梯度-传统连边重要性相似性si/s′i:

对于每个干净/对抗样本,需要分别计算四种连边重要性指标与基于梯度的连边重要性的相似性;si或s′i∈[-1,1],其值越大,表示模型关注的局部特征具有相应的物理意义。

由于si与s′i差异的意义在于,对抗样本中加入的对抗扰动连边虽然能引起损失函数较大的变化,即其往往具有较大的梯度值,而在步骤(2)中的连边重要性指标中,对抗扰动连边可能并不符合干净样本中连边的梯度与连边重要性的高度相关,从而导致s′i相比于si的下降。

因此步骤(3)中,选择传统连边重要性指标的过程包括:比较两类样本的梯度-传统连边重要性相似度差异,选择对抗样本下使相似度差异下降最大的传统连边重要性指标作为图压缩的依据指标。

步骤(3)中,提取对抗样本中的关键连边过程包括:依据已选择的连边重要性指标对对抗样本中的连边进行排序,并与梯度所求的连边重要性排序进行重合率对比;选择两种排序下,前α%条连边中共同存在的连边作为关键连边。

优选地,设置α=50。在该值下,连边的重合率较高,可以有效提取干净样本中原有的关键连边,而在对抗样本中,对抗扰动连边的重合率较低,可以有效滤除。

步骤(4)中实现深度图分类模型的防御过程具体包括:所述关键连边压缩后,将压缩前/后的对抗样本的邻接矩阵和节点属性特征x′重新输入深度图分类模型,比较两种情况下的图分类准确率,实现深度图分类模型的防御过程。

采用上述深度图分类模型防御方法中步骤(1)~(4)中的图压缩方法对输入图样本进行图压缩,提高深度图分类模型的防御能力。

与现有技术相比,本发明具有以下有益效果:

本发明通过将深度图分类模型实现对图的分类,利用图压缩方法保留图原始关键连边并滤除对抗扰动连边与非关键连边,实现对图分类的防御;图压缩防御方法无需拥有大量的对抗样本对模型进行重训练,防御成本更低;图压缩方法可以应用在任意深度图分类模型中,利用不同模型提取的梯度信息实现图压缩,具有广泛的适用性。

附图说明

图1为本发明基于图压缩的深度图分类模型防御方法的流程示意图。

图2为实施例中原始图转换为连边图方法示意图。

图3为实施例中根据排序重合率进行图压缩方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本领域技术人员在理解本发明的技术方案基础上进行修改或等同替换,而未脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围内。

如图1~图3所示,一种基于图压缩的深度图分类模型防御方法,包括如下步骤:

(1)设计端到端的深度图分类模型,根据分类准确率损失函数分别对干净样本与对抗样本的连边进行求梯度,得到所有连边权重系数;

(1-1)设计端到端的深度图分类模型的构建:以gcn作为图分类模型,包括图卷积、池化与全连接三个模块;

s1:利用图卷积模块得到节点特征:使用两层gcn网络对含有n个节点的真实网络gclean(v,e)的n×n的邻接矩阵a∈rn×n和节点特征x∈rn×k进行预训练,得到d维的节点特征z∈rn×d

其中,是添加自连接的无向网络g的邻接矩阵,in是网络g的自连边矩阵;的度值矩阵对角线上的值,i与j分别表示的第i行与第j列;分别为输入到隐藏,隐藏到输出的权重矩阵,h1为人为设定的隐藏层维度,本发明设置为64,|f|为图的类别数目;f和σ是softmax函数和relu函数;

s2:通过图卷积模块得到节点特征后,利用池化模块对节点特征加权求和转化为图的特征,通过全连接输出图的预测类标置信度o∈r|f|×1

o=f(σ(wpz)wl)(2)

其中,wp∈r1×n是池化模块中的权重矩阵,它将整个图嵌入映射到一个1×d的潜在空间;wl∈rd×|f|是全连接模块中将嵌入映射到输出的权重矩阵;

s3:如图1所示,在目标深度图分类模型的训练过程中,将原始的干净样本集合作为训练样本输入模型,以公式(3)作为优化目标,对基于gcn的图分类模型进行迭代优化至收敛,提取收敛时对应的网络参数作为图分类器;

(1-2)连边权重系数的计算:如图1所示,目标深度图分类模型训练结束后,基于端到端的深度图分类模型,计算分类损失函数ll/l′l对第l个个干净/对抗样本gl/g′l的邻接矩阵al/a′l的偏导数,并进一步获得梯度矩阵gl/g′l:

其中,ll为图分类模型的优化损失函数;f=[τ1,…,τ|f|]表示图类标集合,k表示第k类图,l表示第l个图,若图gl属于类τk,则ylk=1,否则ylk=0,olk(xl,al)是由公式(2)计算出的图分类置信度输出o的第l行中的第k列的值。

其中,梯度矩阵gl/g′l中的每一个元素gl,ij/g′l,ij分别对应于邻接矩阵al/a′l中的第i行与第j列;gl,ij/g′l,ij的值反映了其对图分类模型的重要性;考虑到无向图的邻接矩阵是对称的,通过公式(5)将gl/g′l调整为对称梯度矩阵

其中,若节点vi与节点vj相连,则al,ij/a′l,ij=1,否则al,ij/a′l,ij=0。

(2)分别计算干净样本与对抗样本基于梯度的连边重要性与多种传统连边重要性指标的相关性,得到干净/对抗样本的梯度-传统连边重要性相似度;

(2-1)传统连边重要性指标的计算:如图2所示,将原始图g=(v,e)转化为连边图l(g)=(e,d),原始图中的连边e={e1,e2,…,en}作为连边图的节点,原始图中的两条连边若存在公共节点,则连边图中的相应节点存在连边d={d1,d2,…,dn},再在连边图中利用节点的中心性来定义原始图中连边的重要性;

利用连边图中的节点中心性指标定义原始图中的连边重要性,分别计算干净/对抗样本的连边重要性指标,包括度中心性(degreecentrality,dc),紧密中心性(closenesscentrality,cc),中介中心性(betweennesscentrality,bc)与聚类系数(clusteringcoefficient,c)等,其计算公式为:

其中,dci,cci,bci,ci分别表示节点vi的连边重要性指标值;ki表示图中节点vi的度值,n表示图中节点的个数,dij表示节点vi到节点vj的最短路径长度,gst表示节点vs到节点vt的最短路径数量,表示节点vs到节点vt的最短路径中经过节点vi的数量,li表示节点vi一阶邻居节点集合之间存在的连边数量。

上述连边图l(g)=(e,d)中的每一个节点v∈e对应原始图g=(v,e)中的连边e∈e。为每条连边eij∈e计算其连边重要性指标值,得到最终的传统连边重要性指标矩阵i∈rn×n,其中i的第i行与第j列iij为连边eij的连边重要性指标值,可以由公式(6-9)中的任意一种计算得到。

(2-2)干净/对抗样本的梯度-传统连边重要性相似度的计算:

将连边权重系数的计算过程得到的第l个图的对称梯度矩阵与多种传统的连边重要性指标矩阵il分别展开成一维向量利用余弦距离来计算干净/对抗样本的梯度-传统连边重要性相似性si/s′i:

对于每个干净/对抗样本,需要分别计算四种连边重要性指标与基于梯度的连边重要性的相似性;si或s′i∈[-1,1],其值越大,表示模型关注的局部特征具有相应的物理意义。

(3)选择传统连边重要性指标与对抗样本中的连边进行排序,并与基于梯度的连边重要性排序结果进行重合率比较,提取对抗样本中的关键连边;

(3-1)选择传统连边重要性指标:由于si与s′i差异的意义在于,对抗样本中加入的对抗扰动连边虽然能引起损失函数较大的变化,即其往往具有较大的梯度值,而在步骤(2)中的连边重要性指标中,对抗扰动连边可能并不符合干净样本中连边的梯度与连边重要性的高度相关,从而导致s′i相比于si的下降。比较两类样本的梯度-传统连边重要性相似度差异,选择对抗样本下使相似度差异下降最大的传统连边重要性指标作为图压缩的依据指标。

(3-2)如图3所示,提取对抗样本中的关键连边:输入对抗样本,其中虚线表示该图中的对抗扰动连边,已从上述步骤获取到对抗样本的基于梯度的连边重要性指标,以及由选定的中心性指标计算得到的传统连边重要性指标。根据两种指标对对抗样本中的连边进行排序,在两种排序下进行重合率对比,选择前α%条连边中共同存在的连边作为关键连边。在图3中,基于梯度的连边排序的前50%条连边为:{e4,e3,e8,e2},而基于传统重要性的连边排序前条连边为:{e4,e2,e3,e7},选择两者重合的连边作为关键连边。本发明在测试时,设置α=50,在该值下,连边的重合率较高,可以有效提取干净样本中原有的关键连边,而在对抗样本中,对抗扰动连边的重合率较低,可以有效滤除。

(4)如图3所示,根据提取到的关键连边进行图压缩,即保留{e4,e3,e8,e2},删除其余连边和孤立的节点,此时对抗扰动连边与非关键连边或没有连边相连的孤立节点被有效滤除,得到压缩后的图样本,将压缩前/后的对抗样本的邻接矩阵和节点属性特征x′重新输入深度图分类模型,比较两种情况下的图分类准确率,实现深度图分类模型的防御过程。

本发明在测试时,经过图压缩的对抗样本经过目标深度图分类模型的分类准确率相较于图压缩前上升了20~40%。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1