面向敏感数据隐私监管跨模态深度学习方法、系统及介质与流程

文档序号：37102552发布日期：2024-02-22 21:00阅读：11来源：国知局

本发明属于计算机科学中的机器学习、自然语言处理、隐私计算，尤其涉及一种面向敏感数据隐私监管跨模态深度学习方法、系统及介质。

背景技术：

1、目前，随着科学技术的迅速发展，各种类型的数据，如文本、图片、视频等数据通过多种方式从各种设备上产生，其中个人敏感数据也在互联网上不断复制、传播，数据在共享的同时，也带来了隐私泄露问题。近几年，随着网络的快速发展，人们对个人数据隐私问题的关注逐渐增强，企业收集、存储、使用个人数据的情况也屡见不鲜。越来越多的人希望敏感信息能够受到严格监管。《数据安全法》、《通用数据保护条例》、《个人信息保护法》等相关法律法规的出台，体现了国家对数据安全、隐私侵犯执法监管的高度重视程度，这也使得隐私监管成了当前要研究的一个重要课题。

2、当前对隐私检测与监管的相关问题研究，主要针对图片、文本、字节流以及视频等单一模态的数据进行模态内敏感信息的检测与发现技术，不同模态数据的数据结构、数据密度以及数据质量差异性大，共通性小，对单一种类数据设计的隐私检测方法很难扩展到不同种类的多方异构多模态数据处理中。另外，由于单模态数据涵盖的信息维度远小于不同模态组合后的信息维度，训练出的模型对隐私数据的识别能力以及鲁棒性较弱，很难满足互联网多种模态数据统计、综合隐私监管等要求。

3、通过上述分析，现有技术存在的问题及缺陷为：由于单模态数据涵盖的信息维度远小于不同模态组合后的信息维度，训练出的模型对隐私数据的识别能力以及鲁棒性较弱，很难满足互联网多种模态数据统计、综合隐私监管等要求。

技术实现思路

1、针对现有技术存在的问题，本发明提供了一种面向敏感数据隐私监管跨模态深度学习方法、系统及介质。

2、本发明是这样实现的，一种面向敏感数据隐私监管跨模态深度学习方法，所述面向敏感数据隐私监管跨模态深度学习方法，包括以下步骤：

3、第一步，对不同模态数据进行特征抽取并统一表示；

4、第二步，对统一表示的特征向量进行数据增强；

5、第三步，对统一表示的特征向量进行混合匹配处理，获得新的训练特征集；

6、第四步，将不同模态的新的训练特征集分别放入相同结构的特征同构分类模型进行模型训练与融合；

7、第五步，将测试集输入两种模态训练并融合好的模型，输出最终的预测结果，判断是否为隐私数据，若为隐私数据，则将标签定为1，否则为0。然后计算模型分类的准确率，从而判断模型训练的优劣程度。

8、进一步，所述第一步，包括：不同模态数据是指隐私监管场景下包含隐私数据的不同模态的数据集，对于图片数据，使用卷积网络提取特征，得到特征向量a＝(a1,a2,…,an)，对于文本数据，首先调用分词库对文本进行分词，然后去除数字、中英文符号及停用词等无用信息，然后根据文档中出现的词汇创建词汇表，最后根据词汇表将词汇变成特征向量集b＝(b1,b2,…,bn)，特征统一表示是指将不同模态数据抽取的特征向量保持在同一维度。

9、进一步，所述第二步，包括：

10、(a)先将需要进行扩增的特征向量组合成一个数据矩阵a∈rm×n，其中，m为样本数量，n为特征维度，然后对该矩阵进行奇异值分解得到a＝uσvt，其中，u∈rm×m为左奇异矩阵，v∈rn×n为右奇异矩阵，σ∈rm×n为半正定对角矩阵，同时，utu＝i，vtv＝i，其中，u的列组成一套对数据a的正交基向量，这些＝＝向量是aat的特征向量，v的列组成一套对数据a的正交基向量，这些＝＝向量是ata的特征向量；

11、(b)接着对数据矩阵a进行张量分解，得到vat＝b，其中，a∈rm×n为数据矩阵，m为样本数量，n为特征维度，v的列组成一套对数据a的正交基向量，由这组基向量张成一个新的特征空间，b＝v2σtut为数据矩阵a在由v的列向量张成的新特征空间中的投影，即：

12、

13、(c)而满足的a'为a的数据增强矩阵，其与a的相似程度最高，经过多次向量投影可以得到多个结果，将其作为扩充的数据。

14、进一步，所述第三步，包括：混合匹配分为四个步骤：无标签数据增强、标签猜测、混合、损失项：

15、(a)数据增强：当标注数据稀缺时，通过对无标签数据分别向量投影生成两组不同的无标签数据进行数据增强；

16、(b)标签猜测：对于无标签数据中的每个未标记的数据，使用模型的预测为该数据的标签生成一个“猜测”，这种猜测后来被用于无监督损失项；分类器会对数据增强的无标签数据分类的结果进行平均，猜测“伪标签”，使得之前猜测的“伪标签”的熵更低，更加突出概率高的类别；

17、(c)混合：将有标签数据集和两类无标签数据和标签分别依次按列进行拼接，然后随机打乱输入数据的序列，然后通过给定权重将原始数据与打乱后的数据混合，然后将有标签数据和无标签数据混合在一起，输入模型进行训练；

18、(d)损失项：通过设立损失项来判断模型训练的程度，从而使得模型在未标记的数据上输出可靠的预测。

19、进一步，所述第四步，包括：将不同模态的新的训练特征集分别放入相同结构的特征同构分类模型进行模型训练与融合，使用了特征同构分类模型，该模型由dcca与分类模型组成；dcca同时学习两个模态的最大相关深度非线性映射，使学习出的描述尽可能相关；dcca方法的具体细节如下：模态mx和my分别对应一个深度网络，在模态mx的深度网络中，第k中间层有个单元，k＝1,2,…,tx，tx为模态mx的深度网络的层数，而输出层有ox个单元。设是模态mx的第i个实例；实例xi的第一层输出为其中为权重矩阵，为基向量，而是应用于逐个元素的非线性函数，s(x)＝g-1(x),g(x)＝x3/3+x；那么，对于一个tx层网络，输出h1用来计算下一层的输出直到最终的描述被计算出来，其中yi是模态my的第i个实例，采用同样的方式计算描述fy(yi)，但是使用不同的参数ty为模态my的深度网络的层数和不同的结构参数和ty。

20、进一步，设θx是模态mx对应的深度网络中的全部参数和构成的向量，θy也由相同的方式构成；dcca联合学习两个模态的参数θx和θy，使得corr(fx(xi；θx),fy(yi；θy))尽可能地大：

21、

22、为了求解出最优解在训练数据上估计相关目标函数的梯度，对于一个具有n个样本的数据集，矩阵的列向量是由两个模态的深度模型产生的顶层描述；设和是中心化的数据矩阵；定义和和的前k个元素的总相关值就是矩阵前k个奇异值的累加和；如果k＝o，那么矩阵p的迹范数表示如下：

23、

24、dcca通过使用基于梯度的优化方法最优化参数θx和θy；为了关于全部参数θx和θy计算的梯度，先计算关于和的梯度，然后使用反向回归，如果矩阵p的奇异值分解为p＝udvt，那么：

25、

26、其中，而有一个和上述公式对称的表述：

27、

28、

29、h1∈ro×m；

30、

31、本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述面向敏感数据隐私监管跨模态深度学习方法。

32、本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述面向敏感数据隐私监管跨模态深度学习方法。

33、本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述面向敏感数据隐私监管跨模态深度学习方法。

34、本发明的另一目的在于提供一种基于所述面向敏感数据隐私监管跨模态深度学习方法和面向敏感数据隐私监管跨模态深度学习系统，所述向敏感数据隐私监管跨模态深度学习系统包括：

35、特征抽取模块，用于对不同模态数据进行特征抽取并统一表示；

36、数据增强模块，用于对统一表示的特征向量进行数据增强；

37、混合匹配模块，用于对统一表示的特征向量进行混合匹配处理，获得新的训练特征集；

38、训练融合模块，用于将不同模态的新的训练特征集分别放入相同结构的特征同构分类模型进行模型训练与融合；

39、预测结果模块，用于将测试集输入两种模态训练并融合好的模型，输出最终的预测结果，判断是否为隐私数据，若为隐私数据，则将标签定为1，否则为0。然后计算模型分类的准确率，从而判断模型训练得优劣程度。

40、结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

41、第一、本发明面向隐私监管的深度学习技术和装置，能够实现对不同模态数据(图像、文本等)中涉及侵犯隐私的违规现象进行识别与分类。本发明涉及计算机科学中的机器学习、自然语言处理、隐私计算等领域，特别涉及一种对不同模态数据在特征向量级别进行互补式隐私侵犯识别与相关的跨模态深度学习技术。本发明针对隐私监管的需求，提出包括跨模态数据准备、特征增强、特征融合、以及跨模态深度学习实现隐私侵犯判定，以实现针对不同模态的复杂环境下的高鲁棒性隐私检测的设计目的。

42、本发明使用跨模态深度学习技术对数据进行隐私监管，判断数据集中是否存在涉及隐私的违规数据，并将其进行识别与分类，通过跨模态技术可有效利用不同模态数据之间的信息差异获得更完整的信息。从而有效提高对隐私数据识别与分类的准确度。主要工作如下：(a)对图片、文本数据分别进行特征统一表示；(b)对不同模态训练集数据抽取的特征向量进行特征增强，以提高训练样本量，特征增强使用向量投影的方法。(c)将增强好的不同模态的训练特征向量集分别进行混合匹配处理，将无标签数据与有标签数据混合起来，得到新的训练特征集。(d)将不同模态的新的训练特征集分别放入相同结构的特-征同构分类模型进行模型训练与融合。(e)最后将测试集输入到两种模态训练并融合好的模型，输出最终的预测结果，判断是否为隐私数据，若为隐私数据，则将标签定为1，否则为0。然后计算模型分类的准确率，从而判断模型训练的优劣程度。

43、第二，与现有技术相比，本发明的优势是本发明使用跨模态深度学习技术对数据进行隐私监管，判断数据集中是否存在涉及隐私的违规数据，并对其进行识别与分类。本发明通过对不同模态的数据进行特征抽取并统一表示，为后续计算不同模态数据的相关性打下基础；通过对特征进行特征扩增，并采用混合匹配的方法将扩增的特征与原始特征混合，弥补了不同模态数据量的不足；采用特征同构分类模型来判断数据是否涉及隐私，充分利用不同模态的信息，对隐私数据进行更加准确的识别。

44、第三，本发明的技术方案填补了国内外业内技术空白：本发明的技术方案使用跨模态深度学习技术对数据进行隐私监管，提供一种基于面向敏感数据隐私监管跨模态深度学习方法和面向敏感数据隐私监管跨模态深度学习系统，敏感数据隐私监管跨模态深度学习方面处于领先地位。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜伟,孟庆顺,姜婧怡,宋首友,赵高华,林浩,王普,田原
技术所有人：中国网络空间研究院
我是此专利的发明人

上一篇：一种磨尾板的制作方法
上一篇：一种带压堵漏安全阀及带压堵漏器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。