本发明属于新一代信息,具体涉及一种基于生成式模型的行为数据集隐私保护方法。
背景技术:
1、在行为数据集的制作过程中,数据集中的人脸一般为真实的人脸,从而会产生不必要的信息泄露。在对数据集隐私保护的处理方法中,对人脸打马赛克是一种常用的方法,但无法证实其是否会对深度学习的结果产生影响。
2、现有技术中有专利号为cn202210435096.9,名称为《一种保护人脸图像隐私的方法及电子设备》的中国发明专利申请,其公开了本申请涉及图像隐私保护技术领域,提供一种保护人脸图像隐私的方法及电子设备,通过对原始人脸图像进行格式化表示,获得需要进行隐私处理的至少一个人脸部位的像素点的原始图像矩阵,利用已训练的人脸生成模型,并对原始图像矩阵添加差分噪声进行隐私扰动,获得视觉生成矩阵,由于差分噪声矩阵能够保持关键部位的视觉生成矩阵与原始图像矩阵的分布一致,这样,在利用关键部位的视觉生成矩阵生成的人脸局部图像替换原始人脸图像中相应的关键部位后,可以保证获得的目标人脸图像为正常的人脸图像,即保持视觉有好性。
3、上述专利应用于对原始图片的人物脸部信息的保护,并不能用于行为识别数据集的构建,虽然运用差分噪声矩阵处理后的图像具有视觉有好性,而这种方式对数据集的处理会导致缺乏多样性。
技术实现思路
1、针对现有技术存在的上述问题,本发明提出了一种基于生成式模型的行为数据集隐私保护方法。本方法在保证深度学习的效果的同时,对行为数据集中图片进行隐私保护处理。可在收集到的行为数据集的基础上,通过本发明对数据集进行隐私保护处理。
2、为实现上述效果,本发明采取的技术方案如下:
3、一种基于生成式模型的行为数据集隐私保护方法,包括如下步骤:
4、s1:采集行为数据集x0={x(1),x(2),...,x(m)}并遍历行为识别数据集中的图片;其中x0为数据集图片集合,x(m)为数据集中的某张图片,m为数据集中图片的个数;
5、s2:判断图片中的人脸是否能被识别,如果不能被识别跳转至s5,如果能被识别执行下一步骤;
6、s3:采用生成式模型生成人脸;
7、s4:采用生成式模型生成的人脸对图片中真实的人脸进行替换;
8、s5:判断数据集中的图片是否遍历完成,如果没有遍历完成跳转至步骤s1。
9、s6:最终得到隐私保护处理完成的行为数据集x0’={x(1)’,x(2)’,...,x(m)’},其中x0’为隐私保护处理完成的数据集图片集合,x(m)’为隐私保护处理完成后的数据集中的某张图片,m为数据集中图片的个数。
10、进一步地,s2包括以下步骤:
11、s21:采用行为识别数据集进行学习,将该数据集中“侧身拿东西”这一行为类型设置为人脸不能被识别,将该数据集中的其他行为类型设置为人脸能被识别,并将该数据集按照10:1划分测试集和验证集;
12、s22:采用图片识别网络对s21步骤中划分好的数据集进行学习,将输出层的神经元个数调整为1,激活函数采用sigmoid,损失函数调整为交叉熵损失函数,该神经网络通过训练,最终能判断行为数据集中人脸是否能被识别。
13、更进一步地,激活函数sigmoid的公式为:
14、
15、更进一步地,交叉熵损失函数l的公式为:
16、l=yi log(pi)+(1-yi)log(1-pi)
17、其中yi为布尔型变量,数据集中的人物面部能被识别为1否则为0;pi为有面部特征的概率,为神经网络输出层输出的结果;
18、s23:通过s22步骤中图片识别网络对需要处理的行为数据集进行判断。
19、进一步地,步骤s3中,采用公开数据集进行生成式模型训练,采用的生成式模型选择gan,将该数据集用于gan的生成式模型训练,直至gan生成式模型收敛,最后通过gan生成式模型输出生成的人脸。
20、更进一步地,步骤s3中,gan的收敛条件为:判别器d认为生成器g生成的图像和真实图像一致。
21、进一步地,步骤s4中,采用开源换脸技术simswap将步骤s3生成的人脸对行为数据集中的人脸进行替换,达到隐私保护处理的效果。
22、本发明的优点在于:
23、相比传统对行为数据集人脸打马赛克的方式,本发明通过用生成式模型生成的人脸替换行为数据集中真实的人脸,在起到对目标人物隐私保护的作用下,同时不会对神经网络的学习效果产生影响。
24、本申请可以采用这种方式进行数据集扩充,在隐私保护的同时增加数据集的多样性,根据选择的人脸数据集的不同,可以制作不同种类的行为数据集。
25、本申请经过生成式模型生成人脸进行人脸替换的方式不仅能做到对原始数据集所涉及人物的隐私保护,同时能扩展数据集的多样性,比如可以制作欧裔、亚裔、非裔等人种的数据集。
1.一种基于生成式模型的行为数据集隐私保护方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种基于生成式模型的行为数据集隐私保护方法,其特征在于:s2包括以下步骤:
3.根据权利要求2所述的一种基于生成式模型的行为数据集隐私保护方法,其特征在于:激活函数sigmoid的公式为:
4.根据权利要求2所述的一种基于生成式模型的行为数据集隐私保护方法,其特征在于:交叉熵损失函数l的公式为:
5.根据权利要求1所述的一种基于生成式模型的行为数据集隐私保护方法,其特征在于:步骤s3中,采用公开数据集进行生成式模型训练,采用的生成式模型选择gan,将该数据集用于gan的生成式模型训练,直至gan生成式模型收敛,最后通过gan生成式模型输出生成的人脸。
6.根据权利要求1所述的一种基于生成式模型的行为数据集隐私保护方法,其特征在于:步骤s3中,gan的收敛条件为:判别器d认为生成器g生成的图像和真实图像一致。
7.根据权利要求1所述的一种基于生成式模型的行为数据集隐私保护方法,其特征在于:步骤s4中,采用开源换脸技术simswap将步骤s3生成的人脸对行为数据集中的人脸进行替换,达到隐私保护处理的效果。