敏感数据的处理方法及装置、非易失性存储介质与流程

文档序号:36450150发布日期:2023-12-21 14:49阅读:27来源:国知局
敏感数据的处理方法及装置与流程

本申请涉及数据处理,具体而言,涉及一种敏感数据的处理方法及装置、非易失性存储介质。


背景技术:

1、在数据经济时代数据信息已经成为了企业重要资产,敏感数据识别是保护企业数据的核心,相关技术中,依靠人工识别敏感数据并对敏感数据达标的方法筛选敏感数据,并在每次对敏感数据进行脱敏处理时,重复配置脱敏规则;因此,相关技术无法应用在万亿字节(terabyte,tb)级数据量、千万亿字节(petabyte,pb)级数据量、以及亿万亿字节(exabyte,eb)级数据量的大数据量应用场景下,同时,也无法应用于动态场景和复杂数据。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种敏感数据的处理方法及装置、非易失性存储介质,以至少解决由于相关技术中通过人工识别敏感数据,无法分析数据的内在结构造成的无法识别出所有敏感数据且识别时间长的技术问题。

2、根据本申请实施例的一个方面,提供了一种敏感数据的处理方法,包括:接收查询请求,其中,查询请求用于请求查询敏感数据;响应于查询请求,从数据源获取数据集,并对数据集中的数据进行特征提取,得到多个第一特征向量;依据多个第一特征向量确定数据集中多个类型数据中每一类型数据的敏感数据;对敏感数据进行脱敏处理,得到脱敏后的敏感数据,并将脱敏后的敏感数据发送到客户端,其中,客户端为发送查询请求的客户端。

3、可选地,依据多个第一特征向量确定数据集中多个类型数据中每一类型数据的敏感数据,包括:基于多个第一特征向量生成向量集;在向量集中确定目标聚类中心,其中,目标聚类中心的数量与数据集中的数据种类数相同;确定多个数据组,其中,多个数据组中每个数据组包括:一个聚类中心和数据集中的多个数据,多个数据为敏感数据,敏感数据的类型与敏感数据所在数据组的聚类中心的类型相同;将每个目标聚类中心以及与每个目标聚类中心的距离小于预设距离阈值的数据确定为数据组,其中,数据组中的数据为敏感数据,敏感数据的类型与敏感数据所在数据组的聚类中心的类型相同。

4、可选地,基于多个第一特征向量生成向量集,包括:确定多个第一特征向量中任意两个第一特征向量的相似度;将相似度大于预设相似度阈值的第一特征向量融合为第二特征向量,得到多个第二特征向量,其中,第二特征向量的数量小于第一特征向量的数量;将多个第二特征向量封装为向量集。

5、可选地,在向量集中确定目标聚类中心,包括:对向量集执行第一循环流程,直到得到多个初始聚类中心,其中,初始聚类中心的数量与数据集中的数据种类数相同;对多个初始聚类中心和多个第三特征向量执行第二循环流程,直到当前时刻得到的多组数据中每组数据的平均值与当前时刻的上一时刻得到的多组数据中每组数据的平均值相同,其中,多个第三特征向量为不是初始聚类中心的第二特征向量,多个目标聚类中心为当前时刻得到的多组数据的多个平均值,多组数据通过第二循环流程得到;第二循环流程,包括:确定多个第三特征向量与多个初始聚类中心中每个初始聚类中心的第一距离,得到多个第一距离值;将目标距离值对应的初始聚类中心和第三特征向量分类为一组数据,得到多组数据,其中,目标距离值为大于预设距离阈值的第一距离值;将多个初始聚类中心更新为多组数据的多个平均值。

6、可选地,在向量集中确定目标聚类中心,还包括:对多个初始聚类中心和多个第三特征向量执行第二循环流程,直到更新初始聚类中心的次数为预设值,其中,多个目标聚类中心为最后一次更新时多组数据的多个平均值。

7、可选地,第一循环流程,包括:将向量集中的任意一个第二特征向量确定为第一个初始聚类中心;确定多个第四特征向量中每个第四特征向量与第一个初始聚类中心的距离,其中,多个第四特征向量为不是第一个初始聚类中心的第二特征向量;将与第一个初始聚类中心的距离最远的第四特征向量确定为第二个初始聚类中心。

8、可选地,对敏感数据进行脱敏处理,包括:获取映射表和敏感数据的数据特征,其中,映射表用于存储敏感数据的数据特征与敏感数据的脱敏文件的映射关系;根据敏感数据的数据特征在映射表中确定敏感数据的脱敏文件;根据敏感数据的脱敏文件生成脱敏工具,并利用脱敏工具对敏感数据进行脱敏处理。

9、根据本申请实施例的另一方面,还提供了一种敏感数据的处理装置,包括:接收模块,用于接收查询请求,其中,查询请求用于请求查询敏感数据;特征提取模块,用于响应于查询请求,从数据源获取数据集,并对数据集中的数据进行特征提取,得到多个第一特征向量;确定模块,用于依据多个第一特征向量确定数据集中多个类型数据中每一类型数据的敏感数据;脱敏模块,用于对敏感数据进行脱敏处理,得到脱敏后的敏感数据,并将脱敏后的敏感数据发送到客户端,其中,客户端为发送查询请求的客户端。

10、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质中存储有计算机程序,其中,在非易失性存储介质所在设备通过运行计算机程序执行上述的敏感数据的处理方法。

11、根据本申请实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为通过计算机程序执行上述的敏感数据的处理方法。

12、在本申请实施例中,采用接收查询请求,其中,查询请求用于请求查询敏感数据;响应于查询请求,从数据源获取数据集,并对数据集中的数据进行特征提取,得到多个第一特征向量;依据多个第一特征向量确定数据集中多个类型数据中每一类型数据的敏感数据;对敏感数据进行脱敏处理,得到脱敏后的敏感数据,并将脱敏后的敏感数据发送到客户端,其中,客户端为发送查询请求的客户端的方式,通过引入k均值(k-means clusteringalgorithm,k-means++)聚类算法,终端设备基于k-means++聚类算法处理数据源提供的数据集中的数据,根据数据之间的相似性自动进行分组,进而筛选出数据集中的敏感数据,达到了自动识别敏感数据的目的,从而实现了提高识别敏感数据的准确性,避免误报和漏报敏感信息的技术效果,同时,终端设备在进行脱敏处理时,依据敏感数据的数据特征在数据库中查询其对应的脱敏文件,避免在每次脱敏时重新配置脱敏文件,还实现了缩短敏感数据处理时间的技术效果,进而解决了由于相关技术中通过人工识别敏感数据,无法分析数据的内在结构造成的无法识别出所有敏感数据且识别时间长技术问题。



技术特征:

1.一种敏感数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,依据所述多个第一特征向量确定所述数据集中多个类型数据中每一类型数据的敏感数据,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述多个第一特征向量生成向量集,包括:

4.根据权利要求2所述的方法,其特征在于,在所述向量集中确定目标聚类中心,包括:

5.根据权利要求4所述的方法,其特征在于,在所述向量集中确定目标聚类中心,还包括:

6.根据权利要求4所述的方法,其特征在于,所述第一循环流程,包括:

7.根据权利要求1所述的方法,其特征在于,对所述敏感数据进行脱敏处理,包括:

8.一种敏感数据的处理装置,其特征在于,包括:

9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有计算机程序,其中,在所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的敏感数据的处理方法。

10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任意一项所述的敏感数据的处理方法。


技术总结
本申请公开了一种敏感数据的处理方法及装置、非易失性存储介质。其中,该方法包括:接收查询请求,其中,查询请求用于请求查询敏感数据;响应于查询请求,从数据源获取数据集,并对数据集中的数据进行特征提取,得到多个第一特征向量;依据多个第一特征向量确定数据集中多个类型数据中每一类型数据的敏感数据;对敏感数据进行脱敏处理,得到脱敏后的敏感数据,并将脱敏后的敏感数据发送到客户端,其中,客户端为发送查询请求的客户端。本申请解决了由于相关技术中通过人工识别敏感数据,无法分析数据的内在结构造成的无法识别出所有敏感数据且识别时间长的技术问题。

技术研发人员:李哲,郑宗宇,卢佳,欧志芳
受保护的技术使用者:中国电信股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1