一种面向数据共享的敏感信息脱敏方法及系统与流程

文档序号:13208456阅读:1289来源:国知局
一种面向数据共享的敏感信息脱敏方法及系统与流程

本发明涉及信息技术与数据安全的交叉技术领域,尤其涉及一种面向数据共享的敏感信息脱敏方法及系统。



背景技术:

近年来,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为重要性发展资源。2016年,政府大力推动信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推荐数据资源向社会开放,引导社会发展,更好服务于公众。然而在大数据背景下,数据开放共享也带来挑战性的问题,各类数据泄露事件频繁发生,如安徽近六千名新生儿信息泄露事件、每年高考信息泄露、具有针对性的诈骗电话事件等,使得全社会从注重数据开放共享转移到更加协同关注数据安全保护。为此,许多国家颁布一系列信息安全相关的法律法规,例如我国的《保密法》和《中华人民共和国政府信息公开条例》,这就要求数据在开放共享的过程中必须符合特定的条件,在开放的数据集中不能包含标识个人身份的数据,以保证数据集的使用者不能轻易地推断出个人隐私信息等;而且又要合理地满足民众多元化需求、保证数据资源能够产生新的价值。因此,实现数据安全保护,又能最大化发挥数据资源利用价值,是目前信息安全处理技术领域具有挑战性的问题。

近年,在敏感数据保护方面已经做了大量的研究。专利号cn201511026582.1从数据脱敏系统的角度出发,介绍了在大数据环境下敏感数据在流通、交换共享、交易等整个环节的保护,并在每个环节使用了不同的敏感保护方法,还提出了基于专家系统和自然语言处理的敏感数据发现方法,最后还通过验证脱敏结果正确性与真实性的度量数据脱敏环节。专利号cn201610338383.2提出了一种在网络环境中对数据加密后将加密秘钥和加密后的脱敏数据物理分离存储,并且对加密秘钥和脱敏数据设置严格的访问权限,保证数据加密或者解密的安全性。专利号cn201510303954.4通过接收用户发送的结构化查询语言sql指令判断所访问的数据中包含敏感数据,并且通过用户访问权限和预先设置的脱敏转换规则对sql指令进行转换,使得转换后的指令访问到的已脱敏数据。专利号cn201510755773.5公开了一种对不同类型的隐私数据采用格式保留脱敏方法,使其以密文形式入库,可以避免密文长度大于表字段定义长度,导致数据装载出现,避免了号码字段加密后类型和源数据类型不匹配,导致数据装载出错。

然而在上述的脱敏系统或者脱敏方法中,都存在一定的局限性。主要原因是:(1)大多数脱敏系统和方法都是针对于数据库的结构化数据,而对于非结构化数据(如文本数据)没有涉及到如何处理;(2)缺乏考虑敏感数据脱敏的完备性,如果敏感数据脱敏深度不够,防止使用非敏感性数据重建敏感数据;(3)无法保证数据脱敏后标识唯一性和格式一致性要求,例如医院数据,一般用身份证号标识和定位个人,如果使用脱敏算法或者加密算法,使得身份证信息失去标识的唯一性和格式的一致性。



技术实现要素:

本发明为克服上述的不足之处,目的在于提供一种面向数据共享的敏感信息脱敏方法及系统,本发明采用统计学、自然语言处理技术和机器学习技术,实现了从数据发布到数据申请使用这一整个过程敏感数据的保护,提出了基于构建敏感信息关键词库、命名实体类和地址类等敏感信息的自动识别;使用sigmoid函数计算敏感属性关联度;采用构建敏感属性生成规则库和命名实体脱敏规则以及核心的脱敏算法的组成方式进行脱敏策略;分别结合数值型敏感属性和分类型属性脱敏深度计算,得到整体数据集的脱敏程度,并采取下载链接地址hash的方法实现数据的受控输出等,能够保证数据敏感信息安全和最大化满足分析挖掘要求的敏感信息处理策略。

本发明是通过以下技术方案达到上述目的:一种面向数据共享的敏感信息脱敏方法,包括如下步骤:

(1)预先设置敏感信息自动识别规则和敏感信息处理规则,其中所述敏感信息自动识别规则包括构造各类敏感信息关键词库、对敏感信息关键词库内敏感信息的自动识别、号码与数值类敏感信息的自动识别、命名实体类敏感信息的自动识别、地址类敏感信息的精确识别;所述敏感信息处理规则包括敏感属性生成规则、设置脱敏算法、命名实体脱敏处理、地址信息脱敏处理;数据使用者请求查看数据提供者发布的数据;

(2)对数据进行预处理,预处理后进行文本数据分词和词性标注;

(3)根据预先设置的敏感信息自动识别规则对敏感信息进行自动识别;

(4)通过对敏感信息的敏感属性关联度计算分析,保留敏感属性关联度高于阈值的敏感信息;其中阈值为预设的;

(5)根据预先设置的敏感信息处理规则对敏感信息进行脱敏处理;

(6)对敏感信息的脱敏深度进行计算,并判断脱敏深度是否符合预设的要求;若不符合,则返回步骤(5)重新进行脱敏处理;否则,对脱敏后的数据集进行输出,供数据使用者查看。

作为优选,所述步骤(2)的预处理操作如下:对发布的数据根据数据类型进行分类,数据类型包括结构化形式各类数据库数据、表格数据、数据仓库数据和非结构化的文档数据;预处理时需要对属性值的完整性、一致性、正确性进行检查,并将非结构化的文档数据解析成文本数据,文档数据解析时采用解析工具进行解析。

作为优选,所述命名实体类敏感信息的自动识别采用基于隐马尔可夫hmm模型的viterbi算法的词性标注和构建命名实体知识库组合方式实现;所述的地址类敏感信息的精确识别通过判断地址信息邻接的词语序列进行实现。

作为优选,所述的敏感属性关联度计算方法如下:

(a)采用sigmoid函数对分类型敏感属性的关联度进行标准化处理,如下定义:

其中,该函数的值域区间为[0,1],且连续、光滑、单调递增;

(b)假设数据集t中每条记录有p个属性{u1,u2,...,up},且每个属性都分别对应若干个属性值,分为记为{q1,q2,...,qp};当一条记录中,敏感属性对应的属性值出现记为1,不出现记为0,那么该条记录可以表示为一个(q1+q2+...+qp)维行向量当数据集t有n条记录,依次记为{t1,t2,...,tn},则就有n个(q1+q2+...+qp)维行向量,分别表示为

(c)将(q1+q2+...+qp)维行向量中对应位上的值进行同或和异或运算,用表示同或运算时对应位上属性值都标记为1的情况,用表示同或运算时对应位上属性值都标记为0;则两属性之间的关联度s(i1,i2)计算公式如下:

其中,计算中将参数λ1,λ2,λ3分别设为0.5,0.25,0.25,且值域为0≤s(i1,i2)≤1。

作为优选,所述对号码与数值型的敏感信息进行脱敏处理具体为:通过制定敏感属性生成的规则,将该规则存入敏感属性生成规则库,调用预设的基于数据失真和加密的脱敏算法对新生敏感属性值按照脱敏任务进行变换,最后形成脱敏后的数据。

作为优选,所述对命名实体类敏感信息采用一张常见中文命名实体的码表,存放百万级别的机构名和中文姓名,将原有命名实体进行hash查表后进行替换,完成脱敏处理;对地址类敏感信息的方法为根据地址信息的详细程度进行脱敏,将通过地址转为经纬度,如果解析不出原始敏感地址信息,则不需要进行脱敏,说明是比较模糊地址;如果能够解析出相关经纬度信息,则根据原始地址所在区/县的范围内变换经纬度,生成另外一个新的地址信息,并且按照用户使用权限模糊地址到街道/乡镇。

作为优选,所述的脱敏深度是衡量脱敏后的数据集与原始数据集之间差异程度,差异程度大小与脱敏深度大小成正比,计算方法如下:(i)数值型属性脱敏深度的计算:

假设数值型属性在脱敏前属性值的值域为脱敏后属性值的则该数值型属性脱敏深度dsz(m,m*):

(ii)分类型属性脱敏深度计算:

借助构建泛化树模型来求分类型属性的脱敏深度,采用如下公式计算分类型属性脱敏深度dfl(r,r*):

dfl(r,r*)=((nh-1)×step(r,r*))/((n-1)×step(r,e))

其中,r,r*表示脱敏前属性值和脱敏后属性值,nh表示某一分类型属性脱敏前属性值与其同一个父节点的子节点个数,n表示泛化树叶节点个数,e表示根节点,setp(x,y)表示属性值节点x脱敏后属性节点y的步骤数;

(iii)综合步骤(i)和步骤(ii)得到数据集脱敏深度计算公式d(t,t*),如下所示:

其中,n表示数据集中所含记录数;c1,c2分别表示为数值型属性个数和分类型属性个数。

作为优选,所述对脱敏后的数据集采取hash的方法变换原始存储链接生成新的下载链接地址的方式进行数据的受控输出。

一种面向数据共享的敏感信息脱敏系统,包括系统管理单元、数据源管理单元、敏感信息识别单元、敏感信息处理单元、数据输出单元;所述系统管理单元用于构建脱敏系统用户账号和访问控制,对用户的角色和权限进行鉴别,只允许合法合权的用户操作相应的数据;所述数据源管理单元包括存储数据源信息;所述敏感信息识别单元用于自动识别各类型数据源中的敏感信息,并计算数据源集中各敏感属性关联性;所述敏感信息处理单元用于自动创建脱敏任务,匹配脱敏策略和脱敏算法;所述数据输出单元用于安全有效地控制敏感数据使用的数据输出;系统管理单元、数据源管理单元、敏感信息识别单元、敏感信息处理单元、数据输出单元依次相连。

作为优选,所述数据源管理单元包括数据源类型、ip地址、存储地址及数据源数据结构提取与管理;所述敏感信息识别单元基于自然语言处理技术对文本数据进行分词处理,在采用人工方式构造各类敏感信息知识库、标注敏感信息级别等基础上,基于规则和模式匹配方式自动识别敏感信息,同时引入sigmoid函数方法计算敏感属性关联度;所述敏感信息处理单元基于自然语言处理技术对数据使用申请进行自动审批及创建相应的脱敏任务,分别采用敏感属性生成规则库、采用hash表查找方式及地址信息经纬度范围内转换和各类脱敏算法等方式对各类敏感信息进行脱敏处理;所述数据输出单元将已脱敏处理的敏感属性值替换原始敏感属性值,并采用hash算法变换原始数据存储地址生成新的存储地址输出数据。

本发明的有益效果在于:(1)本发明可以避免脱敏数据在数据集中唯一性标识属性出现重复性问题;(2)本发明通过使用sigmoid函数计算敏感属性的关联度,实现将紧密程度高的属性划分在一组,不仅可以预防脱敏数据进行重建,还可以删除相关性弱的属性,提供运算效率;(3)本发明结合数值型属性和分类型属性的脱敏深度,从而计算整个数据集的脱敏程度,通过设置阈值的方式,有效地控制脱敏效果;(4)本发明采取hash的方法变换原始存储链接生成新的下载链接地址,实现数据的受控输出,能够保证数据敏感信息安全保护;(5)本发明适用于数据库类型的结构化数据和文档类型的非结构化数据的敏感信息脱敏,具有脱敏效果好、可靠性强等特点。

附图说明

图1是本发明系统的架构示意图;

图2是本发明方法的流程示意图;

图3是本发明实施例中输入的数据源格式示意图;

图4是本发明实施例中的命名实体识别框图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:

实施例:如图1所示,一种面向数据共享的敏感信息脱敏系统包括用于设置和管理系统用户账号信息,构建角色和权限配置的系统管理单元;为存储数据源信息的数据源管理单元;能够自动识别各类型数据源中的敏感信息,并能计算数据源集中各敏感属性关联性的敏感信息识别单元;能够自动创建脱敏任务,匹配脱敏策略和脱敏算法的敏感信息处理单元;能够安全有效地控制敏感数据使用的数据输出单元。所述系统管理单元包括构建脱敏系统用户账号和访问控制,对用户的角色和权限进行鉴别,只允许合法合权的用户操作相应的数据。

所述数据源管理单元包括存储数据源信息,包括原始的数据源信息和目标数据源信息,数据源的类型为数据库数据、文档数据、数据仓库数据等其中一种或者多种。统一的数据源管理可以实现全局控制敏感数据来源,包括数据源ip地址、存储地址、名称、数据类型及数据库类型,以及用户名和密码等;同时能够对各类型数据源进行预处理操作,预处理后的数据源重新生成地址链接,供后续的敏感信息识别单元和敏感信息处理单元使用。

所述敏感信息识别单元能够根据构建敏感信息知识库、预设敏感信息发现规则、自定义发现规则等自动识别各类型数据源,通过先验的敏感信息级别标注和敏感属性相关性分析,进一步确定各级别的敏感属性和其之间的关联性,防止因敏感数据的脱敏程度不深导致敏感数据重建,造成二次泄露。

所述敏感信息处理单元能够基于用户权限和访问控制,为各级别的敏感属性设置相应的脱敏策略、脱敏规则以及脱敏算法,同时支持自定义设置脱敏处理方法。

所述数据输出单元能够实现在数据使用下载过程中进行保护,输出保护方法为将已脱敏处理的敏感属性值替换原始的敏感属性值,并生成新的存储地址,但不改变源数据的存储地址和内容,脱敏后的数据存储地址是通过采用哈希算法变换原始数据存储地址生成,同时为了较少大数据平台的存储效率,及时将脱敏数据进行销毁。

本实施例的数据集的来源为某市部分的人民调解文书,每条调解文书中,除了案由详情和调解协议都是文档数据,如pdf、word文档,其他的属性都是以结构化数据形式存放在数据库表中。

如图2所示,一种面向数据共享的敏感信息脱敏方法,具体实施例如下:

步骤1:数据的获取、预处理

步骤1.1:数据获取

数据提供者通过系统管理单元中获取的账号及权限发布信息,并且将获取的数据存储在数据源管理单元中,如表1为人民调解案例字段组成结构。

表1

在系统中输入数据源格式如图3所示(由于涉及到个人隐私,在输入的数据中已做脱敏处理,用字母代替数字,但在本发明中暂且认为是真实数据):当数据使用者获取数据时,需要进行申请,审批通过后,系统根据申请请求进行数据脱敏操作。

步骤1.2:结构化数据类型预处理和文档数据解析

结构化数据的预处理主要是对各属性值中含有噪声的(包括错误、存在偏离期望的离群值)、不一致的(数据集中某些属性值的表示方式不一致,如出生日期与身份证中出生日期不一致)、出现唯一标识属性存在重复性(如身份证号码重复)、缺失值等情况的数据予以标注;表达不符合规则的,如案由发生时间为16-06-12,应将原始数据变换为2016-06-12;

文档数据解析是采用相应的解析工具解析以提取文档文本内容,如poi解析word文档,用pdfbox操作pdf文件等,还可以解析其他文档格式,如html、word、xml、pdf、excel、txt。

步骤1.3:文本数据分词和词性标注

(1)调解案例中“案由详情”如下所示:

甲方和乙方系上下楼邻居关系,居住在上海市中心路abc弄a号203室自来水龙头未关紧,造成楼下张三家103室橱柜渗水,衣被淋湿,前往楼上进行解决,发现室内应该没有人在,然后寻找物业进行协商,得知业主姓名为李四,联系方式19821210912,立即联系并要求及时处理,但是3天后,楼上还未进行处理,已经造成楼下用户严重损失,现在向一村人民调解委员会申请调解,要求103室业主赔偿损失。

(2)引入词典和停用词进行分词

自定义一些关于机构名后缀、地区、新生词、特殊词等词典,如加入“调解委员会”、“上下楼”、“一带一路”、“建设工程”,分词会优先考虑词典,则“推进一带一路建设工程”,就优先分为推进/一带一路/建设工程;整理网络中已有的各种停用词表,进行去重、补漏的基础上上,整理一个比较全面的词表,如“甲方”、“乙方”、“双方”、“进行”、“即使”等词以及各种标点符号等。

(3)“案由详情”分词与词性标注结果

上下楼/n邻居/n居住/v上海市/ns中心路/nsa/m号/m203/m室/n自来水/l龙头/n关紧/v楼下/s张三/nr103/m室/n橱柜/n渗水/v衣被/n淋湿/n前往/v楼上/n解决/v发现/v室内/s没有/v人/n寻找/v物业/n协商/n得知/v业主/n姓名/n李四/nr联系方式/n19821210912/m联系/n要求/v及时处理/i3/m天/q楼上/n进行处理/n楼下/n用户/n严重损失/l一村/n人民调解委员会/n申请/v调解v103/m室/n业主/n赔偿损失/n。

其中,步骤1.1属于系统管理单元功能范畴,步骤1.2、1.3属于数据源管理单元功能范畴。

步骤2:构造敏感信息关键词库

通过人工方式构造各类敏感信息关键词库并标注其敏感级别,如号码与数值类中联系方式的关键词库有电话号码、联系方式、手机号(码)、通讯方式、座机号、移动号码、联通号码、电信号码等各种表达方式。同时根据敏感程度将敏感信息分为四种级别,第一级别为可识别属性,可确切定位某个人的属性,如身份证号码、姓名、地址等;第二级别为半识别属性,即单列属性并不能定位某个人,但是多列信息可用来潜在的识别某个人;第三级别为敏感属性,如疾病、收入、文化程度等;第四级别为非敏感属性;如表2所示;另外在本发明中要讨论的敏感信息为前三级别敏感属性,如表3所示。

表2

表3

步骤3:号码与数值类敏感信息自动识别

号码与数值型敏感信息为身份证id、各种卡账号及密码、联系方式、虚拟账号及密码、车牌号、社会保险号等信息。该类敏感信息的识别可以基于生成规则,通过正则表达式方式发现,而且该类敏感信息都是可以确切识别某个人,因此为该类属性标注为可识别的敏感属性。

步骤4:命名实体类的自动识别

人名、机构名的识别方法基于自然语言处理技术的隐马尔可夫hmm模型的viterbi算法的词性标注和构建命名实体知识库组合方式进行识别。

其中构建命名实体知识库包括构造敏感信息关键词库、各类命名实体模式、前后缀规则以及位置模板。其中命名实体模式、前后缀规则以及位置的发现可以通过训练语料库,获取命名实体的特征词表和前后缀规则词表以及对应位置词表,再与分词工具已标注词性上下词性进行组合方式抽取实体部分,如图4所示。

步骤5:地址类信息精确识别

通过判断分词后的地址碎片信息邻接的词语序列得到比较详细地址信息,如果邻接词语序列(上下文连续的2-3个词语)表示为地址类信息或者符合地址匹配规则,则进行组合进行再次识别,并且将进行经纬度转换,如果能够计算出经纬度信息,则表示该类地址信息为可识别属性值。例如,上海市/ns中山路/nsa/m号/m,检测到上海市、中山路两个表征地址敏感属性,并且根据地址模式匹配得到后面a号也属于地址信息,就可以将这些邻接的词语序列组合,就可以得到上海市中心路a号这个详细地址,并且计算其经纬度。

步骤6:敏感属性关联度计算

通过属性关联度计算,找到数据集中敏感属性之间的相关性,且关联度越大,则说明相关性越强。通过计算敏感属性之间关联度,可以使得将关联度较为紧密的敏感属性聚合在一起,将关联度很弱的属性进行删除,这样不仅能够减少脱敏数据集的大小,减少数据脱敏处理的运算量,提高相应算法的执行效率,同时还可以通过先验知识确定的识别性和半识别性敏感属性,再通过这种方式挖掘到其他敏感属性,进一步增加数据脱敏效果,防止敏感属性之间重组导致泄露可能。

在本发明中,使用sigmoid函数对分类型敏感属性的关联度进行标准化处理,如下定义:

其中,该函数的值域区间为[0,1],且连续、光滑、单调递增。当x=0时,值域为0.5。

假设数据集t中每条记录有p个属性{u1,u2,...,up},且每个属性都分别对应若干个属性值,分为记为{q1,q2,...,qp},当一条记录中,敏感属性对应的属性值出现记为1,不出现记为0,那么该条记录可以表示为一个(q1+q2+...+qp)维行向量当数据集t有n条记录,依次记为{t1,t2,...,tn},则就有n个(q1+q2+...+qp)维行向量,分别表示为

将(q1+q2+...+qp)维行向量中对应位上的值进行同或和异或运算,用表示同或运算时对应位上属性值都标记为1的情况,用表示同或运算时对应位上属性值都标记为0;则两属性的关联度s(i1,i2)计算公式为:

其中,本发明中将参数λ1,λ2,λ3分别设置为0.5,0.25,0.25,且值域为0≤s(i1,i2)≤1。

在本实施例中通过构造sigmoid函数对敏感属性之间的关联度进行度量。用公式(1)、公式(2)计算两个敏感属性的相关系数,相关系数越大,则相关性就越高。

例如:文化程度属性值{大学,高中,初中,小学},工资等级属性值有{10k以上,10k-8k,8k-6k,8k-6k,2k-4k,2k以下},将按照文化程度和工资等级属性值{大学,高中,初中,小学,10k以上,10k-8k,8k-6k,8k-6k,2k-4k,2k以下},当记录1,记录2,记录3得到的列向量为

{1,0,0,0,1,0,0,0,0,0},{0,0,1,0,0,0,1,0,0,0},{1,0,0,0,1,0,0,0,0,0}。

将以上三个记录进行两两同或和异或计算,得到θ(x)=0.4,则利用公式(1)计算得到相关性为0.95。

在本发明中,敏感属性关联度计算时还可以使用其他方法进行计算,均在本发明保护权利中,如基于关联规则频繁项集的apriori算法,通过迭代方式寻找满足条件的敏感属性频繁项集;另外还有使用均方列联系数,假设两个敏感属性为i1和i2,其值域分别为{v11,v12,...,v1p}和{v21,v22,...,v2q}。那么i1和i2的均方列联系数为:

其中,敏感属性值v1i和v2j在原始数据集中出现次数fi和fj来表示。fij表示v1i和v2j在同一记录中出现的次数。因此,fi.和f.j具有如下关系:且0≤φ2(s1,s2)≤1。

其中,步骤2至步骤6属于敏感信息识别单元功能范畴。

以下步骤7至步骤11都属于敏感信息处理单元功能范畴,系统可以基于自然语言处理技术对数据提供者提交的自动脱敏请求或者数据使用者填写申请内容(包括应用场景、应用目的等)自动审批,待审批通过后,创建相应的脱敏任务,系统自动识别出申请数据中敏感信息,并根据相应的脱敏任务进行脱敏处理。

步骤7:设置脱敏算法

在系统中设置基于数据失真和加密的脱敏算法,如随机数替换、自定义交换替换、散列、加密算法等对原始数据进行变换;同时还可以根据脱敏任务的实际要求,进行遮挡数据某些字符、数据泛化等;

步骤8:基于敏感属性生成规则库进行脱敏

对于号码或数值型的敏感数据可以通过制定敏感属性生成的规则,将该规则存入敏感字段生成规则库;该敏感字段生成的规则可以完全等同原始数据中的敏感字段的生成规则,然后调用步骤7中预设的脱敏算法对新生敏感属性值按照脱敏任务进行变换,最后形成脱敏后数据。如身份证号码的生成规则、日期的生成规则,再根据一定规则进行敏感位上字符进行替换、模糊等操作,且保留具有行政区域、年龄段、性别等统计分析意义的字符,这样可以实现完全的高仿真,也保证了标识号的唯一性,且为统计分析提供了便利,使得无法分辨其真实性。

步骤9:命名实体的脱敏处理

对于机构名和姓名的命名实体的脱敏方法是采用一张常见中文命名实体的码表,存放百万级别的机构名和中文姓名,将原有命名实体进行hash查表后进行替换;

步骤10:地址信息脱敏处理

对于地址类的敏感数据,可以根据地址信息的详细程度进行脱敏,方法为通过地址转为经纬度,如果解析不出原始敏感地址信息,则不需要进行脱敏,说明是比较模糊地址;如果能够解析出相关经纬度信息,则根据原始地址所在区/县的范围内变换经纬度,生成另外一个新的地址信息,并且按照用户使用权限模糊地址到街道/乡镇。

步骤11:敏感信息脱敏深度计算

脱敏深度是衡量脱敏后的数据集与原始数据集之间差异程度,如果差异性越大,表示脱敏深度越大,即数据安全性就越大;反之则安全性就越小。其中,脱敏深度计算方法如下:

11.1)数值型属性脱敏深度

假设数值型属性在脱敏前属性值的值域为脱敏后属性值的那么该数值型属性脱敏深度dsz(m,m*):

11.2)分类型属性脱敏深度计算

在本发明中,需要借助构建泛化树模型来求分类型属性的脱敏深度,采用如下公式计算分类型属性脱敏深度dfl(r,r*):

dfl(r,r*)=((nh-1)×step(r,r*))/((n-1)×step(r,e))(5)

其中,r,r*表示脱敏前属性值和脱敏后属性值,nh表示某一分类型属性脱敏前属性值与其同一个父节点的子节点个数,n表示泛化树叶节点个数,e表示根节点,setp(x,y)表示属性值节点x脱敏后属性节点y的步骤数。

11.3)数据集脱敏深度计算

结合11.1)和12.1),得到数据集脱敏深度计算公式为d(t,t*):

其中,n表示数据集中所含记录数;c1,c2分别表示为数值型属性个数和分类型属性个数。

在本实施例中,采用公式(4)、公式(5)分别计算出数值型敏感属性和分类型敏感属性的脱敏深度,在利用公式(6)计算整个数据集脱敏深度。

在本发明中,数据集脱敏深度的计算不限于步骤11的计算方法,同时还可以使用其他的方法,如采用熵的信息损失量来表示数据脱敏深度,其表达式为:

其中rm表示数据集中含有m的记录数,rn表示在一次脱敏处理后包含n的记录数,且h(rn)、h(rm)表示rn和rm的信息熵。

另外,h(rn)与h(rm)的通用表达式为:

且freq(rx,s)表示rx数据集具有s的记录数。

步骤12:数据脱敏输出

数据使用者根据用户权限获取脱敏后的数据,数据输出保护方法为将已脱敏处理的敏感属性值替换原始的敏感属性值,并生成新的存储地址,但不改变源数据的存储地址和内容,脱敏后的数据存储地址是通过采用哈希算法变换原始数据存储地址生成,同时为了较少大数据平台的存储效率,及时将脱敏数据进行销毁。

以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1