一种基于大数据的结构化敏感数据还原检测的方法与流程

文档序号:24118776发布日期:2021-02-27 14:57阅读:66来源:国知局
一种基于大数据的结构化敏感数据还原检测的方法与流程

[0001]
本发明涉及信息安全技术领域,尤其涉及一种基于大数据的结构化敏感数据还原检测的方法。


背景技术:

[0002]
大数据环境下,数据频繁的共享交换,越来越多的政府和企业数据流通交易,为了保护隐私,结构化存储的数据被去隐私化处理后,传输到网络上。这是目前数据隐私保护最常用的方法。但是随着海量数据的产生,多样化来源的数据汇聚到大数据中心,这些结构化数据通过一定的方式融合后,就可能还原出敏感数据。
[0003]
已有技术研究主要集中在如何对敏感数据进行去隐私化,保证单一使用情况下,敏感数据的安全性,却忽略了敏感数据汇聚后,结构化敏感数据泄露的问题,目前并没有关于敏感数据还原检测的研究。因此亟需一种基于大数据的结构化敏感数据还原检测的方法来解决大数据环境下结构化敏感数据还原无法检测,泄露程度无法评估的问题。


技术实现要素:

[0004]
鉴于结构化敏感数据还原检测技术的缺失与不足,本发明提出一种基于大数据的结构化敏感数据还原检测的方法,包括:
[0005]
结构化数据抽取:针对数据库及文本文件中的结构化数据,依据数据标准进行汇聚与抽取,数据汇聚最后形式为关系型数据库,之后将数据转换为rdf格式;
[0006]
知识表示及知识图谱构建:将不同数据源获取的知识要素进行融合构建数据之间的关联关系形成知识图谱;
[0007]
敏感数据还原:依据标准配置从汇聚后的数据中抽取关联数据,按照知识图谱的关系,将数据汇入关联数据库,再进行敏感数据还原查询。
[0008]
进一步的,所述结构化数据抽取包括以下步骤:
[0009]
s11.输入数据源注册的信息,注册数据库或者文本文件成功后,自动解析获取其数据的元数据信息;
[0010]
s12.基于实际需求配置数据抽取、字段清洗及敏感数据标准化三方面内容,实现结构化数据抽取的基础配置;
[0011]
s13.设定敏感数据类型,并针对每种类型的敏感数据进行标准字段的定义;
[0012]
s14.依据数据抽取、字段清洗及敏感数据标准化信息的配置实现数据抽取;
[0013]
s15.抽取后的数据转换为rdf格式;
[0014]
s16.rdf格式中提供敏感数据知识的要素。
[0015]
进一步的,步骤s12中,数据抽取的配置包括对抽取的字段、条数和时间进行配置。
[0016]
进一步的,步骤s12中,字段清洗的配置包括对字段是否为空及字符类型进行校验清洗。
[0017]
进一步的,步骤s12中,敏感数据标准化的配置包括依据制定的敏感数据标准,将
字段与标准敏感字段进行对照,同时支持对敏感字段格式进行校验。
[0018]
进一步的,步骤s13包括以下子步骤:
[0019]
s131.在大数据环境下,从个人隐私保护角度出发,设定敏感数据类型;
[0020]
s132.针对每种敏感数据类型,总结敏感数据类型的特征,并形成校验规则库;
[0021]
s133.对敏感数据之间的关系进行定义;
[0022]
s134.对每种类型的敏感数据进行标准字段的定义,确定标准字段的描述。
[0023]
进一步的,所述知识表示及知识图谱构建包括以下子步骤:
[0024]
s21.采用rdf三元组进行敏感数据知识表示;
[0025]
s22.对敏感数据进行加工与融合,方式包括实体对齐、冲突消解及规范化;
[0026]
s23.手动建立敏感数据知识模型;
[0027]
s24.对敏感数据知识模型进行质量评估,对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,确保知识图谱的质量;
[0028]
s25.形成知识图谱,并依据知识的改变不断对知识图谱进行更新和扩充。
[0029]
进一步的,所述敏感数据还原查询包括以下子步骤:
[0030]
s31.依据不同的敏感数据特征,形成不同敏感数据的校验规则及特征库;
[0031]
s32.敏感数据的待还原数据查询;
[0032]
s33.系统自动获取敏感数据关联到的所有信息;
[0033]
s34.依据关联到的信息判断关联到的数据所使用的脱敏策略,如果策略为遮挡,直接对敏感数据进行重叠,然后恢复敏感数据;
[0034]
s35.恢复后,结合敏感数据的校验规则和特征库,对恢复的敏感数据进行校验,校验通过,则敏感数据被成功还原。
[0035]
本发明的有益效果在于:
[0036]
(1)本发明解决了大数据环境下海量结构化敏感数据脱敏后无法检测其是否被还原,评估敏感数据泄露无法评估的问题;
[0037]
(2)本发明提出了一种高效快速对结构化数据敏感数据还原检测的方式,弥补了敏感数据还原检测研究方面的空白。
附图说明
[0038]
图1本发明的结构化数据抽取流程图;
[0039]
图2本发明的知识表示及知识图谱构建流程图;
[0040]
图3本发明的敏感数据还原流程图。
具体实施方式
[0041]
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
本发明提出了一种基于大数据的结构化敏感数据还原检测的方法,包括结构化数
据抽取、知识表示及知识图谱构建、敏感数据还原,其中:
[0043]
1、结构化数据抽取
[0044]
针对数据库及文本文件中的结构化数据,依据数据标准进行汇聚与抽取,数据汇聚最后形式为关系型数据库,之后将数据转换为rdf格式。结构化数据抽取是敏感数据还原的基础,如图1所示,其主要过程如下:
[0045]
s11.输入数据源注册的信息,注册数据库或者文本文件成功后,自动解析获取其数据的元数据信息;
[0046]
s12.基于实际需求配置数据抽取、字段清洗及敏感数据标准化三方面内容,实现结构化数据抽取的基础配置;
[0047]
s13.设定敏感数据类型,并针对每种类型的敏感数据进行标准字段的定义;
[0048]
s14.依据数据抽取、字段清洗及敏感数据标准化信息的配置实现数据抽取;
[0049]
s15.抽取后的数据转换为rdf格式;
[0050]
s16.rdf格式中提供敏感数据知识的要素。
[0051]
优选的,步骤s12中,数据抽取的配置包括对抽取的字段、条数和时间(包括定时、增量及全量等)进行配置,字段清洗的配置包括对字段是否为空及字符类型进行校验清洗,敏感数据标准化的配置包括依据制定的敏感数据标准,将字段与标准敏感字段进行对照,同时支持对敏感字段格式进行校验。
[0052]
优选的,步骤s13包括以下子步骤:
[0053]
s131.在大数据环境下,从个人隐私保护角度出发,设定敏感数据类型,例如:姓名、身份证号、电话号码、银行卡号、车牌号、社保卡号、微信号、qq号、个人住址等个人相关的数据;
[0054]
s132.针对每种敏感数据类型,总结敏感数据类型的特征,并形成校验规则库;
[0055]
s133.对敏感数据之间的关系进行定义,例如:比如一个人可以有一个身份证号,多个电话号码、多个车牌号等关系;
[0056]
s134.对每种类型的敏感数据进行标准字段的定义,确定标准字段的描述。
[0057]
2、知识表示及知识图谱构建
[0058]
主要是将不同数据源获取的知识要素进行融合构建数据之间的关联关系形成知识图谱,主要包括实体对齐、冲突消解和规范化等。如图2所示,知识表示及知识图谱构建的主要过程如下:
[0059]
s21.采用rdf三元组进行敏感数据知识表示;
[0060]
s22.对敏感数据进行加工与融合,方式包括实体对齐、冲突消解及规范化;
[0061]
s23.手动建立敏感数据知识模型;
[0062]
s24.对敏感数据知识模型进行质量评估,对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,确保知识图谱的质量;
[0063]
s25.形成知识图谱,并依据知识的改变不断对知识图谱进行更新和扩充。
[0064]
3、敏感数据还原
[0065]
如图3所示,依据标准配置从汇聚后的数据中抽取关联数据,按照知识图谱的关系,将数据汇入关联数据库,再进行敏感数据还原查询。敏感数据查询还原的主要过程如下:
[0066]
s31.依据不同的敏感数据特征,形成不同敏感数据的校验规则及特征库;
[0067]
s32.敏感数据的待还原数据查询;
[0068]
s33.系统自动获取敏感数据关联到的所有信息;
[0069]
s34.依据关联到的信息判断关联到的数据所使用的脱敏策略,如果策略为遮挡,直接对敏感数据进行重叠,然后恢复敏感数据;
[0070]
s35.恢复后,结合敏感数据的校验规则和特征库,对恢复的敏感数据进行校验,校验通过,则敏感数据被成功还原。
[0071]
在本发明的一个优选实施例中,结构化数据的敏感数据还原具体实现如下:
[0072]
(1)结构化数据接入:选择数据库类型,输入数据库的用户名、密码,判断数据库链接是否成功,如果成功,实现数据源成功注册;数据源成功注册后,选择需要导入的数据库的表级字段,并对字段进行标准化配置,如字段里面存储为身份证号,则选择数据标准中的身份证号作为对照,配置成功后,自动对数据进行标准化配置,并将数据导入关系型数据库;
[0073]
(2)知识表示及知识图谱构建:将关系型数据库的数据转换为rdf格式,并将身份证号、姓名、手机号码、邮箱等关联关系进行知识表示,构建知识图谱,依据已构建的知识图谱模型,将rdf格式的数据自动接入到知识图谱中,形成关系图谱;
[0074]
(3)敏感数据还原:输入查询的敏感数据,数据为脱敏后的数据,依据检索数据的特点,从知识图谱中抽取所有相关的要素,自动对数据进行拼接还原,比如:电话号码345***678进行查询后,将与改电话号码相关的所有关联数据进行抽取,发现某邮箱与该电话关联,同时也与345323***/**5323678相关联,自动计算出当前电话号码采用的是遮挡,同时对数据进行拼接,还原后的数据为345323678,实现输入后的数据还原。
[0075]
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1