一种自适应脱敏方法、系统、设备及介质与流程

文档序号:37847123发布日期:2024-05-07 19:21阅读:9来源:国知局
一种自适应脱敏方法、系统、设备及介质与流程

本发明涉及数据安全,具体地说,涉及一种自适应脱敏方法、系统、设备及介质。


背景技术:

1、现有技术的自适应数据脱敏方法,包括如下步骤:步骤一,数据抽取利用sqoop技术从常用数据库、时序数据库、以及文件或ftp接口进行抽取,数据抽取过程保证原始数据的完整性,以及数据之间的逻辑关系完整;步骤二,数据脱敏通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换,在脱敏过程中保持数据的关联性和完整性,确保数据在同一系统中的一致性;步骤三,数据分发数据脱敏后,通过数据库、文件、ftp接口进行分发。本发明以应用需求为导向,以脱敏策略驱动脱敏规则动态生成的方法,使脱敏结果有据可依且具有可重复性。使用成本低,并且便于算法和应用的扩展。

2、该脱敏方法是基于脱敏规则库,在文件传输前,通过正则匹配等方式检索定位敏感词的位置,然后根据脱敏规则库中的对应规则,对敏感字段进行截断、移位、替换等操作。针对于数字类型数据,现有的截断,移位等操作,无法应对暴力枚举攻击。针对于字符类型数据,现有的替换操作均缺乏抗共谋攻击的能力,多个攻击者通过联合审视其脱敏后的文档,可以猜解出真实的敏感字段。


技术实现思路

1、本发明针对现有的数据脱敏方法无法抵抗共媒攻击、暴利枚举攻击的问题,提出一种自适应脱敏方法、系统、设备及介质,首先获取发送方用户的当前待脱敏文件的关键词;然后根据关键词增删改当前敏感词库,得到新的敏感词库;最后根据新的敏感词库生成正则表达式,并根据正则表达式定位敏感词位置得到敏感词,脱敏得到脱敏文件;实现了多种类型的数据脱敏,脱敏前后数据类型保持不变,保障了脱敏数据安全性的同时也确保了脱敏文件的可读性,进一步提高了脱敏速度。

2、本发明具体实现内容如下:

3、一种自适应脱敏方法,具体包括以下步骤:

4、步骤s1:获取发送方用户的当前待脱敏文件的关键词;

5、步骤s2:根据所述关键词增删改当前敏感词库,得到新的敏感词库;

6、步骤s3:根据新的敏感词库生成正则表达式,并根据所述正则表达式定位敏感词位置得到敏感词,根据所述敏感词脱敏得到脱敏文件。

7、为了更好地实现本发明,进一步地,在所述步骤s1前,所述自适应脱敏方法包括:

8、判断当前用户是否为已注册用户,若是已注册用户,则判断当前用户输入的用户信息与后台管理的用户信息是否匹配,若匹配则输出登录成功弹窗,若不匹配则输出用户名/密码错误弹窗;若不是已注册用户,则输出注册界面引导当前用户注册。

9、为了更好地实现本发明,进一步地,在所述步骤s2具体包括以下步骤:

10、步骤s21:根据所述关键词增删改当前敏感词库,得到新的敏感词库;

11、步骤s22:获取发送方用户输入的接收方id,判断所述接收方id是否属于后台管理的用户id,若是则执行步骤s3,否则输出当前用户id无效弹窗。

12、为了更好地实现本发明,进一步地,所述步骤s3具体包括以下步骤:

13、步骤s31:以字符流形式读取当前待脱敏文件,得到字符串;

14、步骤s32:根据所述新的敏感词库,生成正则表达式;

15、步骤s33:根据所述字符串和所述正则表达式定位敏感词位置,并保存至预设文件列表中;

16、步骤s34:并发循环扫描预设文件列表,根据所述敏感词位置获取敏感词;

17、步骤s35:将所述敏感词转换为进制串,并将所述进制串转换为矩阵;

18、步骤s36:根据发送方用户的类型和接收方角色的类型,确定脱敏算法迭代的轮数;

19、步骤s37:将所述矩阵作为脱敏算法的输入,根据所述轮数进行迭代处理,得到迭代结果secret;

20、步骤s38:根据所述迭代结果secret替换当前待脱敏文件的敏感词位置;

21、步骤s39:重复步骤s31-步骤s38,直至当前待脱敏文件的所有敏感词替换完成,得到与当前待脱敏文件对应的脱敏文件。

22、为了更好地实现本发明,进一步地,所述步骤s31的具体操作为:读取当前待脱敏文件的后缀,若当前待脱敏文件的后缀为txt,则根据bufferreader解析输入流,若当前待脱敏文件的后缀为doc/docx,则调用poi库的wordextractor类解析输入流,然后将解析的输入流结果以行为单位读入字符串s,得到字符串s。

23、为了更好地实现本发明,进一步地,所述步骤s37具体包括以下步骤:

24、步骤s371:以所述矩阵的行为单位,将每行元素循环左移特定的位数,得到移位后的矩阵;

25、步骤s372:将移位后的矩阵和设定的特征值矩阵进行乘法运算,得到输出矩阵;

26、步骤s373:将所述输出矩阵作为作为脱敏算法的输入,返回步骤s371,直至完成轮数循环,并将最后一轮的输出矩阵作为迭代结果secret。

27、为了更好地实现本发明,进一步地,步骤s372中所述设定的特征值矩阵为每一列相加都为1的矩阵。

28、为了更好地实现本发明,进一步地,步骤s33中所述敏感词位置包括敏感词起始位置和敏感词终止位置。

29、基于上述提出的自适应脱敏方法,为了更好地实现本发明,进一步地,提出一种自适应脱敏系统,包括获取单元、增删改单元、脱敏单元;

30、所述获取单元,用于获取发送方用户的当前待脱敏文件的关键词;

31、所述增删改查单元,用于根据所述关键词增删改当前敏感词库,得到新的敏感词库;

32、所述脱敏单元,用于根据新的敏感词库生成正则表达式,并根据所述正则表达式定位敏感词位置得到敏感词,根据所述敏感词脱敏得到脱敏文件。

33、基于上述提出的自适应脱敏方法,为了更好地实现本发明,进一步地,提出一种电子设备,包括存储器和处理器;所述存储器上存储有计算机程序;当所述计算机程序在所述处理器上执行时,实现上述的自适应脱敏方法。

34、基于上述提出的自适应脱敏方法,为了更好地实现本发明,进一步地,提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令;当所述计算机指令在上述的电子设备上执行时,实现上述的自适应脱敏方法。

35、本发明具有以下有益效果:

36、(1)本发明同时适用于多种类型的数据脱敏,并且脱敏前后数据类型保持不变,保障了数据脱敏安全性的同时也确保了脱敏文件的可读性。

37、(2)本发明根据收发用户角色的不同,自适应的选择脱敏强度,防止重要信息外泄给不可信人员,解决了现有的脱敏算法无法抵抗共谋攻击、暴力枚举攻击的缺点。

38、(3)本发明采用多线程并发处理敏感词检索和敏感词脱敏操作,大大加快了脱敏速度。



技术特征:

1.一种自适应脱敏方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种自适应脱敏方法,其特征在于,在所述步骤s1前,所述自适应脱敏方法包括:

3.根据权利要求1所述的一种自适应脱敏方法,其特征在于,在所述步骤s2具体包括以下步骤:

4.根据权利要求3所述的一种自适应脱敏方法,其特征在于,所述步骤s3具体包括以下步骤:

5.根据权利要求4所述的一种自适应脱敏方法,其特征在于,所述步骤s31的具体操作为:读取当前待脱敏文件的后缀,若当前待脱敏文件的后缀为txt,则根据bufferreader解析输入流,若当前待脱敏文件的后缀为doc或docx,则调用poi库的wordextractor类解析输入流,然后将解析的输入流结果以行为单位读入字符串s,得到字符串s。

6.根据权利要求4所述的一种自适应脱敏方法,其特征在于,所述步骤s37具体包括以下步骤:

7.根据权利要求6所述的一种自适应脱敏方法,其特征在于,步骤s372中所述设定的特征值矩阵为每一列相加都为1的矩阵。

8.根据权利要求4所述的一种自适应脱敏方法,其特征在于,步骤s33中所述敏感词位置包括敏感词起始位置和敏感词终止位置。

9.一种自适应脱敏系统,其特征在于,包括获取单元、增删改单元、脱敏单元;

10.一种电子设备,其特征在于,包括存储器和处理器;所述存储器上存储有计算机程序;当所述计算机程序在所述处理器上执行时,实现如权利要求1-8任一项所述的自适应脱敏方法。

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令;当所述计算机指令在如权利要求10所述的电子设备上执行时,实现如权利要求1-8任一项所述的自适应脱敏方法。


技术总结
本发明涉及数据安全技术领域,具体地说,涉及一种自适应脱敏方法、系统、设备及介质;首先获取发送方用户的当前待脱敏文件的关键词;然后根据关键词增删改当前敏感词库,得到新的敏感词库;最后根据新的敏感词库生成正则表达式,并根据正则表达式定位敏感词位置得到敏感词,脱敏得到脱敏文件;实现了多种类型的数据脱敏,脱敏前后数据类型保持不变,保障了脱敏数据安全性的同时也确保了脱敏文件的可读性,进一步提高了脱敏速度;根据收发用户角色的不同,自适应的选择脱敏强度,防止重要信息外泄给不可信人员,解决了现有的脱敏算法无法抵抗共谋攻击、暴力枚举攻击的缺点;采用多线程并发处理敏感词检索和敏感词脱敏操作,大大加快了脱敏速度。

技术研发人员:刘大炜,罗佳丽,刘翔锋,欧阳森山,赵炜煜,王攀,雷霭荻,刘志波,高信
受保护的技术使用者:成都飞机工业(集团)有限责任公司
技术研发日:
技术公布日:2024/5/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1