本发明涉及计算机应用技术领域,尤其涉及敏感数据安全合规处理领域。
背景技术:
敏感数据又称隐私数据,常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。因此对敏感数据采取有效的保护措施,很有必要。
技术实现要素:
本发明的目的在于提供一种用于敏感数据的安全合规处理系统和方法,有效保护敏感数据。
实现上述目的的技术方案是:
一种用于敏感数据的安全合规处理系统,连接数据库,包括连接模块、策略模块、识别模块、数据处理模块、数据脱敏模块、数据加密模块、映射列表模块和列表加密模块,其中,
所述连接模块连接所述识别模块和所述数据库,将所述数据库的数据传递给所述识别模块;
所述策略模块输入敏感数据规则;
所述识别模块根据敏感数据规则,从接收的数据中初步筛选出敏感数据;
所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,获得敏感数据的敏感文件名部分和敏感文本内容部分;
所述数据脱敏模块对敏感数据的敏感文件名部分和敏感文本内容部分进行脱敏处理;
所述数据加密模块对敏感数据进行加密处理;
所述映射列表模块将脱敏后的敏感数据和加密后的敏感数据一一对应映射,获得映射列表;
所述列表加密模块对映射列表加密;
所述映射列表模块通过所述连接模块将加密后的映射列表、脱敏后的敏感数据和加密后的敏感数据发送给所述数据库,其中,脱敏后的敏感数据替换数据库中原先存储的敏感数据。
优选的,所述连接模块包括虚拟网络单元和程序接口单元,
所述虚拟网络单元加载数据库通信协议,并通过所述程序接口单元连接所述识别模块和所述映射列表模块。
优选的,所述识别模块包括敏感数据规则数据库、数据类型识别单元和敏感数据辨别单元,其中,
所述敏感数据规则数据库获取并保存来自所述策略模块的敏感数据规则;
所述数据类型识别单元识别来自所述数据库的数据的文件类型和文件属性,并分类;
所述敏感数据辨别单元根据敏感数据规则对分类后的数据中进行敏感辨别,初步筛选出包含敏感信息的文件数据。
优选的,所述数据处理模块包括:敏感文件名识别单元、文件解析单元和敏感文件内容识别单元,其中,
所述敏感文件名识别单元根据敏感数据规则,对包含敏感信息的文件数据的文件名进行敏感识别,对该文件数据的敏感文件名部分进行标记;
所述文件解析单元对包含敏感信息的文件数据进行文本解析;
所述敏感文件内容识别单元对解析后的文件数据的文本进行敏感识别,对该文件数据的敏感文本内容部分进行标记。
优选的,所述敏感数据规则指:设置对应各类敏感内容的字段名、字段内容,匹配这些字段名、字段内容的文件部分判断为敏感数据。
优选的,敏感内容指:姓名、身份证件号码、通讯号码、地址、邮箱、性别、喜好、银行账号、密码、医疗信息、教育背景、隐私图片和社交关系。
优选的,所述数据脱敏模块的脱敏处理为:
将字段被替换为一个常数值;
将每个值通过hash函数映射到一个新值中;
将每个原始值映射到一个独特的新值中;
在数值中添加一个固定偏移量;
将每个原始值映射到一个新值中以保持排序;
缩短字段,删除末尾处的数据;或者
保留n位的前缀,n为正整数。
优选的,所述数据加密模块的加密方法为:对称加密或者非对称加密。
优选的,还包括:连接所述策略模块,用于输入数据类型识别规则的规则模块;
所述数据类型识别单元通过所述策略模块从所述规则模块提取数据类型识别规则,根据数据类型识别规则识别数据的文件类型和文件属性,并分类。
本发明的基于上述安全合规处理系统的处理方法,包括:
所述识别模块根据敏感数据规则,从数据库的数据中初步筛选出敏感数据;
所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,获得敏感数据的敏感文件名部分和敏感文本内容部分;
所述数据脱敏模块对敏感数据的敏感文件名部分和敏感文本内容部分进行脱敏处理;
所述数据加密模块对敏感数据进行加密处理;
所述映射列表模块将脱敏后的敏感数据和加密后的敏感数据一一对应映射,获得映射列表;
所述列表加密模块对映射列表加密;
所述映射列表模块通过所述连接模块将加密后的映射列表、脱敏后的敏感数据和加密后的敏感数据发送给所述数据库,其中,脱敏后的敏感数据替换数据库中原先存储的敏感数据。
本发明的有益效果是:本发明通过敏感数据识别、加密、脱敏,有效地实现了对敏感数据的保护。另外,在准确识别敏感数据及其位置的基础上,提高对敏感数据保护的准确度,能广泛有效的应用。
附图说明
图1是本发明的用于敏感数据的安全合规处理系统的结构图;
图2是本发明的安全合规处理系统的部分具体结构图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1和图2,本发明的用于敏感数据的安全合规处理系统,连接数据库100,包括连接模块1、策略模块2、识别模块3、数据处理模块4、数据脱敏模块5、数据加密模块6、映射列表模块7和列表加密模块8。
连接模块1连接识别模块3和数据库100,将数据库100的数据传递给识别模块3。连接模块1包括虚拟网络单元11和程序接口单元12,虚拟网络单元11加载数据库通信协议,并通过程序接口单元12连接识别模块3和映射列表模块7。虚拟网络单元11采用pptp/l2tp/ipsec/openvpn等。数据库通信协议为oracle、mysql,postgresql,mssql等。数据库100的数据包括结构化数据(如数据库表格、csv,xlsx等)、半结构化数据(如json,xml)、非结构化文本文件数据(如一个txt文本文件,html、docx文件等)以及图片数据(如名片,经过ocr识别后,转为非结构化文本文件)。
用户通过策略模块2输入敏感数据规则。敏感数据规则指:设置对应各类敏感内容的字段名、字段内容,匹配这些字段名、字段内容的文件部分判断为敏感数据。敏感内容指:姓名、身份证件号码、通讯号码、地址、邮箱、性别、喜好、银行账号、密码、医疗信息、教育背景、隐私图片和社交关系。
识别模块3根据敏感数据规则,从接收的数据中初步筛选出敏感数据。识别模块3包括敏感数据规则数据库31、数据类型识别单元32和敏感数据辨别单元33。
规则模块9连接略模块2,用于输入数据类型识别规则。敏感数据规则数据库31获取并保存来自策略模块2的敏感数据规则。数据类型识别单元32通过策略模块2从规则模块6提取数据类型识别规则,根据数据类型识别规则识别来自待检测系统100的数据的文件类型和文件属性,并分类。敏感数据辨别单元33根据敏感数据规则对分类后的数据中进行敏感辨别,初步筛选出包含敏感信息的文件数据。
数据处理模块4对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给显示模块5进行显示。数据处理模块4包括:敏感文件名识别单元41、文件解析单元42和敏感文件内容识别单元43。
敏感文件名识别单元41根据敏感数据规则,对包含敏感信息的文件数据的文件名进行敏感识别,对该文件数据的敏感文件名部分进行标记。文件解析单元42对包含敏感信息的文件数据进行文本解析。敏感文件内容识别单元43对解析后的文件数据的文本进行敏感识别,对该文件数据的敏感文本内容部分进行标记。其中,可以进一步设置:对应各类敏感内容的字段名、字段内容设置低相似度阈值和高相似度阈值。敏感数据辨别单元33筛选出符合低相似度阈值的文件数据。敏感文件名识别单元41和敏感文件内容识别单元43根据高相似度阈值对文件数据进行敏感识别。
数据脱敏模块5对敏感数据的敏感文件名部分和敏感文本内容部分进行脱敏处理,具体为:
隐藏:将字段被替换为一个常数值(通常为0);有时被称为“黑色标记”。
hash:将每个值通过hash函数,如md5,sha2映射到一个新(不一定唯一)值中。
置换:将每个原始值映射到一个独特的新值中。
位移:在数值中添加一个固定偏移量。
枚举:将每个原始值映射到一个新值中以保持排序。
截断:缩短字段,删除末尾处的数据。
保留前缀:保留n位的前缀。
数据加密模块6对敏感数据进行加密处理,具体通过对称加密(aes,idea...等加密算法)或非对称加密(rsa,dsa,ecdsa等对称加密算法)进行加密。也支持“国密”的应用。
映射列表模块7将脱敏后的敏感数据和加密后的敏感数据一一对应映射,获得映射列表。列表加密模块8对映射列表加密。
映射列表模块7通过所述连接模块将加密后的映射列表、脱敏后的敏感数据和加密后的敏感数据发送给数据库100,其中,脱敏后的敏感数据替换数据库100中原先存储的敏感数据。如此,通过对数据库100进行密码保护,从而通过多重密码保护使得更加全面。另外通过对各个用户以及敏感数据的各项权限设置,进一步提高敏感数据的安全性。
本发明的基于上述安全合规处理系统的处理方法,包括下列步骤:
1)识别模块3根据敏感数据规则,从数据库100的数据中初步筛选出敏感数据。
2)数据处理模块4对筛选出的敏感数据进行解析以及敏感识别,获得敏感数据的敏感文件名部分和敏感文本内容部分。
3)数据脱敏模块5对敏感数据的敏感文件名部分和敏感文本内容部分进行脱敏处理。
4)数据加密模块6对敏感数据进行加密处理。
5)映射列表模块7将脱敏后的敏感数据和加密后的敏感数据一一对应映射,获得映射列表。
6)列表加密模块8对映射列表加密。
7)映射列表模块7通过连接模块1将加密后的映射列表、脱敏后的敏感数据和加密后的敏感数据发送给数据库100,其中,脱敏后的敏感数据替换数据库100中原先存储的敏感数据。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。