本发明涉及数据处理,具体而言,涉及一种敏感数据的识别和脱敏方法、装置、计算机可读存储介质和数据脱敏系统。
背景技术:
1、非结构化数据中蕴含着巨大的数据价值。而随着数据的急剧扩张以及对多结构数据挖掘的需求,隐私数据已经从结构化数据向半结构化、非结构化数据进行演进。因而在进行数据分析或数据发布时,这些未脱敏的非结构数据非常容易泄露其中的敏感信息。而与此同时,深度学习模型也存在夹带隐私信息的风险。因此强化数据安全与隐私保护,在数据安全的前提下实现数据共享交换,警惕恶意机器学习模型或代码非法获取数据,是大势所趋。
2、现有技术中,采用正则表达式和关键词匹配来识别敏感信息的方法准确率低,鲁棒性差,难以满足大规模,多样化的敏感数据识别需求,采用机械学习的方式进行数据防泄漏,存在对敏感数据内容检查实施放行或拦截的粗粒度管控,未实现对敏感数据的细粒度识别和脱敏,采用传统机器学习方法-隐马尔可夫hmm模型对敏感数据进行识别,准确率较低,难以满足大规模,多样化的敏感数据识别需求等问题,因此,在企业层面,亟需一种易于部署的精确的敏感数据的识别和脱敏方法。
技术实现思路
1、本技术的主要目的在于提供一种敏感数据的识别和脱敏方法、装置、计算机可读存储介质和数据脱敏系统,以至少实现对大规模非结构化数据精准脱敏保护的快速部署。
2、为了实现上述目的,根据本技术的一个方面,提供了一种敏感数据的识别和脱敏方法,包括:将第一输入文本输入预处理层得到第二输入文本,所述预处理层用于对第一输入文本进行分词得到第一分词,并对第一分词以预设词粒度进行切分得到第二输入文本,所述第一输入文本为待进行脱敏的文本数据;将所述第二输入文本输入词表示层得到第三输入文本,所述词表示层用于对所述第二输入文本进行向量化表示得到第三输入文本;将所述第三输入文本输入解码层得到第四输入文本,所述解码层用于计算各所述第三输入文本属于各敏感数据类别的概率,并根据所述概率通过条件随机场进行分类得到第四输入文本;将所述第四输入文本输入脱敏层得到目标输出文本,所述脱敏层用于将所述第四输入文本进行转换为非敏感数据;根据所述目标输出文本和基准输出文本计算风险评分,所述基准输出文本为对所述第一输入文本中的敏感数据进行标识得到,所述风险评分用于表征所述目标输出文本中携带的所述敏感数据的泄露风险;在风险评分小于第一阈值的情况下,根据所述预处理层、所述词表示层、所述解码层和所述脱敏层构建目标模型,将所述目标模型集成到sdk得到识别脱敏模块,并通过接口方式嵌入各应用程序,所述识别脱敏模块用于通过接口对应用程序的输出数据进行敏感数据识别和数据脱敏。
3、可选地,将第一输入文本输入预处理层得到第二输入文本,包括:对所述第一输入文本进行分词得到所述第一分词;通过wordpiece基于所述第一输入文本构建词汇表得到目标词汇表;对所述第一分词进行切分得到第二分词,并基于所述目标词汇表遍历所述第二分词,在所述目标词汇表中不存在所述第二分词的情况下,对所述第二分词进行切分,直至所有目标词汇表中存在所有所述第二分词和/或所述第二分词对应的词粒度小于或等于所述预设词粒度得到所述第二输入文本;在所述目标词汇表中存在所有所述第二分词的情况下,将所述第二分词确定为所述第二输入文本。
4、可选地,通过wordpiece基于所述第一输入文本构建词汇表得到目标词汇表,包括:对所述第一输入文本分解为单词或字符,将所述单词或所述字符确定为词汇表元素得到第一词汇表;遍历所述第一词汇表中的元素确定各所述元素对应的频率得到第一频率;将所述词汇表中的词汇根据所述第一频率从大到小排列得到第二词汇表;将对应所述第一频率最高的所述元素进行合并,并存入所述第二词汇表直至所述第二词汇表中的元素数量小于或等于第二阈值或合并次数大于或等于第三阈值得到所述目标词汇表。
5、可选地,将所述第二输入文本输入词表示层得到第三输入文本,包括:将所述第二输入文本转换为词向量表示得到第一目标向量;对所述第一目标向量添加第一标识信息得到第二目标向量,所述第一标识信息用于标识所述第一输入文本中句子的起始或结束以及所述第一输入文本中段落的起始或结束;对所述第二目标向量添加第二标识信息得到第三目标向量,所述第二标识信息用于标识各所述第二输入文本在所述第一输入文本中的位置信息;将所述第三目标向量输入bert模型得到所述第三输入文本,所述bert模型用于将词向量转换为带有上下文语义信息的向量表示。
6、可选地,将所述第三输入文本输入解码层得到第四输入文本,包括:将所述第三输入文本输入全连接层得到第一概率和第二概率,所述第一概率用于表征各所述第三输入文本与各敏感数据类别的对应关系,所述第二概率用于表征各所述敏感数据类别之间的依赖关系;根据各所述第三输入文本和各所述敏感数据类别进行组合得到多个分类组合;基于所述第一概率和所述第二概率求解各所述分类组合对应的联合概率得到第三概率;基于对应于所述第三概率最大值的所述分类组合对所述第三输入文本进行标注得到所述第四输入文本。
7、可选地,将所述第四输入文本输入脱敏层得到目标输出文本,包括:根据各所述第四输入文本对应的所述敏感数据类别确定对应的处理方式得到多个目标处理方式,所述目标处理方式至少包括掩盖、加密、替换、哈希处理、同态加密和数据存储;根据各所述第四输入文本和所述目标处理方式对所述第一输入文本进行数据处理。
8、可选地,根据所述目标输出文本和基准输出文本计算风险评分,包括:根据所述目标输出文本和所述基准输出文本通过第一公式计算全局召回率:其中,ni为所述基准输出文本中包括直接标识符i的文档数量,不同直接标识符用于标识不同所述敏感数据类别,mi为所述目标输出文本中直接标识符i数量与对应的所述基准输出文本相同的文档数量,recall_all(i)为所述全局召回率;将所述全局召回率确定为第一召回率,所述第一召回率用于表征所述目标模型正确识别对应敏感数据类别的所述敏感数据的概率;根据所述第一召回率通过第二公式计算所述目标输出文本中所述直接标识符的总泄露风险:其中,pleak(di)为所述直接标识符的总泄露风险,rai为recall_all(i)缩写,wi满足其中,n为所述基准输出文本的文档数量;根据所述目标输出文本和所述基准输出文本通过第三公式计算第二召回率:其中,为准标识符c的所述第二召回率,为所述基准输出文本中包括准标识符c的文档数量,为所述目标输出文本中包括所述准标识符c的文档数量;根据所述第二召回率通过第四公式计算所述目标输出文本中各所述准标识符的泄露风险:其中,pc为准标识符c的泄露风险;根据各所述准标识符的泄露风险通过第五公式计算所述目标输出文本中准标识符的总泄露风险:其中,pb为准标识符b的泄露风险,pleak(qi)为所述准标识符的总泄露风险;对攻击行为破解直接标识符和所述准标识符的能力通过三角分布进行拟合得到对应的重标识化系数,根据所述重标识化系数对所述直接标识符的总泄露风险和所述准标识符的总泄露风险进行修正并求平均值得到所述风险评分。
9、根据本技术的另一方面,提供了一种敏感数据的识别和脱敏装置,所述装置包括:第一输入单元,用于将第一输入文本输入预处理层得到第二输入文本,所述预处理层用于对第一输入文本进行分词得到第一分词,并对第一分词以预设词粒度进行切分得到第二输入文本,所述第一输入文本为待进行脱敏的文本数据;第二输入单元,用于将所述第二输入文本输入词表示层得到第三输入文本,所述词表示层用于对所述第二输入文本进行向量化表示得到第三输入文本;第三输入单元,用于将所述第三输入文本输入解码层得到第四输入文本,所述解码层用于计算各所述第三输入文本属于各敏感数据类别的概率,并根据所述概率通过条件随机场进行分类得到第四输入文本;第四输入单元,用于将所述第四输入文本输入脱敏层得到目标输出文本,所述脱敏层用于将所述第四输入文本进行转换为非敏感数据;计算单元,用于根据所述目标输出文本和基准输出文本计算风险评分,所述基准输出文本为对所述第一输入文本中的敏感数据进行标识得到,所述风险评分用于表征所述目标输出文本中携带的所述敏感数据的泄露风险;构建单元,用于在风险评分小于第一阈值的情况下,根据所述预处理层、所述词表示层、所述解码层和所述脱敏层构建目标模型,将所述目标模型集成到sdk得到识别脱敏模块,并通过接口方式嵌入各应用程序,所述识别脱敏模块用于通过接口对应用程序的输出数据进行敏感数据识别和数据脱敏。
10、根据本技术的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。
11、根据本技术的又一方面,提供了一种数据脱敏系统,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的方法。
12、应用本技术的技术方案,在上述敏感数据的识别和脱敏方法中,首先,将第一输入文本输入预处理层得到第二输入文本,上述预处理层用于对第一输入文本进行分词得到第一分词,并对第一分词以预设词粒度进行切分得到第二输入文本,上述第一输入文本为待进行脱敏的文本数据;然后,将上述第二输入文本输入词表示层得到第三输入文本,上述词表示层用于对上述第二输入文本进行向量化表示得到第三输入文本;之后,将上述第三输入文本输入解码层得到第四输入文本,上述解码层用于计算各上述第三输入文本属于各敏感数据类别的概率,并根据上述概率通过条件随机场进行分类得到第四输入文本;之后,将上述第四输入文本输入脱敏层得到目标输出文本,上述脱敏层用于将上述第四输入文本进行转换为非敏感数据;之后,根据上述目标输出文本和基准输出文本计算风险评分,上述基准输出文本为对上述第一输入文本中的敏感数据进行标识得到,上述风险评分用于表征上述目标输出文本中携带的上述敏感数据的泄露风险;最后,在风险评分小于第一阈值的情况下,根据上述预处理层、上述词表示层、上述解码层和上述脱敏层构建目标模型,将上述目标模型集成到sdk得到识别脱敏模块,并通过接口方式嵌入各应用程序,上述识别脱敏模块用于通过接口对应用程序的输出数据进行敏感数据识别和数据脱敏。本技术采用深度学习的实体识别方法方式进行敏感数据的智能识别和脱敏,基于脱敏后的文档重标识化分先对模型性能进行评估,将符合应用需求的目标模型通过sdk嵌入对应应用,缩短开发周期,本技术将基于深度学习的精准脱敏方法集成到sdk部署于应用程序,实现对大规模非结构化数据精准脱敏保护的快速部署。