一种姓名字段脱敏处理方法、系统、装置及存储介质与流程

文档序号:30383288发布日期:2022-06-11 05:26阅读:来源:国知局

技术特征:
1.一种姓名字段脱敏处理方法,其特征在于,包括:获取个人记录信息文本,所述个人记录信息文本包括文字字段和非文字字符;对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字;在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理;将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。2.根据权利要求1所述的一种姓名字段脱敏处理方法,其特征在于,所述对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符,包括:对个人记录信息文本的每个字符按其排列顺位赋予唯一字节编号;采用文字识别技术对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;将提取出的文字字段以及保留的非文字字符与各自赋予的字节编号关联对应。3.根据权利要求2所述的一种姓名字段脱敏处理方法,其特征在于,所述将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本,包括:将做过脱敏处理的文字字段、未做脱敏处理的文字字段以及保留的非文字字符按各自关联对应的字节编号进行顺序组合,形成脱敏个人信息文本。4.根据权利要求1所述的一种姓名字段脱敏处理方法,其特征在于,所述对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字,包括:将文字字段导入预置的姓氏库中进行检索对比,以判定文字字段内是否存在姓氏文字。5.根据权利要求1所述的一种姓名字段脱敏处理方法,其特征在于,所述在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理,包括:在判定文字字段内存在复姓文字时,以复姓的末位文字起,对后续第一个文字做脱敏处理,将其转换为脱敏字符;在判定文字字段内存在单个姓氏文字时,以单个姓氏文字起,对后续第一个文字做脱敏处理,将其转换为脱敏字符。6.根据权利要求1所述的一种姓名字段脱敏处理方法,其特征在于,所述方法还包括:在提取出的文字字段为单个文字时,不对该文字做脱敏处理;在提取出的文字字段包含多个词组时,将该文字字段导入预置的白名单库进行检索对比,以判定文字字段中是否包含有白名单库中的词组,并对包含在白名单库中的词组不做脱敏处理。7.根据权利要求6所述的一种姓名字段脱敏处理方法,其特征在于,所述方法还包括:在同一文字字段内出现两次及以上脱敏处理时,将该文字字段发送至人工干预终端,并接收人工干预终端反馈的白名单词汇;将白名单词汇存入预置的白名单库中。8.一种姓名字段脱敏处理系统,其特征在于,包括获取单元、第一识别单元、第二识别单元、脱敏单元和组合单元,其中:
获取单元,用于获取个人记录信息文本,所述个人记录信息文本包括文字字段和非文字字符;第一识别单元,用于对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;第二识别单元,用于对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字;脱敏单元,用于在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理;组合单元,用于将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。9.一种姓名字段脱敏处理装置,其特征在于,包括:存储器,用于存储指令;处理器,用于读取所述存储器中存储的指令,并根据指令执行权利要求1-7任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1-7任意一项所述的方法。

技术总结
本发明涉及信息处理技术领域,具体涉及一种姓名字段脱敏处理方法、系统、装置及存储介质。本发明通过对个人记录信息文本进行文本识别,提取出其中的文字字段,然后对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字,当判定文字字段内存在姓氏文字时,对姓氏文字后的文字进行相应的脱敏处理,最后将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本,可以有效排除非姓名字段及非文字字符的干扰,实现对个人记录信息中姓名字段的精准脱敏处理,提高脱敏处理后个人记录信息的适用性。用性。用性。


技术研发人员:孙翔宇
受保护的技术使用者:北京盛世信安科技有限公司
技术研发日:2022.03.15
技术公布日:2022/6/10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1