一种姓名字段脱敏处理方法、系统、装置及存储介质与流程

文档序号:30383288发布日期:2022-06-11 05:26阅读:864来源:国知局
一种姓名字段脱敏处理方法、系统、装置及存储介质与流程

1.本发明涉及信息处理技术领域,具体涉及一种姓名字段脱敏处理方法、系统、装置及存储介质。


背景技术:

2.在个人隐私数据的共享交换之中,姓名信息是个人最重要的隐私信息,也是最直观的信息,虽然每个人的姓名可能会与他人重复,但若是再结合其他相关信息,就可以很容易地定位到现实生活中具体的某一个人,所以,对个人姓名信息的隐私保护显得至关重要。一般情况下,对个人姓名信息的隐私保护会采用数据脱敏的方式。
3.数据脱敏,又称为数据漂白、数据去隐私化或数据变形,指对某些敏感信息通过脱敏过程进行数据变形,实现敏感隐私数据的可靠保护,主要方法有算法转换、替代、混洗、数值变换、加密、模糊、截断等。相比于数据加密将一串明文加密成没有任何意义的一串字符,一种好的脱敏方法能尽可能的保留数据价值,同时消除原始数据的一些隐私痕迹,从而达到既能有效的保护数据,又能提高数据利用率的目的,并且,相较于加密算法的“笨重”,数据脱敏要简便许多,所涉及的算法时间复杂度也相对较低,转换速度快。
4.许多人在记录个人信息时,会把区域、姓名、单位和称谓等一种或者多种内容组合成一个比较长的词组,甚至还会在词组里面穿插使用一些隔离性或者标志性的非汉字字符。这种情况下,如果采用现有的数据脱敏处理方式简单的在姓名字段中穿插使用或者集中使用脱敏字符代替汉字,就会出现很多的脱敏字符,甚至不能把姓名部分有效脱敏处理,应用体验较差,如果不能准确地用脱敏字符代替需要脱敏的汉字部分,可能会出现展示出姓名全名的情形,导致个人隐私泄露。


技术实现要素:

5.针对现有技术存在的不足,本发明提供了一种姓名字段脱敏处理方法、系统、装置及存储介质,其应用时,可以有效排除非姓名字段及非文字字符的干扰,实现对个人记录信息中姓名字段的精准脱敏处理,提高脱敏处理后个人记录信息的适用性。
6.第一方面,本发明提供一种姓名字段脱敏处理方法,包括:
7.获取个人记录信息文本,所述个人记录信息文本包括文字字段和非文字字符;
8.对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;
9.对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字;
10.在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理;
11.将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。
12.基于上述技术内容,通过对个人记录信息文本进行文本识别,提取出其中的文字字段,然后对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字,当判定文字
字段内存在姓氏文字时,对姓氏文字后的文字进行相应的脱敏处理,最后将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。其应用时,可以有效排除非姓名字段及非文字字符的干扰,实现对个人记录信息中姓名字段的精准脱敏处理,提高脱敏处理后个人记录信息的适用性。
13.在一个可能的设计中,所述对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符,包括:
14.对个人记录信息文本的每个字符按其排列顺位赋予唯一字节编号;
15.采用文字识别技术对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;
16.将提取出的文字字段以及保留的非文字字符与各自赋予的字节编号关联对应。
17.在一个可能的设计中,所述将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本,包括:
18.将做过脱敏处理的文字字段、未做脱敏处理的文字字段以及保留的非文字字符按各自关联对应的字节编号进行顺序组合,形成脱敏个人信息文本。
19.在一个可能的设计中,所述对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字,包括:将文字字段导入预置的姓氏库中进行检索对比,以判定文字字段内是否存在姓氏文字。
20.在一个可能的设计中,所述在判定文字字段内存在姓氏文字时,以该姓氏的首位文字起,将向后设定顺位数的文字做脱敏处理,包括:
21.在判定文字字段内存在复姓文字时,以复姓的末位文字起,对后续第一个文字做脱敏处理,将其转换为脱敏字符;在判定文字字段内存在单个姓氏文字时,以单个姓氏文字起,对后续第一个文字做脱敏处理,将其转换为脱敏字符。
22.在一个可能的设计中,所述方法还包括:
23.在提取出的文字字段为单个文字时,不对该文字做脱敏处理;
24.在提取出的文字字段包含多个词组时,将该文字字段导入预置的白名单库进行检索对比,以判定文字字段中是否包含有白名单库中的词组,并对包含在白名单库中的词组不做脱敏处理。
25.在一个可能的设计中,所述方法还包括:
26.在同一文字字段内出现两次及以上脱敏处理时,将该文字字段发送至人工干预终端,并接收人工干预终端反馈的白名单词汇;
27.将白名单词汇存入预置的白名单库中。
28.第二方面,本发明提供一种姓名字段脱敏处理系统,包括获取单元、第一识别单元、第二识别单元、脱敏单元和组合单元,其中:
29.获取单元,用于获取个人记录信息文本,所述个人记录信息文本包括文字字段和非文字字符;
30.第一识别单元,用于对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;
31.第二识别单元,用于对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字;
32.脱敏单元,用于在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理;
33.组合单元,用于将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。
34.第三方面,本发明提供另一种姓名字段脱敏处理装置,所述装置包括:
35.存储器,用于存储指令;
36.处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第一方面中任意一种所述的方法。
37.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行上述第一方面中任意一种所述的方法。
38.第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行上述第一方面中任意一种所述的方法。
39.本发明的有益效果为:
40.本发明通过对个人记录信息文本进行文本识别,提取出其中的文字字段,然后对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字,当判定文字字段内存在姓氏文字时,对姓氏文字后的文字进行相应的脱敏处理,最后将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本,可以有效排除非姓名字段及非文字字符的干扰,实现对个人记录信息中姓名字段的精准脱敏处理,提高脱敏处理后个人记录信息的适用性。通过构建相应的姓氏库和白名单库可以提高对姓氏文字和白名单词汇判定的有效性和全面性,进而辅助完成快速精准的姓名字段脱敏处理。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1为本发明的方法步骤示意图;
43.图2为本发明的系统结构示意图;
44.图3为本发明的装置构成示意图。
具体实施方式
45.下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
46.应当理解,术语第一、第二等仅用于区分描述,而不能理解为指示或暗示相对重要性。尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语
的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
47.在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实施例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
48.实施例1:
49.本实施例提供一种姓名字段脱敏处理方法,如图1所示,包括以下步骤:
50.s101.获取个人记录信息文本,所述个人记录信息文本包括文字字段和非文字字符。
51.具体实施时,所述个人记录信息文本可来源于手机通讯录备注信息、第三方聊天软件备注信息以及电子文档等。所述个人记录信息文本可包含名称、职业、地区、单位以及非文字字符等。
52.s102.对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符。
53.具体实施时,可采用相应的文字识别方法对个人记录信息文本进行文本识别,如ocr方法、crnn+ctc方法、seq2seq+attention方法以及ace方法等,以获取个人记录信息文本中的文字字段。获取的文字字段可能有多个,即各非文字字符可能穿插在各文字字段之间,各文字字段可能为名称、职业、地区、单位等的文字字段。非文字字符可保留,用于后续组合成脱敏后的个人信息文本。
54.对个人记录信息文本的每个字符可按其排列顺位赋予唯一字节编号;然后采用文字识别技术对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;再将提取出的文字字段以及保留的非文字字符与各自赋予的字节编号关联对应。以便后续根据各字符对应的唯一字节编号进行重组。
55.s103.对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字。
56.具体实施时,可预先建立相应的姓氏库,在姓氏库中存档所有姓氏,包括单姓和复姓,单姓如“赵”“钱”“孙”“李”等,复姓如“欧阳”“上官”“司马”“南宫”等,通过将各文字字段导入预置的姓氏库中进行检索对比,就以快速判定各文字字段内是否存在姓氏文字。
57.s104.在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理。
58.具体实施时,在判定文字字段内存在复姓文字时,可以复姓文字的末位文字起,对后续第一个文字做脱敏处理,将其转换为脱敏字符,如“欧阳三四”,以“阳”字为末位字,将“阳”字后第一个文字“三”做脱敏处理转,换为“*”,脱敏处理后即为“欧阳*四”。在判定文字字段内存在单个姓氏文字时,以单个姓氏文字起,对后续第一个文字做脱敏处理,将其转换为脱敏字符,如“赵五六”,以“赵”字起,将“赵”字后第一个文字“五”做脱敏处理转,换为“*”,脱敏处理后即为“赵*六”。
59.当提取出的文字字段为单个文字时,该文字明显无法表征完整的姓名,因此,可不对该文字做脱敏处理。
60.当提取出的文字字段包含多个词组时,其中可能有名称、职业、地区、单位等多个
词组,可将该文字字段导入预先建立的白名单库进行检索对比,以判定文字字段中是否包含有白名单库中的词组,白名单库中的词组可以为除开姓名词组外的职业、地区、称谓等词组,这些词组不需要做脱敏处理,因此,对包含在白名单库中的词组不做脱敏处理。
61.当同一文字字段内出现两次及以上脱敏处理时,表明可能将非姓名部分的文字也进行了误脱敏处理,此时可介入相应的人工干预,即将该文字字段发送至人工干预终端,由人工干预终端的人员进行词汇判断,判定其中是否有非姓名词组被脱敏处理了,如果有,可以将该词组列为白名单词汇通过人工干预终端进行反馈,而反馈的白名单词汇可录入白名单库中以便后续进行精准的对比筛查,解决误脱敏处理问题。
62.s105.将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。
63.具体实施时,将做过脱敏处理的文字字段、未做脱敏处理的文字字段以及保留的非文字字符按各自关联对应的字节编号进行顺序组合,形成脱敏个人信息文本。做过脱敏处理的文字将其转换后的脱敏字符与未脱敏前文字所对应的字节编号进行关联对应,使脱敏字符继承原来文字的字节编号,即可顺利完成各文字字段与非文字字符还原重组,得到脱敏个人信息文本。这样就可以有效排除非姓名字段及非文字字符的干扰,实现对个人记录信息中姓名字段的精准脱敏处理,提高脱敏处理后个人记录信息的适用性。
64.实施例2:
65.本实施例提供一种姓名字段脱敏处理系统,如图2所示,系统包括获取单元、第一识别单元、第二识别单元、脱敏单元和组合单元,其中:
66.获取单元,用于获取个人记录信息文本,所述个人记录信息文本包括文字字段和非文字字符;
67.第一识别单元,用于对个人记录信息文本进行文本识别,提取出其中的文字字段,保留非文字字符;
68.第二识别单元,用于对各文字字段进行姓氏识别,判定各文字字段内是否存在姓氏文字;
69.脱敏单元,用于在判定文字字段内存在姓氏文字时,以该姓氏的末位文字起,将向后设定顺位数的文字做脱敏处理;
70.组合单元,用于将做过脱敏处理以及未做脱敏处理的各文字字段与保留的非文字字符进行还原组合,形成脱敏个人信息文本。
71.更进一步地,所述系统还包括收发单元,所述收发单元用于在同一文字字段内出现两次及以上脱敏处理时,将该文字字段发送至人工干预终端,并接收人工干预终端反馈的白名单词汇,然后将白名单词汇存入预置的白名单库中。
72.实施例3:
73.本实施例提供一种姓名字段脱敏处理装置,如图3所示,在硬件层面,包括:
74.存储器,用于存储指令;
75.处理器,用于读取所述存储器中存储的指令,并根据指令执行实施例1中的姓名字段脱敏处理方法。
76.可选地,该装置还包括内部总线和通讯接口。处理器、存储器和通讯接口可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准
体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
77.所述存储器可以但不限于包括随机存取存储器(random access memory,ram)、只读存储器(read only memory,rom)、闪存(flash memory)、先进先出存储器(first input first output,fifo)和/或先进后出存储器(first in last out,filo)等。所述处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
78.实施例4:
79.本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行实施例1中的姓名字段脱敏处理方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(memory stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。
80.实施例5:
81.本实施例提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行实施例1中的姓名字段脱敏处理方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。
82.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1