数据处理方法、装置、电子设备和计算机可读存储介质与流程

文档序号:32805397发布日期:2023-01-04 00:46阅读:44来源:国知局
数据处理方法、装置、电子设备和计算机可读存储介质与流程

1.本公开涉及计算机与互联网技术领域,尤其涉及一种数据处理方法及装置、电子设备和计算机可读存储介质。


背景技术:

2.在互联网技术领域中,通常会对文本中是否存在敏感数据(如用户名、密码等)进行检测。
3.但是,在敏感数据识别的工作中,现有技术一般采用基于规则的方法,该方法的识别效果不理想,过于依赖人工,代价较大。
4.该基于规则的敏感数据检测方法主要依赖特征模板,该模板是专家根据上下文人工分析归纳总结的。此类方法一般采用正向匹配算法在词典中查找类似敏感数据。该方法缺点显而易见:
5.1.过于依赖人工,效果不明显,且需要人工参与反复测试调整,整个过程代价较大。
6.2.文本中的敏感词样式变化复杂,对于特殊符号等构成的敏感词无法准确识别。
7.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。


技术实现要素:

8.本公开的目的在于提供一种数据处理方法、装置、电子设备以及计算机可读存储介质,能够快速且准确的确定待检测文本中是否存在敏感词。
9.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
10.本公开实施例提供了一种数据处理方法,包括:对待检测文本进行分词得到待检测词;对所述待检测词进行特征提取处理,以确定所述待检测词的敏感特性和信息熵,所述敏感特性用于描述所述待检测词的敏感特性;通过训练完成的敏感数据检测模型对所述待检测词的敏感特性和信息熵进行处理,所述敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布;根据所述敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定所述待检测词是敏感词的打分值;在所述待检测词是敏感词的打分值在目标阈值范围内的情况下,确定所述待检测文本中的所述待检测词是敏感词。
11.在一些实施例中,所述待检测词的敏感特性包括:大写字符特征、小写字符特征、数字字符特征、特殊字符特征或中文字符特征中的一个或者多个。
12.在一些实施例中,确定所述待检测词的大写字符特征或者小写字符特征或者数字字符特征或者特殊字符特征或者中文字符特征,包括:确定所述待检测词中大写字符的出现次数;根据所述待检测词的词语长度和所述大写字符的出现次数确定所述待检测词的大写字符频率,并将所述待检测词的大写字符频率作为所述待检测词的大写字符特征;或者,
确定所述待检测词中小写字符的出现次数;根据所述待检测词的词语长度和所述小写字符的出现次数确定所述待检测词的小写字符频率,并将所述待检测词的小写字符频率作为所述待检测词的小写字符特征;或者,确定所述待检测词中数字字符的出现次数;根据所述待检测词的词语长度和所述数字字符的出现次数确定所述待检测词的数字字符频率,并将所述待检测词的数字字符频率作为所述待检测词的数字字符特征;或者,确定所述待检测词中特殊字符的出现次数;根据所述待检测词的词语长度和所述特殊字符的出现次数确定所述待检测词的特殊字符频率,并将所述待检测词的特殊字符频率作为所述待检测词的特殊字符特征;或者,确定所述待检测词中中文字符的出现次数;根据所述待检测词的词语长度和所述中文字符的出现次数确定所述待检测词的中文字符频率,并将所述待检测词的中文字符频率作为所述待检测词的中文字符特征。
13.在一些实施例中,确定所述待检测词的大写字符特征或者小写字符特征或者数字字符特征或者特殊字符特征或者中文字符特征中,包括:确定所述待检测词中大写字符的出现次数;确定所述待检测文本中大写字符的出现次数;根据所述待检测词中大写字符的出现次数和所述待检测文本中大写字符的出现次数,确定所述待检测词的大写字符正字符频率,以便根据所述待检测词的大写字符正字符频率确定所述待检测词的大写字符特征;或者,确定所述待检测词中小写字符的出现次数;确定所述待检测文本中小写字符的出现次数;根据所述待检测词中小写字符的出现次数和所述待检测文本中小写字符的出现次数,确定所述待检测词的小写字符正字符频率,以便根据所述待检测词的小写字符正字符频率确定所述待检测词的小写字符特征;或者,确定所述待检测词中数字字符的出现次数;确定所述待检测文本中数字字符的出现次数;根据所述待检测词中数字字符的出现次数和所述待检测文本中数字字符的出现次数,确定所述待检测词的数字字符正字符频率,以便根据所述待检测词的数字字符正字符频率确定所述待检测词的数字字符特征;或者,确定所述待检测词中特殊字符的出现次数;确定所述待检测文本中特殊字符的出现次数;根据所述待检测词中特殊字符的出现次数和所述待检测文本中特殊字符的出现次数,确定所述待检测词的特殊字符正字符频率,以便根据所述待检测词的特殊字符正字符频率确定所述待检测词的特殊字符特征;或者,确定所述待检测词中中文字符的出现次数;确定所述待检测文本中中文字符的出现次数;根据所述待检测词中中文字符的出现次数和所述待检测文本中中文字符的出现次数,确定所述待检测词的中文字符正字符频率,以便根据所述待检测词的中文字符正字符频率确定所述待检测词的中文字符特征。
14.在一些实施例中,根据所述待检测词的大写字符正字符频率确定所述待检测词的大写字符特征,包括:确定所述待检测文本中待检测词的数量;确定所述待检测文本中大写字符的出现次数;根据所述待检测文本中待检测词的数量和所述待检测文本中大写字符的出现次数,确定所述待检测词的大写字符反字符频率,以便根据所述待检测词的大写字符正字符频率和所述大写字符反字符频率确定所述待检测词的大写字符特征;或者,根据所述待检测词的小写字符正字符频率确定所述待检测词的小写字符特征,包括:确定所述待检测文本中待检测词的数量;确定所述待检测文本中小写字符的出现次数;根据所述待检测文本中待检测词的数量和所述待检测文本中小写字符的出现次数,确定所述待检测词的小写字符反字符频率,以便根据所述待检测词的小写字符正字符频率和所述小写字符反字符频率确定所述待检测词的小写字符特征;或者,根据所述待检测词的数字字符正字符频
率确定所述待检测词的数字字符特征,包括:确定所述待检测文本中待检测词的数量;确定所述待检测文本中数字字符的出现次数;根据所述待检测文本中待检测词的数量和所述待检测文本中数字字符的出现次数,确定所述待检测词的数字字符反字符频率,以便根据所述待检测词的数字字符正字符频率和所述数字字符反字符频率确定所述待检测词的数字字符特征;或者,根据所述待检测词的特殊字符正字符频率确定所述待检测词的特殊字符特征,包括:确定所述待检测文本中待检测词的数量;确定所述待检测文本中特殊字符的出现次数;根据所述待检测文本中待检测词的数量和所述待检测文本中特殊字符的出现次数,确定所述待检测词的特殊字符反字符频率,以便根据所述待检测词的特殊字符正字符频率和所述特殊字符反字符频率确定所述待检测词的特殊字符特征;或者,根据所述待检测词的中文字符正字符频率确定所述待检测词的中文字符特征,包括:确定所述待检测文本中待检测词的数量;确定所述待检测文本中中文字符的出现次数;根据所述待检测文本中待检测词的数量和所述待检测文本中中文字符的出现次数,确定所述待检测词的中文字符反字符频率,以便根据所述待检测词的中文字符正字符频率和所述中文字符反字符频率确定所述待检测词的中文字符特征。
15.在一些实施例中,所述方法还包括:获取目标匹配规则;根据所述目标匹配规则确定所述待检测文本中存在目标字段且所述待检测文本中存在敏感词,则确定所述待检测文本是目标敏感文本。
16.在一些实施例中,所述方法还包括:获取多个训练文本,所述训练文本包括敏感词;对所述多个训练文本进行分词得到训练词;确定所述训练词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征中的一个或者多个;根据所述训练词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征中的一个或者多个对所述敏感数据检测模型进行无监督训练,以确定所述敏感词的所述状态转移矩阵、所述输出概率分布和所述初始概率分布,以使得在所述状态转移矩阵、所述输出概率分布和所述初始概率分布下,出现所述训练词的概率最高。
17.本公开实施例提供了一种数据处理装置,包括:分词模块、特征提取模块、特征处理模块、打分值确定模块、敏感词确定模块。
18.其中,所述分词模块用于对待检测文本进行分词得到待检测词;所述特征提取模块可以用于对所述待检测词进行特征提取处理,以确定所述待检测词的敏感特性和信息熵,所述敏感特性用于描述所述待检测词的敏感特性;所述特征处理模块可以用于通过训练完成的敏感数据检测模型对所述待检测词的敏感特性和信息熵进行处理,所述敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布;所述打分值确定模块可以用于根据所述敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定所述待检测词是敏感词的打分值;所述敏感词确定模块可以用于在所述待检测词是敏感词的打分值在目标阈值范围内的情况下,确定所述待检测文本中的所述待检测词是敏感词。
19.本公开实施例提出一种电子设备,该电子设备包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器调用所述存储器存储的所述程序指令,用于实现上述任一项所述的数据处理方法。
20.本公开实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述程序
被处理器执行时实现如上述任一项所述的数据处理方法。
21.本公开实施例提出一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。
22.本公开实施例提供的数据处理方法、装置及电子设备和计算机可读存储介质,可以通过对待检测文本进行分词,然后对分词后的待检测词进行敏感特征和信息熵的提取,最后通过训练完成的敏感数据检测模型的状态转移矩阵和输出概率分布和初始概率分布等对待检测词的敏感特征和信息熵进行处理,以确定待检测词是否是是敏感词。上述方法,通过训练完成的状态转移矩阵、输出概率分布和初始概率分布对待检测词的敏感特征进行处理,准确且高效的确定了待检测词是否是敏感词。
23.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1示出了可以应用于本公开实施例的数据处理方法或数据处理装置的示例性系统架构的示意图。
26.图2是根据一示例性实施例示出的一种数据处理方法的流程图。
27.图3是根据一示例性实施例示出的一种数据处理方法的流程图。
28.图4是根据一示例性实施例示出的一种数据处理方法的流程图。
29.图5是根据一示例性实施例示出的一种敏感数据检测模型的训练方法的流程图。
30.图6是根据一示例性实施例示出的一种数据处理方法的结构示意图。
31.图7是根据一示例性实施例示出的一种数据处理装置的框图。
32.图8示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
33.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
34.本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
35.附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
36.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
37.在本技术的描述中,除非另有说明,“/”表示“或”的意思,例如,a/b可以表示a或b。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
38.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
39.下面结合附图对本公开示例实施方式进行详细说明。
40.图1示出了可以应用于本公开实施例的数据处理方法或数据处理装置的示例性系统架构的示意图。
41.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
42.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
43.服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
44.服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等,本公开对此不做限制。
45.服务器105可例如对待检测文本进行分词得到待检测词;服务器105可例如对待检测词进行特征提取处理,以确定待检测词的敏感特性和信息熵,敏感特性用于描述待检测词的敏感特性;服务器105可例如通过训练完成的敏感数据检测模型对待检测词的敏感特性和信息熵进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初
始概率分布;服务器105可例如根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定待检测词是敏感词的打分值;服务器105可例如在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。
46.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
47.图2是根据一示例性实施例示出的一种数据处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行,例如该方法可以由上述图1实施例中的服务器或终端设备来执行,也可以由服务器和终端设备共同执行,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
48.参照图2,本公开实施例提供的数据处理方法可以包括以下步骤。
49.步骤s202,对待检测文本进行分词得到待检测词。
50.上述待检测文本可以是任意一种文本,该文本可以包括多个词。在本技术中,可以将对待检测文本进行分词后获得的词称之为待检测词。
51.在一些实施例中,上述待检测文本可能会包括敏感词,该敏感词可以例如是账户名、密码等格式或者特性未知的信息,例如有的账户名需要有数字、特殊字符、中文等,例如有的密码需要大写字符、小写字符、数字字符等组成。
52.一般来说,在敏感词检测的实际业务场景中,可能事先并不知道敏感词的具体信息,例如在用户名和密码的检测场景中可能无法事先知道用户名和密码的具体形式。
53.步骤s204,对待检测词进行特征提取处理,以确定待检测词的敏感特性和信息熵,敏感特性用于描述待检测词的敏感特性。
54.在一些实施例中,对待检测词进行特征提取可以指的是对待检测词进行敏感特性分析,以确定待检测词中的敏感特征。例如,敏感词中可能会包括大写字符、小写字符、数字字符、中文字符、特殊字符(如“@”、“%”、“#”等罗马字符、拉丁字符或者希腊字符或者其它符号等,本公开对此不做限制)、加减号字符等,那么可以对待检测词进行分析,以确定待检测词中大写字符、小写字符、数字字符、中文字符、特殊字符、加减号字符等的特性,以判断待检测字符的敏感特性。
55.步骤s206,通过训练完成的敏感数据检测模型对待检测词的敏感特性和信息熵进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布。
56.在一些实施例中,上述敏感数据检测模型可以是隐马尔可夫模型(hidden markov model,hmm)。
57.在一些实施例中,可以通过事先已知的包括敏感词的文本对敏感数据检测模型进行训练,以获得能够描述敏感词的状态转移矩阵、输出概率分布和初始概率分布。
58.在上述训练完成的敏感数据检测模型中的状态转移矩阵、输出概率分布和初始概率分布下,出现训练文本中的训练词的概率最高。
59.训练完成的敏感数据检测模型相当于一个白名单库,可以集合所有敏感词的特性信息,通过敏感数据检测模型的检测,可以确定待检测词是否满足敏感词的白名单特征,以确定该待检测词是否是敏感词。
60.步骤s208,根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分
布,确定待检测词是敏感词的打分值。
61.步骤s210,在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。
62.上述实施例提出的数据处理方法,一方面在确定待检测文本中是否存在敏感词的过程中,无需人工制定模板,提高了检测效率;另一方面,通过训练完成的状态转移矩阵、输出概率分布和初始概率分布对待检测词的敏感特征(大写字符、小写字符、数字字符、中文字符、特殊字符、加减号字符等特性)进行处理,准确且高效的确定了待检测词是否是敏感词。
63.图3是根据一示例性实施例示出的一种数据处理方法的流程图。
64.参考图3,上述数据处理方法可以包括以下步骤。
65.步骤s302,对待检测文本进行分词得到待检测词。
66.步骤s304,对待检测词进行特征提取处理,以确定待检测词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征或中文字符特征中的一个或者多个。
67.步骤s306,通过训练完成的敏感数据检测模型对待检测词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征或中文字符特征中的一个或者多个进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布。
68.在一些实施例中,可以通过公式(1)计算待检测词ri的信息熵
[0069][0070]
其中,为概率质量函数,表示在词语ri中,字符r
ij
的出现概率,其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,字符r
ij
代表待检测词ri中的第j种字符,i和j为大于或者等于1的整数。
[0071]
在一些实施例中,上述大写字符特征可以包括大写字符出现的频率、大写字符出现的次数、大写字符正字符频率和大写字符返字符频率、大写字符出现的位置信息等任意一种或者多种能够对待检测词中大写字符的特性进行描述的特征。
[0072]
在一些实施例中,上述小写字符特征可以包括小写字符出现的频率、小写字符出现的次数、小写字符正字符频率和小写字符返字符频率、小写字符出现的位置信息等任意一种或者多种能够对待检测词中小写字符的特性进行描述的特征。
[0073]
在一些实施例中,上述数字字符特征可以包括数字字符出现的频率、数字字符出现的次数、数字字符正字符频率和数字字符返字符频率、数字字符出现的位置信息等任意一种或者多种能够对待检测词中数字字符的特性进行描述的特征。
[0074]
在一些实施例中,上述中文字符特征可以包括中文字符出现的频率、中文字符出现的次数、中文字符正字符频率和中文字符返字符频率、中文字符出现的位置信息等任意一种或者多种能够对待检测词中中文字符的特性进行描述的特征。
[0075]
在一些实施例中,上述特殊字符特征可以包括特殊字符出现的频率、特殊字符出现的次数、特殊字符正字符频率和特殊字符返字符频率、特殊字符出现的位置信息等任意一种或者多种能够对待检测词中特殊字符的特性进行描述的特征。
[0076]
步骤s308,根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定待检测词是敏感词的打分值。
[0077]
步骤s310,在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。
[0078]
在一些实施例中,可以通过以下方法确定大写字符特征:确定待检测词中大写字符的出现次数;根据待检测词的词语长度和大写字符的出现次数确定待检测词的大写字符频率,并将待检测词的大写字符频率作为待检测词的大写字符特征。
[0079]
在一些实施例中,可以根据公式(2)确定大写字符频率。
[0080][0081]
其中,表示在词语ri中的大写字符频率,表示在词语ri中所有大写字母j的出现次数,len(ri)表示词语ri的长度。其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0082]
在一些实施例中,还可以通过以下方法确定大写字符特征:确定待检测词中大写字符的出现次数;确定待检测文本中大写字符的出现次数;根据待检测词中大写字符的出现次数和待检测文本中大写字符的出现次数,确定待检测词的大写字符正字符频率,以便根据待检测词的大写字符正字符频率确定待检测词的大写字符特征。
[0083]
在一些实施例种,可以通过公式(3)确定大写字符正字符频率
[0084][0085]
其中,表示在词语ri中所有大写字母j的出现频率,表示大写字母j在文本中的总次数;其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0086]
在一些实施例中,还可以通过以下方法确定大写字符特征:确定待检测文本中待检测词的数量;确定待检测文本中大写字符的出现次数;根据待检测文本中待检测词的数量和待检测文本中大写字符的出现次数,确定待检测词的大写字符反字符频率。
[0087]
在一些实施例中,可以根据公式(4)确定大写字符反字符频率
[0088][0089]
其中,|r|表示文本中词语数量,|j:r
ij
∈df
tr
|表示r
ij
∈df
tr
出现次数,现实场景中,存在r
ij
在df
tr
不存在的场景,为防止分母为零,导致式子无意义,加1。其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0090]
在一些实施例中,还可以在上述大写字符频率、大写字符正字符频率和大写字符反字符频率中任选一个或者多个生成大写字符特征。例如可以将大写字符正字符频率和大写字符反字符频率作为大写字符特征,本技术对此不做限制。
[0091]
在一些实施例中,可以通过以下方法确定小写字符特征:确定待检测词中小写字符的出现次数;根据待检测词的词语长度和小写字符的出现次数确定待检测词的小写字符频率,并将待检测词的小写字符频率作为待检测词的小写字符特征。
[0092]
在一些实施例中,可以根据公式(5)确定小写字符频率。
[0093][0094]
其中,表示在词语ri中小写字母的出现频率,表示在词语ri中所有小写字母j的出现次数,len(ri)表示词语ri的长度。其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0095]
在一些实施例中,还可以通过以下方法确定小写字符特征:确定待检测词中小写字符的出现次数;确定待检测文本中小写字符的出现次数;根据待检测词中小写字符的出现次数和待检测文本中小写字符的出现次数,确定待检测词的小写字符正字符频率,以便根据待检测词的小写字符正字符频率确定待检测词的小写字符特征。
[0096]
在一些实施例中,可以参考大写字符正字符频率的确定方法确定小写字符正字符频率,申请不再赘述。
[0097]
在一些实施例中,还可以通过以下方法确定小写字符特征:确定待检测文本中待检测词的数量;确定待检测文本中小写字符的出现次数;根据待检测文本中待检测词的数量和待检测文本中小写字符的出现次数,确定待检测词的小写字符反字符频率。
[0098]
在一些实施例中,可以参考大写字符反字符频率的确定方法确定小写字符反字符频率,申请不再赘述。
[0099]
在一些实施例中,还可以在上述小写字符频率、小写字符正字符频率和小写字符反字符频率中任选一个或者多个生成小写字符特征。例如可以将小写字符正字符频率和小写字符反字符频率作为小写字符特征,本技术对此不做限制。
[0100]
在一些实施例中,可以通过以下方法确定数字字符特征:确定待检测词中数字字符的出现次数;根据待检测词的词语长度和数字字符的出现次数确定待检测词的数字字符频率,并将待检测词的数字字符频率作为待检测词的数字字符特征。
[0101]
敏感数据检测系统对分词集合df
tr
中的每一个词语ri∈df
tr
,计算数字字符出现的频率,如下公式:
[0102][0103]
其中,表示在词语ri中数字字符的出现频率,表示在词语ri中所有数字字符j的出现次数,len(ri)表示词语ri的长度。其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0104]
在一些实施例中,还可以通过以下方法确定数字字符特征:确定待检测词中数字字符的出现次数;确定待检测文本中数字字符的出现次数;根据待检测词中数字字符的出现次数和待检测文本中数字字符的出现次数,确定待检测词的数字字符正字符频率,以便根据待检测词的数字字符正字符频率确定待检测词的数字字符特征。
[0105]
在一些实施例中,可以参考大写字符正字符频率的确定方法确定数字字符正字符频率,申请不再赘述。
[0106]
在一些实施例中,还可以通过以下方法确定数字字符特征:确定待检测文本中待检测词的数量;确定待检测文本中数字字符的出现次数;根据待检测文本中待检测词的数
量和待检测文本中数字字符的出现次数,确定待检测词的数字字符反字符频率。
[0107]
在一些实施例中,可以参考大写字符反字符频率的确定方法确定数字字符反字符频率,申请不再赘述。
[0108]
在一些实施例中,还可以在上述数字字符频率、数字字符正字符频率和数字字符反字符频率中任选一个或者多个生成数字字符特征。例如可以将数字字符正字符频率和数字字符反字符频率作为数字字符特征,本技术对此不做限制。
[0109]
在一些实施例中,可以通过以下方法确定中文字符特征:确定待检测词中中文字符的出现次数;根据待检测词的词语长度和中文字符的出现次数确定待检测词的中文字符频率,并将待检测词的中文字符频率作为待检测词的中文字符特征。
[0110]
在一些实施例中,可以通过公式(7)确定中文字符频率。
[0111][0112]
其中,表示在词语ri中所有中文字符出现频率,表示在词语ri中中文字符出现j的次数,len(ri)表示词语ri的长度。其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0113]
在一些实施例中,还可以通过以下方法确定中文字符特征:确定待检测词中中文字符的出现次数;确定待检测文本中中文字符的出现次数;根据待检测词中中文字符的出现次数和待检测文本中中文字符的出现次数,确定待检测词的中文字符正字符频率,以便根据待检测词的中文字符正字符频率确定待检测词的中文字符特征。
[0114]
在一些实施例中,可以参考大写字符正字符频率的确定方法确定中文字符正字符频率,申请不再赘述。
[0115]
在一些实施例中,还可以通过以下方法确定中文字符特征:确定待检测文本中待检测词的数量;确定待检测文本中中文字符的出现次数;根据待检测文本中待检测词的数量和待检测文本中中文字符的出现次数,确定待检测词的中文字符反字符频率。
[0116]
在一些实施例中,可以参考大写字符反字符频率的确定方法确定中文字符反字符频率,申请不再赘述。
[0117]
在一些实施例中,还可以在上述中文字符频率、中文字符正字符频率和中文字符反字符频率中任选一个或者多个生成中文字符特征。例如可以将中文字符正字符频率和中文字符反字符频率作为中文字符特征,本技术对此不做限制。
[0118]
在一些实施例中,可以通过以下方法确定特殊字符特征:确定待检测词中特殊字符的出现次数;根据待检测词的词语长度和特殊字符的出现次数确定待检测词的特殊字符频率,并将待检测词的特殊字符频率作为待检测词的特殊字符特征。
[0119][0120]
其中,表示在词语ri中特殊字符的出现频率,表示在词语ri中所有特殊字符j的出现次数,len(ri)表示词语ri的长度。其中词语ri∈df
tr
,df
tr
为待检测词集合。其中,待检测词ri代表集合df
tr
中的第i个词,i为大于或者等于1的整数。
[0121]
在一些实施例中,还可以通过以下方法确定特殊字符特征:确定待检测词中特殊
字符的出现次数;确定待检测文本中特殊字符的出现次数;根据待检测词中特殊字符的出现次数和待检测文本中特殊字符的出现次数,确定待检测词的特殊字符正字符频率,以便根据待检测词的特殊字符正字符频率确定待检测词的特殊字符特征。
[0122]
在一些实施例中,可以参考大写字符正字符频率的确定方法确定特殊字符正字符频率,申请不再赘述。
[0123]
在一些实施例中,还可以通过以下方法确定特殊字符特征:确定待检测文本中待检测词的数量;确定待检测文本中特殊字符的出现次数;根据待检测文本中待检测词的数量和待检测文本中特殊字符的出现次数,确定待检测词的特殊字符反字符频率。
[0124]
在一些实施例中,可以参考大写字符反字符频率的确定方法确定特殊字符反字符频率,申请不再赘述。
[0125]
在一些实施例中,还可以在上述特殊字符频率、特殊字符正字符频率和特殊字符反字符频率中任选一个或者多个生成特殊字符特征。例如可以将特殊字符正字符频率和特殊字符反字符频率作为特殊字符特征,本技术对此不做限制。
[0126]
图4是根据一示例性实施例示出的一种数据处理方法的流程图。
[0127]
参考图4,上述数据处理方法可以包括以下步骤。
[0128]
步骤s402,对待检测文本进行分词得到待检测词;
[0129]
步骤s404,对待检测词进行特征提取处理,以确定待检测词的敏感特性和信息熵,敏感特性用于描述待检测词的敏感特性。
[0130]
步骤s406,通过训练完成的敏感数据检测模型对待检测词的敏感特性和信息熵进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布。
[0131]
步骤s408,根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定待检测词是敏感词的打分值。
[0132]
步骤s410,在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。
[0133]
在实际应用场景中,可能不仅需要确定待检测文本中是否存在敏感词,还需要确定待检测文本中的敏感词是否是特定内容对应的敏感词,例如不仅需要确定待检测文本中是否存在账户和密码(敏感词),还需要确定该待检测文本中的账户和密码是否是某个特定商家的或者是某个特定软件的。
[0134]
那么可以通过步骤s412~步骤s414确定待检测文本中的敏感词是否满足特定的条件。
[0135]
步骤s412,获取目标匹配规则。
[0136]
在一些实施例中,可以事先根据实际应用场景,制定目标匹配规则,以确定特定条件,例如该目标匹配规则可以是“待检测文本中包括

xx’商标号”、“待检测文本中包括

xx’订单号”等,本公开对目标匹配规则中的具体内容不做限制,本领域技术人员可以根据实际需求进行设置。
[0137]
步骤s414,根据目标匹配规则确定待检测文本中存在目标字段且待检测文本中存在敏感词,则确定待检测文本是目标敏感文本。
[0138]
在一些实施例中,当根据目标匹配规则确定待检测文本满足特定条件的时候,就可以确定包括敏感词的待检测文本就是目标敏感文本,可以进行后续操作。
[0139]
图5是根据一示例性实施例示出的一种敏感数据检测模型的训练方法的流程图。
[0140]
参考图5,上述敏感数据检测模型的训练方法可以包括以下步骤。
[0141]
步骤s502,获取多个训练文本,训练文本包括敏感词。
[0142]
步骤s504,对多个训练文本进行分词得到训练词。
[0143]
步骤s506,训练词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征中的一个或者多个。
[0144]
在一些实施例中,可以参考待检测词的大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征和信息熵的确定方法来确定训练词的大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征和信息熵,本技术对此不做限制。
[0145]
步骤s508,根据训练词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征中的一个或者多个对敏感数据检测模型进行无监督训练,以确定敏感词的状态转移矩阵、输出概率分布和初始概率分布,以使得在状态转移矩阵、输出概率分布和初始概率分布下,出现训练词的概率最高。
[0146]
在一些实施例中,上述敏感数据检测模型可以是隐马尔可夫模型。
[0147]
在一些实施例中,可以将训练词中大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征和信息熵作为隐马尔可夫模型的输入,以使得在状态转移矩阵、输出概率分布和初始概率分布下,出现训练词的概率最高。
[0148]
通过上述实施例训练获得的敏感数据检测模型,一方面融合了所有敏感词的敏感特征,相当于为敏感词训练了一白名单,凡是满足该白名单的均是敏感词,提高了敏感词的检测效率;另一方面,敏感数据检测模型融合了训练文本中的敏感词的大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征和信息熵,使得在使用敏感数据检测模型进行敏感数据检测时考虑的特征维度足够丰富,进而提高了检测结果的准确度。
[0149]
图6是根据一示例性实施例示出的一种数据处理方法的结构示意图。
[0150]
参考图6,上述数据处理方法的结构示意图可以包括以下步骤。
[0151]
s601,获取存在敏感信息的原始数据。
[0152]
s602,获取需要检测的文本数据。
[0153]
在一些实施例中,敏感数据检测系统可以获取存在敏感信息(如敏感词)的原始数据和用户需要检测的数据集,进行数据预处理,得到检测模型所需要的数据集;具体包括:
[0154]
(1)敏感数据检测系统通过读数据库方式获取包含用户名密码(一种敏感词)等敏感信息的原始数据;
[0155]
(2)敏感数据检测系统使用数据清洗的方法去除无用信息,得到完整的文本数据集,记为训练集d
tr

[0156]
(3)敏感数据检测系统通过获取用户需要检测的文本数据,通过数据清洗去除无用信息,得到完整的测试文本,记为d
te

[0157]
训练过程。
[0158]
在一些实施例中,敏感数据检测系统可以通过python技术针对训练集中的数据执行步骤s603,特征提取;具体可以包括以下步骤:
[0159]
(1)敏感数据检测系统对训练集d
tr
数据分词,得到训练集分词集合df
tr

[0160]
(2)敏感数据检测系统可以对分词集合df
tr
中的每一个词语ri∈df
tr
,计算大写字
符出现的频率,如公式(2)。
[0161]
(3)敏感数据检测系统可以对分词集合df
tr
中的每一个词语ri∈df
tr
,计算小写字符出现的频率,如下公式(5)。
[0162]
(4)敏感数据检测系统对分词集合df
tr
中的每一个词语ri∈df
tr
,计算数字字符出现的频率,如公式(6)。
[0163]
(5)敏感数据检测系统对分词集合df
tr
中的每一个词语ri∈df
tr
,计算特殊字符出现的频率,如公式(8)。
[0164]
(6)敏感数据检测系统对分词集合df
tr
中的每一个词语ri∈df
tr
,计算中文字符出现的频率,如公式(7)。
[0165]
(7)敏感数据检测系统对分词集合df
tr
中的每一个词语ri∈df
tr
,计算其信息熵值,如公式(1)。
[0166]
在训练过程中,特征提取完成后,敏感数据检测系统还可以通过python技术使用隐马尔可夫算法构建敏感数据检测模型;具体可以包括:
[0167]
(1)敏感数据检测系统对训练集中的数据分别将上述过程中的和值作为隐马尔可夫算法的输入;
[0168]
(2)敏感数据检测系统使用隐马尔可夫算法进行无监督训练,得到敏感数据检测模型m
hmm

[0169]
检测过程。
[0170]
在一些实施例中敏感数据检测系统对测试文本d
te
中的数据进行特征提取;具体可以包括以下步骤:
[0171]
(1)敏感数据检测系统对需要检测的测试文本d
te
进行分词,得到测试文本分词集合df
te

[0172]
(2)敏感数据检测系统对df
tr
中的每一个词语ei∈df
tr
,计算词语ei中大写字符出现的频率,记为
[0173]
(3)敏感数据检测系统对df
tr
中的每一个词语ei∈df
tr
,计算词语ei中小写字符出现的频率,记为
[0174]
(4)敏感数据检测系统对df
tr
中的每一个词语ei∈df
tr
,计算词语ei中数字字符出现的频率,记为
[0175]
(5)敏感数据检测系统根据对df
tr
中的每一个词语ei∈df
tr
,计算词语ei中特殊字符出现的频率,记为
[0176]
(6)敏感数据检测系统对df
tr
中的每一个词语ei∈df
tr
,计算词语ei中中文字符出现的频率,记为
[0177]
(7)敏感数据检测系统对df
tr
中的每一个词语ei∈df
tr
,计算词语ei的信息熵,记为
[0178]
在一些实施例中,敏感数据检测系统可以通过python技术使用步骤上述模型m
hmm

对测试文本中的数据进行预测打分,其中:
[0179]
(1)敏感数据检测系统使用python技术加m
hm
,记加载完成的模型为m;
[0180]
(2)敏感数据检测系统对测试文本中的数据,分别将检测过程中的和值作为隐马尔可夫模型m的输入;
[0181]
(3)敏感数据检测系统对模型m的输入值进行打分,输出一个分值
[0182]
在一些实施例中,敏感数据检测系统可以通过python技术结合分值和规则,判断测试文本数据中是否包含用户名密码等敏感数据,其中:
[0183]
(1)敏感数据检测系统设置分值阈值(α,β);
[0184]
(2)敏感数据检测系统判断处于阈值α和β直接,则认为句子中存在疑似用户名密码等敏感数据,设置is_pass为true,进行下一步(3),否则is_pass为false,返回无敏感数据;
[0185]
(3)敏感数据检测系统通过专家归纳总结的字典,判断如果文本中存在字典内的字段,则确定返回有敏感数据,否则返回无敏感数据。
[0186]
在本实施例中,敏感数据检测系统通过结合机器学习算法隐马尔可夫模型,抽取文本中的大写字母,小写字母,数字,特殊字符,中文,信息熵等作为特征,作为隐马尔可夫模型的输入,以此训练敏感数据检测模型,解决传统的基于规则词典识别方法的人工和时间成本问题。
[0187]
基于同一发明构思,本公开实施例中还提供了一种数据处理装置,如下面的实施例。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
[0188]
图7是根据一示例性实施例示出的一种数据处理装置的框图。参照图7,本公开实施例提供的数据处理装置700可以包括:分词模块701、特征提取模块702、特征处理模块703、打分值确定模块704和敏感词确定模块705。
[0189]
其中,分词模块701可以用于对待检测文本进行分词得到待检测词;特征提取模块702可以用于对待检测词进行特征提取处理,以确定待检测词的敏感特性和信息熵,敏感特性用于描述待检测词的敏感特性;特征处理模块703可以用于通过训练完成的敏感数据检测模型对待检测词的敏感特性和信息熵进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布;打分值确定模块704可以用于根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定待检测词是敏感词的打分值;敏感词确定模块705可以用于在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。
[0190]
此处需要说明的是,上述分词模块701、特征提取模块702、特征处理模块703、打分值确定模块704和敏感词确定模块705对应于方法实施例中的s202~s210,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0191]
在一些实施例中,待检测词的敏感特性包括:大写字符特征、小写字符特征、数字
字符特征、特殊字符特征或中文字符特征中的一个或者多个。
[0192]
在一些实施例中,特征提取模块702可以包括:大写字符出现次数确定单元和大写字符频率确定单元。
[0193]
其中,大写字符出现次数确定单元可以用于确定待检测词中大写字符的出现次数;大写字符频率确定单元可以用于根据待检测词的词语长度和大写字符的出现次数确定待检测词的大写字符频率,并将待检测词的大写字符频率作为待检测词的大写字符特征。
[0194]
在一些实施例中,特征提取模块702可以包括:小写字符出现次数确定单元和小写字符频率确定单元。
[0195]
其中,小写字符出现次数确定单元可以用于确定待检测词中小写字符的出现次数;小写字符频率确定单元可以用于根据待检测词的词语长度和小写字符的出现次数确定待检测词的小写字符频率,并将待检测词的小写字符频率作为待检测词的小写字符特征。
[0196]
在一些实施例中,特征提取模块702可以包括:数字字符出现次数确定单元和数字字符频率确定单元。
[0197]
其中,数字字符出现次数确定单元可以用于确定待检测词中数字字符的出现次数;数字字符频率确定单元可以用于根据待检测词的词语长度和数字字符的出现次数确定待检测词的数字字符频率,并将待检测词的数字字符频率作为待检测词的数字字符特征。
[0198]
在一些实施例中,特征提取模块702可以包括:特殊字符出现次数确定单元和特殊字符频率确定单元。
[0199]
其中,特殊字符出现次数确定单元可以用于确定待检测词中特殊字符的出现次数;特殊字符频率确定单元可以用于根据待检测词的词语长度和特殊字符的出现次数确定待检测词的特殊字符频率,并将待检测词的特殊字符频率作为待检测词的特殊字符特征。
[0200]
在一些实施例中,特征提取模块702可以包括:中文字符出现次数确定单元和中文字符频率确定单元。
[0201]
其中,中文字符出现次数确定单元可以用于确定待检测词中中文字符的出现次数;中文字符频率确定单元可以用于根据待检测词的词语长度和中文字符的出现次数确定待检测词的中文字符频率,并将待检测词的中文字符频率作为待检测词的中文字符特征。
[0202]
在一些实施例中,特征提取模块702可以包括:检测词大写字符出现次数确定单元、检测文本大写字符出现次数确定单元和大写字符正字符频率确定单元。
[0203]
其中,检测词大写字符出现次数确定单元可以用于确定待检测词中大写字符的出现次数;检测文本大写字符出现次数确定单元可以用于确定待检测文本中大写字符的出现次数;大写字符正字符频率确定单元可以用于根据待检测词中大写字符的出现次数和待检测文本中大写字符的出现次数,确定待检测词的大写字符正字符频率,以便根据待检测词的大写字符正字符频率确定待检测词的大写字符特征。
[0204]
在一些实施例中,特征提取模块702可以包括:检测词小写字符出现次数确定单元、检测文本小写字符出现次数确定单元和小写字符正字符频率确定单元。
[0205]
其中,检测词小写字符出现次数确定单元可以用于确定待检测词中小写字符的出现次数;检测文本小写字符出现次数确定单元可以用于确定待检测文本中小写字符的出现次数;小写字符正字符频率确定单元可以用于根据待检测词中小写字符的出现次数和待检测文本中小写字符的出现次数,确定待检测词的小写字符正字符频率,以便根据待检测词
的小写字符正字符频率确定待检测词的小写字符特征。
[0206]
在一些实施例中,特征提取模块702可以包括:检测词数字字符出现次数确定单元、检测文本数字字符出现次数确定单元和数字字符正字符频率确定单元。
[0207]
其中,检测词数字字符出现次数确定单元可以用于确定待检测词中数字字符的出现次数;检测文本数字字符出现次数确定单元可以用于确定待检测文本中数字字符的出现次数;数字字符正字符频率确定单元可以用于根据待检测词中数字字符的出现次数和待检测文本中数字字符的出现次数,确定待检测词的数字字符正字符频率,以便根据待检测词的数字字符正字符频率确定待检测词的数字字符特征。
[0208]
在一些实施例中,特征提取模块702可以包括:检测词特殊字符出现次数确定单元、检测文本特殊字符出现次数确定单元和特殊字符正字符频率确定单元。
[0209]
其中,检测词特殊字符出现次数确定单元可以用于确定待检测词中特殊字符的出现次数;检测文本特殊字符出现次数确定单元可以用于确定待检测文本中特殊字符的出现次数;特殊字符正字符频率确定单元可以用于根据待检测词中特殊字符的出现次数和待检测文本中特殊字符的出现次数,确定待检测词的特殊字符正字符频率,以便根据待检测词的特殊字符正字符频率确定待检测词的特殊字符特征。
[0210]
在一些实施例中,特征提取模块702可以包括:检测词特殊字符出现次数确定单元、检测文本特殊字符出现次数确定单元和特殊字符正字符频率确定单元。
[0211]
其中,检测词特殊字符出现次数确定单元可以用于确定待检测词中特殊字符的出现次数;检测文本特殊字符出现次数确定单元可以用于确定待检测文本中特殊字符的出现次数;特殊字符正字符频率确定单元可以用于根据待检测词中特殊字符的出现次数和待检测文本中特殊字符的出现次数,确定待检测词的特殊字符正字符频率,以便根据待检测词的特殊字符正字符频率确定待检测词的特殊字符特征。
[0212]
在一些实施例中,大写字符正字符频率确定单元可以包括:待检测词数量确定第一子单元、大写字符出现次数确定子单元和大写字符反字符频率字单元。
[0213]
其中,待检测词数量确定第一子单元可以用于确定待检测文本中待检测词的数量;大写字符出现次数确定子单元可以用于确定待检测文本中大写字符的出现次数;大写字符反字符频率字单元可以用于根据待检测文本中待检测词的数量和待检测文本中大写字符的出现次数,确定待检测词的大写字符反字符频率,以便根据待检测词的大写字符正字符频率和大写字符反字符频率确定待检测词的大写字符特征。
[0214]
在一些实施例中,小写字符正字符频率确定单元可以包括:待检测词数量确定第二子单元、小写字符出现次数确定子单元和小写字符反字符频率字单元。
[0215]
其中,待检测词数量确定第二子单元可以用于确定待检测文本中待检测词的数量;小写字符出现次数确定子单元可以用于确定待检测文本中小写字符的出现次数;小写字符反字符频率字单元可以用于根据待检测文本中待检测词的数量和待检测文本中小写字符的出现次数,确定待检测词的小写字符反字符频率,以便根据待检测词的小写字符正字符频率和小写字符反字符频率确定待检测词的小写字符特征。
[0216]
在一些实施例中,数字字符正字符频率确定单元可以包括:待检测词数量确定第三子单元、数字字符出现次数确定子单元和数字字符反字符频率字单元。
[0217]
其中,待检测词数量确定第三子单元可以用于确定待检测文本中待检测词的数
量;数字字符出现次数确定子单元可以用于确定待检测文本中数字字符的出现次数;数字字符反字符频率字单元可以用于根据待检测文本中待检测词的数量和待检测文本中数字字符的出现次数,确定待检测词的数字字符反字符频率,以便根据待检测词的数字字符正字符频率和数字字符反字符频率确定待检测词的数字字符特征。
[0218]
在一些实施例中,中文字符正字符频率确定单元可以包括:待检测词数量确定第四子单元、中文字符出现次数确定子单元和中文字符反字符频率字单元。
[0219]
其中,待检测词数量确定第四子单元可以用于确定待检测文本中待检测词的数量;中文字符出现次数确定子单元可以用于确定待检测文本中中文字符的出现次数;中文字符反字符频率字单元可以用于根据待检测文本中待检测词的数量和待检测文本中中文字符的出现次数,确定待检测词的中文字符反字符频率,以便根据待检测词的中文字符正字符频率和中文字符反字符频率确定待检测词的中文字符特征。
[0220]
在一些实施例中,特殊字符正字符频率确定单元可以包括:待检测词数量确定第五子单元、特殊字符出现次数确定子单元和特殊字符反字符频率字单元。
[0221]
其中,待检测词数量确定第五子单元可以用于确定待检测文本中待检测词的数量;特殊字符出现次数确定子单元可以用于确定待检测文本中特殊字符的出现次数;特殊字符反字符频率字单元可以用于根据待检测文本中待检测词的数量和待检测文本中特殊字符的出现次数,确定待检测词的特殊字符反字符频率,以便根据待检测词的特殊字符正字符频率和特殊字符反字符频率确定待检测词的特殊字符特征。
[0222]
在一些实施例中,数据处理装置700还可以包括:规则获取单元和规则匹配单元。
[0223]
其中,规则获取单元可以用于获取目标匹配规则;规则匹配单元可以用于根据目标匹配规则确定待检测文本中存在目标字段且待检测文本中存在敏感词,则确定待检测文本是目标敏感文本。
[0224]
在一些实施例中,数据处理装置700还可以包括:训练文本获取单元、训练词获取单元、字符特征提取单元和训练单元。
[0225]
其中,训练文本获取单元可以用于获取多个训练文本,训练文本包括敏感词;训练词获取单元可以用于对多个训练文本进行分词得到训练词;字符特征提取单元可以用于确定训练词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征中的一个或者多个;训练单元可以用于根据训练词的信息熵和大写字符特征、小写字符特征、数字字符特征、特殊字符特征、中文字符特征中的一个或者多个对敏感数据检测模型进行无监督训练,以确定敏感词的状态转移矩阵、输出概率分布和初始概率分布,以使得在状态转移矩阵、输出概率分布和初始概率分布下,出现训练词的概率最高。
[0226]
由于装置700的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
[0227]
描述于本技术实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
[0228]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代
表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0229]
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0230]
图8示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图8示出的电子设备800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0231]
如图8所示,电子设备800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从储存部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram 803中,还存储有电子设备800操作所需的各种程序和数据。cpu 801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0232]
以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的储存部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入储存部分808。
[0233]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(cpu)1501执行时,执行本技术的系统中限定的上述功能。
[0234]
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信
号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0235]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:对待检测文本进行分词得到待检测词;对待检测词进行特征提取处理,以确定待检测词的敏感特性和信息熵,敏感特性用于描述待检测词的敏感特性;通过训练完成的敏感数据检测模型对待检测词的敏感特性和信息熵进行处理,敏感数据检测模型包括敏感词的状态转移矩阵、输出概率分布和初始概率分布;根据敏感数据检测模型的状态转移矩阵、输出概率分布和初始概率分布,确定待检测词是敏感词的打分值;在待检测词是敏感词的打分值在目标阈值范围内的情况下,确定待检测文本中的待检测词是敏感词。
[0236]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
[0237]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法,例如图2~图6一个或多个所示的步骤。
[0238]
本领域技术人员在考虑说明书及实践在这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0239]
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1