本发明涉及信息安全,具体而言,涉及一种文本检测规则生成方法、装置、电子设备及存储介质。
背景技术:
1、it企业每天产生大量的日志,大多数日志可以被转化成文本,为防止文本中可能包含的敏感信息被泄漏,需要对文本的异常特征进行检测。
2、基于此,需要使用相应的检测规则来发现各种异常特征的文本,目前常用的文本检测规则都来自定向编辑,根据原始期望匹配的数据特征来人工编写专有的规则,再通过线上环境来验证,上述方式需要提前整理异常的样本,同时人工整理耗时耗力,所获得的数据和种类都十分有限。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种文本检测规则生成方法、装置、电子设备及存储介质,以根据原始文本数据自动生成与其适应的文本检测规则。
2、为了实现上述目的,本发明实施例采用的技术方案如下:
3、第一方面,本发明实施例提供一种文本检测规则生成方法,应用于电子设备;
4、所述方法包括:
5、获取原始文本数据,根据预设文本检测规则对所述原始文本数据进行筛选,以得到样本数据;
6、对所述样本数据和原始文本数据进行范式化处理,以分别得到范式化样本数据和范式化原始文本数据;
7、对所述样本数据和范式化原始文本数据进行文本相似度比较,以基于比较结果从范式化原始文本数据中确定出待处理文本数据;
8、对所述待处理文本数据和范式化样本数据进行命名实体识别,以基于识别结果生成文本检测规则。
9、在可选的实施方式中,所述对所述样本数据和原始文本数据进行范式化处理,以分别得到范式化样本数据和范式化原始文本数据的步骤,包括:
10、确定所述样本数据和原始文本数据中的所有变量并将所述样本数据和原始文本数据中的所有变量替换为对应的范式化格式,以分别得到范式化样本数据和范式化原始文本数据。
11、在可选的实施方式中,所述变量包括主机名称变量和时间变量;
12、所述确定所述样本数据和原始文本数据中的所有变量并将所述样本数据和原始文本数据中的所有变量替换为对应的范式化格式,以分别得到范式化样本数据和范式化原始文本数据的步骤,包括:
13、确定所述样本数据和原始文本数据中的所有所述主机名称变量和时间变量并将所述样本数据和原始文本数据中的所有所述主机名称变量和时间变量替换为对应的范式化格式,以分别得到范式化样本数据和范式化原始文本数据。
14、在可选的实施方式中,所述将所述样本数据和范式化原始文本数据进行文本相似度比较,以基于比较结果从范式化原始文本数据中确定出待处理文本数据的步骤,包括:
15、对所述样本数据和范式化原始文本数据基于单词相似度进行文本相似度比较,以从所述范式化原始文本数据中确定出与所述样本数据的单词相似度高于预设相似度阈值的文本数据作为待处理文本数据。
16、在可选的实施方式中,所述对所述待处理文本数据和范式化样本数据进行命名实体识别,以基于识别结果生成文本检测规则的步骤,包括:
17、对所述待处理文本数据和范式化样本数据中的单词词性进行命名实体识别,以从所述待处理文本数据中确定出包含与所述范式化样本数据的单词词性一致的文本数据作为规则文本数据;
18、根据所述规则文本数据生成文本检测规则。
19、在可选的实施方式中,所述方法还包括:
20、基于所述文本检测规则更新所述预设文本检测规则。
21、在可选的实施方式中,所述方法还包括:
22、通过更新后的所述预设文本检测规则对所述原始文本数据进行相似度检测,以从所述原始文本数据中提取相似文本并对所述相似文本进行告警。
23、第二方面,本发明实施例提供一种文本检测规则生成装置,应用于电子设备;
24、所述装置包括:
25、数据筛选模块,用于获取原始文本数据,根据预设文本检测规则对所述原始文本数据进行筛选,以得到样本数据;
26、数据处理模块,用于对所述样本数据和原始文本数据进行范式化处理,以分别得到范式化样本数据和范式化原始文本数据;对所述样本数据和范式化原始文本数据进行文本相似度比较,以基于比较结果从范式化原始文本数据中确定出待处理文本数据;对所述待处理文本数据和范式化样本数据进行命名实体识别,以基于识别结果生成文本检测规则。
27、第三方面,本发明实施例提供一种电子设备,包括存储器和处理器;
28、所述存储器用于存储计算机程序;
29、所述处理器用于执行所述计算机程序,以实现如上述第一方面实施例和/或结合上述第一方面实施例可能的实施方式提供的文本检测规则生成方法。
30、第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面实施例和/或结合上述第一方面实施例可能的实施方式提供的文本检测规则生成方法。
31、本发明实施例的有益效果包括,例如:
32、本发明实施例提供的一种文本检测规则生成方法、装置、电子设备及存储介质,通过根据预设文本检测规则对原始文本数据进行筛选得到样本数据,并对样本数据和原始文本数据进行范式化处理分别得到范式化样本数据和范式化原始文本数据,以后续对样本数据和范式化原始文本数据进行文本相似度比较确定出待处理文本数据,最终对待处理文本数据和范式化样本数据进行命名实体识别,以基于识别结果生成文本检测规则。上述文本检测规则生成方法可以根据原始文本数据自动生成与其适应的文本检测规则,大大提高了生成的文本检测规则对目标环境的适应性。
33、同时,上述文本检测规则生成方法由于能够自动生成文本检测规则,即代替了传统方式通过人工重复生产相似规则的工作,且弥补了传统方式编写规则时由于样本有限,导致一些后续应该提取作为告警的敏感日志遗漏的情况,起到了防止相似规则被遗漏的作用。
34、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种文本检测规则生成方法,其特征在于,应用于电子设备;
2.根据权利要求1所述的文本检测规则生成方法,其特征在于,所述对所述样本数据和原始文本数据进行范式化处理,以分别得到范式化样本数据和范式化原始文本数据的步骤,包括:
3.根据权利要求2所述的文本检测规则生成方法,其特征在于,所述变量包括主机名称变量和时间变量;
4.根据权利要求2所述的文本检测规则生成方法,其特征在于,所述将所述样本数据和范式化原始文本数据进行文本相似度比较,以基于比较结果从范式化原始文本数据中确定出待处理文本数据的步骤,包括:
5.根据权利要求4所述的文本检测规则生成方法,其特征在于,所述对所述待处理文本数据和范式化样本数据进行命名实体识别,以基于识别结果生成文本检测规则的步骤,包括:
6.根据权利要求1所述的文本检测规则生成方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的文本检测规则生成方法,其特征在于,所述方法还包括:
8.一种文本检测规则生成装置,其特征在于,应用于电子设备;
9.一种电子设备,其特征在于,包括存储器和处理器;
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的文本检测规则生成方法。