一种文本内容的处理方法、计算机设备及存储介质与流程

文档序号:23222125发布日期:2020-12-08 15:04阅读:来源:国知局

技术特征:

1.一种文本内容的处理方法,其特征在于,所述方法包括:

获取目标文本的大小参数;

根据所述目标文本的大小参数,对所述目标文件进行分词处理得到目标字符串集合,所述目标字符串集合包括多个目标字符串;

当确定所述目标字符串存在预设字符时,发出提示信息。

2.根据权利要求1所述的处理方法,其特征在于,所述方法还包括如下方法得到目标字符串集合:

对所述目标文本进行字符转换,生成候选字符串集合;

判断所述目标文本的大小参数是否小于预设参数阈值;

当所述目标文本的大小参数小于所述预设参数阈值,对所述候选字符串集合进行分词处理得到第一目标字符串集合;

当所述目标文本的大小参数不小于所述预设参数阈值,对所述候选字符串集合进行分词处理得到第二目标字符串集合。

3.根据权利要求2所述的处理方法,其特征在于,所述目标字符串集合是指多个所述目标字符串按照预设顺序进行排列,生成的字符串集合;其中,所述目标字符串包括第一目标字符串和第二目标字符串。

4.根据权利要求3所述的处理方法,其特征在于,所述方法还包括如下方法确定所述第一目标字符串,包括:

将所述候选字符串集合中任一候选字符串与第一停用词库进行匹配;

根据所述候选字符串的匹配度,确定第一停用词;

从所述候选字符串中过滤掉所述第一停用词,生成所述第一目标字符串。

5.根据权利要求4所述的处理方法,其特征在于,所述方法还包括如下方法确定所述第一目标字符串存在预设字符:;

将所述第一目标字符串集合中所述第一目标字符串的长度与所述预设字符串的长度进行对比;

当所述第一目标字符串的长度小于所述预设字符串的长度时,确定所述第一目标字符串未存在所述预设字符串;

当所述第一目标字符串的长度不小于所述预设字符串的长度时,将所述第一目标字符串按照预设匹配规则与所述预设字符串进行匹配。

6.根据权利要求3所述的处理方法,其特征在于,所述方法还包括如下确定所述第二目标字符串:

将所述第一目标字符串集合中任一第一目标字符串与第二停用词库进行匹配;

根据所述第一目标字符串的匹配度,确定第二停用词;

从所述第一目标字符串中过滤掉所述第二停用词,生成所述第二目标字符串。

7.根据权利要求6所述的处理方法,其特征在于,所述方法还包括如下方法确定所述第二目标字符串存在预设字符串:

将所述第二目标字符串集合中任一所述第二目标字符串的长度与所述预设字符串的长度进行对比;

当所述第二目标字符串的长度等于所述预设字符串的长度时,将所述第二目标字符串中每个字符与所述预设字符串中每个字符进行匹配;

当所述第二目标字符串中每个字符的匹配度满足预设匹配度时,确定所述第二目标字符串存在预设字符串。

8.根据权利要求1所述的处理方法,其特征在于,所述预设字符串是指敏感词库中词对应的字符串。

9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~8中任一项所述的处理方法。

10.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8任一项所述的处理方法。


技术总结
本发明公开了一种文本内容的处理方法、计算机设备及存储介质,所述方法包括:获取目标文本的大小参数;根据所述目标文本的大小参数,对所述目标文件进行分词处理得到目标字符串集合,所述目标字符串集合包括多个目标字符串;当确定所述目标字符串存在预设字符时,发出提示信息;本发明能够根据电子文件中的文件大小,对电子文件中的字符串进行不同的分词处理方法,对分词后形成的目标字符串集合采取对应的方法确定弱敏感词,避免因弱敏感词的遗漏影响到电子文件的应用,提高了弱敏感词的查询速率。

技术研发人员:郭芳;于云成;王炳功;於雪松;于志鹏;姜乃榕;刘子正;秦冲;张巍;王晓燕;沙鑫;车晨;滕建港;张英;张玉苗;张雪玮;滕瑶琪;陈林;邹承志
受保护的技术使用者:国网山东省电力公司荣成市供电公司
技术研发日:2020.08.31
技术公布日:2020.12.08
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1