互联网社区的敏感词的扩展方法、装置及存储介质与流程

文档序号:30951636发布日期:2022-07-30 07:52阅读:142来源:国知局
互联网社区的敏感词的扩展方法、装置及存储介质与流程

1.本发明涉及数据处理技术领域,尤其涉及一种互联网社区的敏感词的扩展方法、装置及存储介质。


背景技术:

2.在互联网社区场景中,经常会出现各种各样的黑产,他们会通过发帖发评论等手段为其他违规内容进行引流。其发出的贴评往往具有一些相同的关键词。将这些词作为敏感词,通过识别贴评中是否包含了这些敏感词,就能及时的对违规内容加以处理,达到维护社区氛围的目的,即内容反垃圾。但是违规内容的发帖人往往会通过测试的手段实验如何避开这些已被提取出的敏感词,导致敏感词的效果大打折扣。因此,如何更新敏感词库对于反作弊至关重要。多数平台通过人工提取的方式来补充敏感词库。
3.通过人工提取的方式补充敏感词库的方法能起到一定的效果,但是由于这种方法后置的特性,即必须由黑产发帖、被人工发现后提取。在整个流程中,无法保证每一条违规的贴评都被识别到,即便识别到了并提取出了关键词,由于所消耗的时间过长,黑产的话术变化后,新添加的关键词也不再有效。


技术实现要素:

4.为克服相关技术中存在的问题,本发明提供一种互联网社区的敏感词的扩展方法、装置及存储介质,从而起到预测黑产关键词的效果,从而达到识别黑产帖评的效果。
5.根据本发明实施例的第一方面,提供一种基于互联网社区的敏感词的扩展方法,用于终端设备,所述方法包括:
6.获取常用汉字表,并对所述常用汉字表中的每个常用汉字进行笔画拆分;
7.根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合;
8.获取初始敏感词集,并从所述初始敏感词集中的每个敏感词中提取目标常用汉字;
9.根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字,以得到所述敏感词对应的候选扩展敏感词集;
10.对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词;
11.将所述扩展敏感词加入到所述初始敏感词集中,以得到目标敏感词集。
12.在一个实施例中,优选地,所述方法还包括:
13.使用所述目标敏感词集对互联网社区中的帖评数据进行敏感词检测。
14.在一个实施例中,优选地,根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合,包括:
15.根据总笔画数,计算每个常用汉字与所述常用汉字表中每个其他常用汉字之间的
最大不相似笔画数;
16.根据笔画名称,计算每个常用汉字与每个所述其他常用汉字之间的不相似笔画数;
17.当所述不相似笔画数大于所述最大不相似笔画数时,确定所述常用汉字和所述其他常用汉字不是形近字;
18.当所述不相似笔画数小于或者等于所述最大不相似笔画数时,确定所述常用汉字与所述其他常用汉字之间是形近字,将该其他常用汉字添加到所述常用汉字对应的形近字集合中。
19.在一个实施例中,优选地,采用以下第一计算公式计算所述最大不相似笔画数a:
[0020][0021]
其中,a表示所述最大不相似笔画数,floor表示向下取整函数,sa表示所述常用汉字的总笔画数,sb表示所述其他常用汉字的总笔画数,min(sa,sb)表示取sa和sb中笔画数少的。
[0022]
在一个实施例中,优选地,对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词,包括:
[0023]
根据总笔画数,计算所述敏感词和每个候选扩展敏感词之间的最大不一致笔画数;
[0024]
根据笔画名称,计算所述敏感词和每个候选扩展敏感词之间的不一致笔画数;
[0025]
当所述不一致笔画数大于所述最大不一致笔画数时,丢弃所述候选扩展敏感词;
[0026]
当所述不一致笔画数小于或者等于所述最大不一致笔画数时,对所述候选扩展敏感词进行人工审核,在人工审核通过后将所述候选扩展敏感词确定为扩展敏感词。
[0027]
在一个实施例中,优选地,采用以下第二计算公式计算所述最大不一致笔画数b:
[0028][0029]
其中,b表示所述最大不一致笔画数,wa表示所述敏感词的总笔画数,wb表示所述候选扩展敏感词的总笔画数,floor表示向下取整函数。
[0030]
根据本发明实施例的第二方面,提供一种互联网社区的敏感词的扩展装置,所述装置包括:
[0031]
获取模块,用于获取常用汉字表,并对所述常用汉字表中的每个常用汉字进行笔画拆分;
[0032]
确定模块,用于根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合;
[0033]
提取模块,用于获取初始敏感词集,并从所述初始敏感词集中的每个敏感词中提取目标常用汉字;
[0034]
替换模块,用于根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字,以得到所述敏感词对应的候选扩展敏感词集;
[0035]
处理模块,用于对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词;
[0036]
添加模块,用于将所述扩展敏感词加入到所述初始敏感词集中,以得到目标敏感词集。
[0037]
在一个实施例中,优选地,所述装置还包括:
[0038]
检测模块,用于使用所述目标敏感词集对互联网社区中的帖评数据进行敏感词检测。
[0039]
在一个实施例中,优选地,所述确定模块包括:
[0040]
第一计算单元,用于根据总笔画数,计算每个常用汉字与所述常用汉字表中每个其他常用汉字之间的最大不相似笔画数;
[0041]
第二计算单元,用于根据笔画名称,计算每个常用汉字与每个所述其他常用汉字之间的不相似笔画数;
[0042]
第一确定单元,用于当所述不相似笔画数大于所述最大不相似笔画数时,确定所述常用汉字和所述其他常用汉字不是形近字;
[0043]
第二确定单元,用于当所述不相似笔画数小于或者等于所述最大不相似笔画数时,确定所述常用汉字与所述其他常用汉字之间是形近字,将该其他常用汉字添加到所述常用汉字对应的形近字集合中。
[0044]
在一个实施例中,优选地,采用以下第一计算公式计算所述最大不相似笔画数a:
[0045][0046]
其中,a表示所述最大不相似笔画数,floor表示向下取整函数,sa表示所述常用汉字的总笔画数,sb表示所述其他常用汉字的总笔画数,min(sa,sb)表示取sa和sb中笔画数少的。
[0047]
在一个实施例中,优选地,所述处理模块包括:
[0048]
第三计算模块,用于根据总笔画数,计算所述敏感词和每个候选扩展敏感词之间的最大不一致笔画数;
[0049]
第四计算模块,用于根据笔画名称,计算所述敏感词和每个候选扩展敏感词之间的不一致笔画数;
[0050]
第一处理单元,用于当所述不一致笔画数大于所述最大不一致笔画数时,丢弃所述候选扩展敏感词;
[0051]
第二处理单元,用于当所述不一致笔画数小于或者等于所述最大不一致笔画数时,对所述候选扩展敏感词进行人工审核,在人工审核通过后将所述候选扩展敏感词确定为扩展敏感词。
[0052]
在一个实施例中,优选地,采用以下第二计算公式计算所述最大不一致笔画数b:
[0053][0054]
其中,b表示所述最大不一致笔画数,wa表示所述敏感词的总笔画数,wb表示所述候选扩展敏感词的总笔画数,floor表示向下取整函数。
[0055]
根据本发明实施例的第三方面,提供一种互联网社区的敏感词的扩展装置,所述装置包括:
[0056]
处理器;
[0057]
用于存储处理器可执行指令的存储器;
[0058]
其中,所述处理器被配置为:
[0059]
获取常用汉字表,并对所述常用汉字表中的每个常用汉字进行笔画拆分;
[0060]
根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合;
[0061]
获取初始敏感词集,并从所述初始敏感词集中的每个敏感词中提取目标常用汉字;
[0062]
根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字,以得到所述敏感词对应的候选扩展敏感词集;
[0063]
对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词;
[0064]
将所述扩展敏感词加入到所述初始敏感词集中,以得到目标敏感词集。
[0065]
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现如第一方面的实施例中任一项所述方法的步骤。
[0066]
本发明的实施例提供的技术方案可以包括以下有益效果:
[0067]
本发明实施例中,通过使用形近字来扩展敏感词库的方式,提前生成敏感词可能有的一些变体,并且二次过滤后,经审核后剔除无法读懂的敏感词,将易读懂的变体加入到敏感词库中,起到预测黑产关键词的效果,从而达到识别黑产贴评的效果。同时对比一些复杂的语言识别模型,例如bert,具有迭代速度快,周期短,人工成本低等特点。
[0068]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
[0069]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0070]
图1是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展方法的流程图。
[0071]
图2是根据一示例性实施例示出的另一种基于互联网社区的敏感词的扩展方法的流程图。
[0072]
图3是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展方法中步骤s102的流程图。
[0073]
图4是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展方法中步骤s105的流程图。
[0074]
图5是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展装置的框图。
[0075]
图6是根据一示例性实施例示出的另一种基于互联网社区的敏感词的扩展装置的框图。
[0076]
图7是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展装置中确定模块的框图。
[0077]
图8是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展装置中确定模块的框图。
具体实施方式
[0078]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0079]
图1是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展方法的流程图。
[0080]
如图1所示,根据本发明实施例的第一方面,提供一种基于互联网社区的敏感词的扩展方法,用于终端设备,所述方法包括:
[0081]
步骤s101,获取常用汉字表,并对所述常用汉字表中的每个常用汉字进行笔画拆分;常用的汉字总表,根据1998年出版的《现代汉语常用字表》,包含了2500个大陆常用字和1000个次常用字。对常用汉字表中的每一个汉字进行笔画拆解,将每一个汉字转化为最小笔画的合集,例如,汉字“大”可拆解为三个笔画——横、撇、捺。
[0082]
步骤s102,根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合;
[0083]
步骤s103,获取初始敏感词集,并从所述初始敏感词集中的每个敏感词中提取目标常用汉字;
[0084]
步骤s104,根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字,以得到所述敏感词对应的候选扩展敏感词集;
[0085]
步骤s105,对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词;
[0086]
步骤s106,将所述扩展敏感词加入到所述初始敏感词集中,以得到目标敏感词集。
[0087]
在该实施例中,通过使用形近字来扩展敏感词库的方式,提前生成敏感词可能有的一些变体,并且二次过滤后,经审核后剔除无法读懂的敏感词,将易读懂的变体加入到敏感词库中,起到预测黑产关键词的效果,从而达到识别黑产贴评的效果。同时对比一些复杂的语言识别模型,例如bert,具有迭代速度快,周期短,人工成本低等特点。
[0088]
图2是根据一示例性实施例示出的另一种基于互联网社区的敏感词的扩展方法的流程图。
[0089]
如图2所示,在一个实施例中,优选地,所述方法还包括:
[0090]
步骤s201,使用所述目标敏感词集对互联网社区中的帖评数据进行敏感词检测。
[0091]
在该实施例中,获取线上贴评数据,线上由用户发出的,新的增量未经审核的数据。结合目标敏感词集和线上贴评数据,检验贴评中是否包含目标敏感词集中的任一敏感词。若贴评中不包含目标敏感词集中的任一敏感词,则该贴评进入下一审核环节。若贴评中包含敏感词,则该贴评直接进入人审环节。
[0092]
图3是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展方法中步骤s102的流程图。
[0093]
如图3所示,在一个实施例中,优选地,步骤s102包括:
[0094]
步骤s301,根据总笔画数,计算每个常用汉字与所述常用汉字表中每个其他常用汉字之间的最大不相似笔画数;
[0095]
在一个实施例中,优选地,采用以下第一计算公式计算所述最大不相似笔画数a:
[0096][0097]
其中,a表示所述最大不相似笔画数,floor表示向下取整函数,sa表示所述常用汉字的总笔画数,sb表示所述其他常用汉字的总笔画数,min(sa,sb)表示取sa和sb中笔画数少的。
[0098]
例如“大”和“犬”,其中“大”可拆解为横、撇、捺,“犬”可拆解为横、撇、捺、点,两个字相同的笔画为横、撇、捺,不同的笔画为点,因此“大”和“犬”的最大不相似笔画数为0,
[0099]
步骤s302,根据笔画名称,计算每个常用汉字与每个所述其他常用汉字之间的不相似笔画数;
[0100]
计算两个汉字不一致的笔画数,其中,替换、缺少都记为不同。例如“大”和“犬”,其中“大”可拆解为横、撇、捺,“犬”可拆解为横、撇、捺、点,两个字相同的笔画为横、撇、捺,不同的笔画为点,因此“大”和“犬”的不相似笔画数为1。
[0101]
步骤s303,当所述不相似笔画数大于所述最大不相似笔画数时,确定所述常用汉字和所述其他常用汉字不是形近字;例如“大”和“犬”。
[0102]
步骤s304,当所述不相似笔画数小于或者等于所述最大不相似笔画数时,确定所述常用汉字与所述其他常用汉字之间是形近字,将该其他常用汉字添加到所述常用汉字对应的形近字集合中。例如“大”和“丈”。
[0103]
图4是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展方法中步骤s105的流程图。
[0104]
如图4所示,在一个实施例中,优选地,步骤s105包括:
[0105]
步骤s401,根据总笔画数,计算所述敏感词和每个候选扩展敏感词之间的最大不一致笔画数;
[0106]
在一个实施例中,优选地,采用以下第二计算公式计算所述最大不一致笔画数b:
[0107][0108]
其中,b表示所述最大不一致笔画数,wa表示所述敏感词的总笔画数,wb表示所述候选扩展敏感词的总笔画数,floor表示向下取整函数。
[0109]
例如“助你霸服”和“助你灞菔”,其中“助你霸服”可拆解为43个笔画,“助你灞菔”可拆解为49个笔画,因此“助你霸服”和“助你灞菔”的最大不相似笔画数为8,
[0110]
步骤s402,根据笔画名称,计算所述敏感词和每个候选扩展敏感词之间的不一致笔画数;例如“助你霸服”和“助你灞菔”,其中“助你霸服”可拆解为43个笔画,“助你灞菔”可拆解为49个笔画,两个字相同的笔画为“助你霸服”中所有的笔画,不同的笔画为“氵”和“艹”中包含的6个笔画,因此“助你霸服”和“助你灞菔”的不相似笔画数为6。
[0111]
步骤s403,当所述不一致笔画数大于所述最大不一致笔画数时,丢弃所述候选扩展敏感词;
[0112]
步骤s404,当所述不一致笔画数小于或者等于所述最大不一致笔画数时,对所述候选扩展敏感词进行人工审核,在人工审核通过后将所述候选扩展敏感词确定为扩展敏感词。
[0113]
图5是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展装置的框图。
[0114]
如图5所示,根据本发明实施例的第二方面,提供一种基于互联网社区的敏感词的扩展装置,所述装置包括:
[0115]
获取模块51,用于获取常用汉字表,并对所述常用汉字表中的每个常用汉字进行笔画拆分;
[0116]
确定模块52,用于根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合;
[0117]
提取模块53,用于获取初始敏感词集,并从所述初始敏感词集中的每个敏感词中提取目标常用汉字;
[0118]
替换模块54,用于根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字,以得到所述敏感词对应的候选扩展敏感词集;
[0119]
处理模块55,用于对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词;
[0120]
添加模块56,用于将所述扩展敏感词加入到所述初始敏感词集中,以得到目标敏感词集。
[0121]
图6是根据一示例性实施例示出的另一种基于互联网社区的敏感词的扩展装置的框图。
[0122]
如图6所示,在一个实施例中,优选地,所述装置还包括:
[0123]
检测模块61,用于使用所述目标敏感词集对互联网社区中的帖评数据进行敏感词检测。
[0124]
图7是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展装置中确定模块的框图。
[0125]
如图7所示,在一个实施例中,优选地,所述确定模块52包括:
[0126]
第一计算单元71,用于根据总笔画数,计算每个常用汉字与所述常用汉字表中每个其他常用汉字之间的最大不相似笔画数;
[0127]
第二计算单元72,用于根据笔画名称,计算每个常用汉字与每个所述其他常用汉字之间的不相似笔画数;
[0128]
第一确定单元73,用于当所述不相似笔画数大于所述最大不相似笔画数时,确定所述常用汉字和所述其他常用汉字不是形近字;
[0129]
第二确定单元74,用于当所述不相似笔画数小于或者等于所述最大不相似笔画数时,确定所述常用汉字与所述其他常用汉字之间是形近字,将该其他常用汉字添加到所述常用汉字对应的形近字集合中。
[0130]
在一个实施例中,优选地,采用以下第一计算公式计算所述最大不相似笔画数a:
[0131][0132]
其中,a表示所述最大不相似笔画数,floor表示向下取整函数,sa表示所述常用汉字的总笔画数,sb表示所述其他常用汉字的总笔画数,min(sa,sb)表示取sa和sb中笔画数少的。
[0133]
图8是根据一示例性实施例示出的一种基于互联网社区的敏感词的扩展装置中确定模块的框图。
[0134]
如图8所示,在一个实施例中,优选地,所述处理模块55包括:
[0135]
第三计算模块81,用于根据总笔画数,计算所述敏感词和每个候选扩展敏感词之间的最大不一致笔画数;
[0136]
第四计算模块82,用于根据笔画名称,计算所述敏感词和每个候选扩展敏感词之间的不一致笔画数;
[0137]
第一处理单元83,用于当所述不一致笔画数大于所述最大不一致笔画数时,丢弃所述候选扩展敏感词;
[0138]
第二处理单元84,用于当所述不一致笔画数小于或者等于所述最大不一致笔画数时,对所述候选扩展敏感词进行人工审核,在人工审核通过后将所述候选扩展敏感词确定为扩展敏感词。
[0139]
在一个实施例中,优选地,采用以下第二计算公式计算所述最大不一致笔画数b:
[0140][0141]
其中,b表示所述最大不一致笔画数,wa表示所述敏感词的总笔画数,wb表示所述候选扩展敏感词的总笔画数,floor表示向下取整函数。
[0142]
根据本发明实施例的第三方面,提供一种互联网社区的敏感词的扩展装置,所述装置包括:
[0143]
处理器;
[0144]
用于存储处理器可执行指令的存储器;
[0145]
其中,所述处理器被配置为:
[0146]
获取常用汉字表,并对所述常用汉字表中的每个常用汉字进行笔画拆分;
[0147]
根据每个常用汉字的笔画确定与其对应的形近字,以得到每个常用汉字对应的形近字集合;
[0148]
获取初始敏感词集,并从所述初始敏感词集中的每个敏感词中提取目标常用汉字;
[0149]
根据所述目标常用汉字对应的形近字集合替换所述目标常用汉字,以得到所述敏感词对应的候选扩展敏感词集;
[0150]
对每个敏感词对应的候选扩展敏感词集中的每个候选扩展敏感词进行筛选和审核,得到扩展敏感词;
[0151]
将所述扩展敏感词加入到所述初始敏感词集中,以得到目标敏感词集。
[0152]
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算
机指令,所述指令被处理器执行时实现如第一方面的实施例中任一项所述方法的步骤。
[0153]
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0154]
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
[0155]
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
[0156]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0157]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1