一种音近敏感词的扩展方法与流程

文档序号:31342718发布日期:2022-08-31 10:51阅读:155来源:国知局
一种音近敏感词的扩展方法与流程

1.本发明涉及词汇扩展技术领域,特别涉及一种音近敏感词的扩展方法。


背景技术:

2.在互联网社区场景中,由于其场景的特殊性,一条信息往往会被非常多的人接收到,这就导致了互联网社区内经常会出现通过发布一些文本或图片形式的消息,来对一些非法平台进行引流的现象,这些引流的消息通常被认为是垃圾内容,其发布者通常被认为是黑产。由于其发出的文本往往具有一些相似的关键词,因此将这些词作为敏感词,通过识别文本中是否包含这些敏感词,就能及时的对违规内容加以处理,达到维护社区氛围的目的,即内容反垃圾。但是违规内容的发帖人往往会通过实验的手段来避开这些已被提取出的敏感词,导致敏感词的命中数量减少。因此,如何更新敏感词库对于内容反作弊至关重要。目前的大多数平台都通过人工提取的方式来补充敏感词库。
3.虽然,通过人工提取关键词来补充敏感词库的方法能起到一定的反作弊效果,但是,这种方法并不能前置的解决问题,因为每一个敏感词都是通过黑产发出的,然后再通过人工审核提取得到,整个流程耗时长,并且没办法保证每一条违规的文本都被识别到,造成存在非常多的漏放。即便顺利的提取到关键词,由于黑产的话术更新快,新添加的关键词也不一定有效。
4.因此,本发明提出一种音近敏感词的扩展方法。


技术实现要素:

5.本发明提供一种音近敏感词的扩展方法,用以通过使用已有敏感词库和音近词表,推测黑产可能会使用的敏感词的音近字变体,来前置的解决整个环节的漏放可能性大、耗时长等特性,进而提高所提取关键词的有效性。
6.本发明提供一种音近敏感词的扩展方法,包括:
7.步骤1:对合法拼音表中的拼音两两组合;
8.步骤2:获取每个两两组合结果的编辑距离,并根据所述编辑距离提取得到音近拼音组,构建得到拼音-音近拼音表;
9.步骤3:基于所述拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,并基于拼音-汉字表,将替换的任意字拼音映射成文字,构造得到候选音近词;
10.步骤4:对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展。
11.在一种可能实现的方式中,获取每个两两组合结果的编辑距离,并根据所述编辑距离提取得到音近拼音组,构建得到拼音-音近拼音表,包括:
12.计算两两组合结果的编辑距离;
13.判断所述编辑距离是否大于预设距离;
14.若是,判定对应的组合结果中的第一拼音和第二拼音互不为音近拼音;
15.否则,判定对应的组合结果中的第一拼音和第二拼音互为音近拼音;
16.提取互为音近拼音的所有音近拼音组,并构建得到拼音-音近拼音表。
17.在一种可能实现的方式中,对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展,包括:
18.获取人工对候选音近词的判断指令,并判断所述判断指令是否与预设敏感条件相关;
19.当所述判断指令与预设敏感条件有关时,将所述候选敏感词自动补充到敏感词数据库中;
20.当所述判断指令与预设敏感条件无关时,将所述候选敏感词丢弃。
21.在一种可能实现的方式中,所述合法拼音表以及拼音-汉字表中只包括发音拼音,不包括发音声调。
22.在一种可能实现的方式中,对合法拼音表中的拼音两两组合,包括:
23.按照每个拼音的拼音长度进行第一分类;
24.对每个第一分类结果中的拼音按照拼音首字母类型进行第二分类;
25.基于第一分类结果以及第二分类结果,得到不同拼音长度的拼音集合;
26.对所述拼音集合中的拼音进行两两组合。
27.在一种可能实现的方式中,当所述判断指令与预设敏感条件有关时,将所述候选敏感词自动补充到敏感词数据库中,包括:
28.捕捉所述人工对候选音近词的判断指令,并对所述判断指令进行解析,获取得到若干条子判断条件;
29.提取每条子判断条件的当下判断差异;
30.基于预设敏感条件,判断对应的当下判断差异是否在预设差异范围内,若是,判定对应的子判断条件合格;
31.当所述子判断条件都合格时,所述判断指令与预设敏感条件有关。
32.在一种可能实现的方式中,对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展的过程中,还包括:
33.溯源所述敏感词数据库,提取与所述候选音近词相关的初始历史敏感词,构建不同初始历史敏感词的初始衍生链,并结合网络敏感词爬取结果,对所述初始衍生链进行优化,得到历史衍生链;
34.判断每个历史衍生链中的初始敏感词中是否存在字母字符,并将存在字母字符的历史衍生链视为第一类,并对所述初始敏感词中不存在字母字符的历史衍生链中的剩余历史敏感词中是否存在字母字符进行再次判断;
35.根据再次判断结果,提取剩余敏感词中不存在字母字符的历史衍生链,并视为第二类,同时,将剩余历史衍生链,视为第三类;
36.确定所述历史衍生链中初始历史敏感词对应的初始历史拼音以及每次衍生之后的修改历史拼音,获取得到历史拼音追溯信息;
37.统计同个历史衍生链中的不同历史敏感词的历史搜索时间集以及历史搜索频率集,构建同个历史衍生链的第一曲线图;
38.按照所述历史拼音追溯信息,获取所述同个历史衍生链的历史衍生总时长以及每个衍生阶段的衍生分时长,构建得到第二曲线图;
39.基于曲线分析模型,对所述第一曲线图以及第二曲线图进行预分析,同时,结合对应的同个历史衍生链的分类类型,得到对应同个历史衍生链中不同历史敏感词的第一敏感贡献程度以及对应的同个历史衍生链的第二敏感贡献程度;
40.从所述同个历史衍生链中提取第一敏感贡献程度大于第一预设敏感贡献程度的第一敏感词,并按照第一敏感贡献程度对同个历史衍生链中的所有第一敏感词进行排序;
41.当所述第二敏感贡献程度大于第二预设敏感程度时,依据排序结果,建立对应的第一敏感词与对应的同个历史衍生链的第一映射关系;
42.否则,依据排序结果,建立对应的第一敏感词的第二映射关系;
43.基于敏感变化捕捉模型,对所有第一映射关系、第二映射关系进行捕捉分析,输出得到敏感变化规律,基于所述敏感变化规律,构建敏感词汇辅助变化列表;
44.基于所述敏感词汇辅助变化列表,确定对所述候选音近词的词汇调整类型;
45.基于所述词汇调整类型,确定对应的调整音近词。
46.在一种可能实现的方式中,得到对应同个历史衍生链中不同历史敏感词的第一敏感贡献程度以及对应的同个历史衍生链的第二敏感贡献程度,包括:
47.根据如下公式,计算对应的同个历史衍生链中不同历史敏感词的第一敏感贡献程度bi(t,p);
[0048][0049]
其中,sum{ti}表示对应的同个历史衍生链中的第i个历史敏感词的历史搜索时间集的总搜索时长;ti表示对应的第i个历史敏感词的历史搜索时间集;sum{pi}表示对应的同个历史衍生链中的第i个历史敏感词的历史搜索频率集的总搜索频率;pi表示对应的第i个历史敏感词的历史搜索频率集;gi表示所统计的对第i个历史敏感词的搜索频率;ti表示对应的同个历史衍生链中的第i个历史敏感词对应的衍生分时长;表示对应的同个历史衍生链的历史衍生总时长;表示所统计的对对应同个历史衍生链中所有历史敏感词的总搜索频率;
[0050]
根据如下公式,计算对应的同个历史衍生链的第二敏感贡献程度y;
[0051][0052]
其中,表示对应的同个历史衍生链的分类类型,当为第一类时,取值为0.9,当为第二类时,取值为0.8,当为第三类时,取值为1;n表示对应的同个历史衍生链中包含的历史敏感词的总个数;ai表示对应的同个历史衍生链中的第i个历史敏感词的历史修改距离;bi(t,p)表示对应的同个历史衍生链中的第i个历史敏感词基于历史搜索时间集t以及历史搜索频率集p得到的第一敏感贡献程度;表示对应的同个历史衍生链中的所有历史敏感词基于历史搜索时间集t以及历史搜索频率集p得到的总敏感贡献程度;表示基于第二曲线图确定的同个历史衍生链中的第i个历史敏感词对应的时间衍生因子;
表示基于第一曲线图确定的同个历史衍生链中的第i个历史敏感词对应的敏感贡献因子;
[0053]
基于所有第一敏感贡献程度与第二敏感贡献程度进行第一敏感词的提取。
[0054]
在一种可能实现的方式中,所述当下判断差异指的是所述人工对同个子判断条件的实际评判结果以及与所述子判断条件的预设评判标准之间的差异。
[0055]
在一种可能实现的方式中,基于所述拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换的过程中,包括:
[0056]
确定所述敏感词数据库中每个第二敏感词的第一词延伸子集合,并构建每个第一词延伸子集合的第一延伸子列表;
[0057]
对每个第一延伸子列表进行敏感词的完全重叠处理,并获取得到若干个最大囊括范围的第二词延伸子集合,其中,所述第二词延伸子集合包括:只由一个单独敏感词构成的第一延伸子集以及由多个敏感词构成的第二延伸子集;
[0058]
确定所述第一延伸子集的第一个数以及第二延伸子集的第二个数,并将所述第一个数与第二个数进行比较;
[0059]
若所述第一个数大于或等于第二个数,优先按照所述第一延伸子集中敏感词的使用频率,对所述第一延伸子集设置第一替换标签,并按照第一替换标签的标签替换时间属性,对对应第一延伸子集中的敏感词中的任意字拼音进行先后顺序替换;
[0060]
否则,优先确定所述第二延伸子集中的中心敏感词,并确定基于所述中心敏感词进行延伸的每个延伸敏感词的延伸含义、以及每个延伸敏感词基于中心敏感词的第一拼音修改位置-时间集合与基于相邻敏感词的第二拼音修改位置-时间集合;
[0061]
基于延伸含义、所述第一拼音修改位置-时间集合以及第二拼音修改位置-时间集合,获取得到对应延伸敏感词的延伸程度;
[0062]
按照标准转换规则,将对应第二延伸子集中的每个延伸敏感词的延伸程度,转换为对应的延伸序列,并按照延伸敏感词的先后产生顺序,得到对应第二延伸子集的延伸序列;
[0063]
按照所述延伸序列中每个序列的大小一致性,对所述延伸序列进行区域拆分,得到若干子区域,并分别按照每个子区域的众值序列,向对应子区域进行第二替换标签的设置;
[0064]
按照所述第二替换标签的标签替换时间属性,对同个第二延伸子集中的不同子区域的延伸敏感词的任意字拼音进行先后顺序替换。
[0065]
与现有技术相比,本技术的有益效果如下:
[0066]
通过使用已有敏感词库和音近词表,推测黑产可能会使用的敏感词的音近字变体,来前置的解决整个环节的漏放可能性大、耗时长等特性,进而提高所提取关键词的有效性。
[0067]
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0068]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0069]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0070]
图1为本发明实施例中一种音近敏感词的扩展方法的流程图;
[0071]
图2为本发明实施例中一种音近敏感词的扩展方法的具体实施图。
具体实施方式
[0072]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0073]
实施例1:
[0074]
本发明提供一种音近敏感词的扩展方法,如图1所示,包括:
[0075]
步骤1:对合法拼音表中的拼音两两组合;
[0076]
步骤2:获取每个两两组合结果的编辑距离,并根据所述编辑距离提取得到音近拼音组,构建得到拼音-音近拼音表;
[0077]
步骤3:基于所述拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,并基于拼音-汉字表,将替换的任意字拼音映射成文字,构造得到候选音近词;
[0078]
步骤4:对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展。
[0079]
优选的,所述合法拼音表以及拼音-汉字表中只包括发音拼音,不包括发音声调。
[0080]
该实施例中,编辑距离可以通过莱文斯坦方法来计算得到,比如,两两组合结果为:拼音li和拼音ni,此时,拼音“li”和“ni”的编辑距离为1,因为从“l”替换为“n”只需要一步。
[0081]
该实施例中,合法拼音表可以是现有的汉语拼音构成的,且拼音-音近拼音表,比如是由上述“li”和“ni”类似两两组合的拼音构成的,表示一个拼音与其音近的拼音的映射关系。拼音-汉字表也可以是基于现有拼音以及与拼音对应的汉字构成的,表示一个拼音拼音与其发音对应的同音汉字的映射关系。
[0082]
该实施例中,敏感词数据库是预先构建好的。
[0083]
该实施例中,候选音近词指的是拼音音近替换之后得到的词。
[0084]
该实施例中,预判断指的是由人工判断,候选音近词是否可以保留,可以保留的话,补充扩展到对应的敏感词数据库中,不可以保留的话,直接剔除。该实施例中,基于拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换,比如:拼音“zhihusou”可将其中的“zhi”替换为“zi”,且使用同音字表,将音近拼音替换后的拼音映射成文字,即“zihusou”可映射成“字乎搜”,具体流程参见图2所示。
[0085]
该实施例中,通过使用莱文斯坦距离定义音近拼音的方式来产生音近字,继而扩展敏感词库,提前生成敏感词可能有的一些变体,经人工审核后剔除无法读懂的敏感词,将易读懂的变体加入到敏感词库中,达到识别垃圾文本的效果。
[0086]
同时,通过添加敏感词这种解决方案,对比一些使用复杂语言识别模型的解决方案,例如bert,具有迭代速度快,周期短的特点。
[0087]
上述技术方案的有益效果是:通过使用已有敏感词库和音近词表,推测黑产可能会使用的敏感词的音近字变体,来前置的解决整个环节的漏放可能性大、耗时长等特性,进
而提高所提取关键词的有效性。
[0088]
实施例2:
[0089]
基于实施例1的基础上,获取每个两两组合结果的编辑距离,并根据所述编辑距离提取得到音近拼音组,构建得到拼音-音近拼音表,包括:
[0090]
计算两两组合结果的编辑距离;
[0091]
判断所述编辑距离是否大于预设距离;
[0092]
若是,判定对应的组合结果中的第一拼音和第二拼音互不为音近拼音;
[0093]
否则,判定对应的组合结果中的第一拼音和第二拼音互为音近拼音;
[0094]
提取互为音近拼音的所有音近拼音组,并构建得到拼音-音近拼音表。
[0095]
该实施例中,预设距离可以设为2。
[0096]
上述技术方案的有益效果是:通过距离比较,可以有效的初步确定音近以及不音近,为后续推测音近字变体提供基础。
[0097]
实施例3:
[0098]
基于实施例1的基础上,对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展,包括:
[0099]
获取人工对候选音近词的判断指令,并判断所述判断指令是否与预设敏感条件相关;
[0100]
当所述判断指令与预设敏感条件有关时,将所述候选敏感词自动补充到敏感词数据库中;
[0101]
当所述判断指令与预设敏感条件无关时,将所述候选敏感词丢弃。
[0102]
该实施例中,比如存在,敏感词,a1,此时,对应的判断指令是,敏感词a1中的某个字可以作为敏感字,且此时,这个敏感字也满足预设敏感条件,就可以视为相关,也及时扩展的敏感词是否容易被读懂,意思指向是否明显,是否有歧义的等之类的标准。
[0103]
上述技术方案的有益效果是:通过对人工判断指令进行分析,来确定是否将候选敏感词丢弃,保证敏感词数据库的合理性。
[0104]
实施例4:
[0105]
基于实施例1的基础上,对合法拼音表中的拼音两两组合,包括:
[0106]
按照每个拼音的拼音长度进行第一分类;
[0107]
对每个第一分类结果中的拼音按照拼音首字母类型进行第二分类;
[0108]
基于第一分类结果以及第二分类结果,得到不同拼音长度的拼音集合;
[0109]
对所述拼音集合中的拼音进行两两组合。
[0110]
该实施例中,比如,先按照拼音长度:2个长度、3个长度等,来进行分类,其次,再按照2个长度中的26个字母的优先顺序进行第二分类,来得到拼音集合,进行两两组合,且拼音集合指的是不同长度下对应的同个首字母构建的集合。
[0111]
上述技术方案的有益效果是:通过拼音长度分类以及拼音首字母分类,可以有效的对拼音表的拼音两两组合,提高组合效率,进而提高后续获取编辑距离的效率。
[0112]
实施例5:
[0113]
基于实施例3的基础上,当所述判断指令与预设敏感条件有关时,将所述候选敏感词自动补充到敏感词数据库中,包括:
[0114]
捕捉所述人工对候选音近词的判断指令,并对所述判断指令进行解析,获取得到若干条子判断条件;
[0115]
提取每条子判断条件的当下判断差异;
[0116]
基于预设敏感条件,判断对应的当下判断差异是否在预设差异范围内,若是,判定对应的子判断条件合格;
[0117]
当所述子判断条件都合格时,所述判断指令与预设敏感条件有关。
[0118]
优选的,所述当下判断差异指的是所述人工对同个子判断条件的实际评判结果以及与所述子判断条件的预设评判标准之间的差异。
[0119]
该实施例中,子判断条件就可以是针对的敏感词中的某个字是否是敏感字之类的判断条件,且对应的预设评判标准是该敏感字的敏感热度达到某个值,则可视为满足对应的预设评判标准。
[0120]
上述技术方案的有益效果是:通过确定子判断条件与预设评判标准之间的差异,可以有效的对候选敏感词进行自动补充扩展,提高后续推测音近字变体的准确性。
[0121]
实施例6:
[0122]
基于实施例1的基础上,对所述候选音近词进行预判断,实现对敏感词数据库的补充扩展的过程中,还包括:
[0123]
溯源所述敏感词数据库,提取与所述候选音近词相关的初始历史敏感词,构建不同初始历史敏感词的初始衍生链,并结合网络敏感词爬取结果,对所述初始衍生链进行优化,得到历史衍生链;
[0124]
判断每个历史衍生链中的初始敏感词中是否存在字母字符,并将存在字母字符的历史衍生链视为第一类,并对所述初始敏感词中不存在字母字符的历史衍生链中的剩余历史敏感词中是否存在字母字符进行再次判断;
[0125]
根据再次判断结果,提取剩余敏感词中不存在字母字符的历史衍生链,并视为第二类,同时,将剩余历史衍生链,视为第三类;
[0126]
确定所述历史衍生链中初始历史敏感词对应的初始历史拼音以及每次衍生之后的修改历史拼音,获取得到历史拼音追溯信息;
[0127]
统计同个历史衍生链中的不同历史敏感词的历史搜索时间集以及历史搜索频率集,构建同个历史衍生链的第一曲线图;
[0128]
按照所述历史拼音追溯信息,获取所述同个历史衍生链的历史衍生总时长以及每个衍生阶段的衍生分时长,构建得到第二曲线图;
[0129]
基于曲线分析模型,对所述第一曲线图以及第二曲线图进行预分析,同时,结合对应的同个历史衍生链的分类类型,得到对应同个历史衍生链中不同历史敏感词的第一敏感贡献程度以及对应的同个历史衍生链的第二敏感贡献程度;
[0130]
从所述同个历史衍生链中提取第一敏感贡献程度大于第一预设敏感贡献程度的第一敏感词,并按照第一敏感贡献程度对同个历史衍生链中的所有第一敏感词进行排序;
[0131]
当所述第二敏感贡献程度大于第二预设敏感程度时,依据排序结果,建立对应的第一敏感词与对应的同个历史衍生链的第一映射关系;
[0132]
否则,依据排序结果,建立对应的第一敏感词的第二映射关系;
[0133]
基于敏感变化捕捉模型,对所有第一映射关系、第二映射关系进行捕捉分析,输出
得到敏感变化规律,基于所述敏感变化规律,构建敏感词汇辅助变化列表;
[0134]
基于所述敏感词汇辅助变化列表,确定对所述候选音近词的词汇调整类型;
[0135]
基于所述词汇调整类型,确定对应的调整音近词。
[0136]
该实施例中,通过构建敏感词汇辅助变化列表,是为了进一步实现对敏感词数据库的补充,保证补充的合理性,极大程度上丰富了数据库数据基础。
[0137]
该实施例中,比如,存在候选音近词1、2、3,此时,从敏感词数据库中,获取与候选音近词1、2、3相关的初始历史敏感词,也就是找到最开始的敏感词,以此,基于敏感词数据库本身,来获取初始历史敏感词的初始衍生链。
[0138]
该实施例中,由于网络技术的发展,在确定音近词的过程中,会存在一些字符更替或者用其他的别称代替原先敏感词的情况,因此,通过与网络敏感词爬取结果的结合,可以有效的得到历史衍生链。
[0139]
该实施例中,由于初始衍生链可能是通过文字表述的,但是经过优化之后,可能存在出现字母表述等的情况,因此,可以通过对初始敏感词、剩余敏感词等的字母字符的判断,来确定对应的历史衍生链所属的类型。
[0140]
该实施例中,可以通过字母字符的判断,为确定敏感词的更改规律提供基础,比如,初始衍生链为00-01-02-1,优化后的历史衍生链为00-01-001-02-002-1,且优化可以是对初始衍生链增加敏感词等。
[0141]
该实施例中,初始历史拼音指的是初始敏感词的,且每次衍生之后的修改历史拼音,就比如,从00衍生到01,01针对00的修改历史拼音,进而得到历史拼音追溯信息,也就是00衍生到01,01衍生到001,001衍生到002,002衍生到1的一个拼音修改信息。
[0142]
该实施例中,历史搜索时间集指的是从该敏感词从衍生开始—截止目前,所对应的所有搜索时间点,即可构成历史搜索时间集,且从衍生开始-截止目前,所对应的所有搜索次数,即可构成历史搜索频率集。
[0143]
该实施例中,第一曲线图就是由于搜索时间点以及每个搜索时间点的搜索次数构成的,且第二曲线图就是由于总时长以及分时长构成的,其中,历史衍生总时长指的是历史衍生链:00-01-001-02-002-1中,从00到1的衍生时长,且从00-01,01-001等各段的衍生时长视为衍生分时长。
[0144]
该实施例中,对曲线图进行预分析,也就是主要为了确定敏感词以及衍生链的敏感贡献程度。
[0145]
该实施例中,第一预设敏感贡献程度、第二预设敏感程度都是预先设置好的,假如:第二敏感贡献程度大于第二预设敏感程度,此时,按照第一敏感贡献程度对第一敏感词进行排序,并按照偏序结果,构建与历史衍生链的映射关系,否则,只构建第一敏感词的映射关系,主要是为了排除敏感词汇的费敏感贡献情况。
[0146]
该实施例中,敏感变化捕捉模型是基于各种各样的映射关系以及对应的规律为样本训练得到的,因此,可以通过对第一映射关系以及第二映射关系的训练,来得到敏感变化规律,进而得到敏感词汇辅助变化列表,其中,敏感词汇辅助变化列表是包含各种不同的敏感变化体(拼音、字母、文字等的变化),以此,来确定可以对候选敏感词进行调整的辅助类类型,也就是,比如,将候选音近词调整为用某个字符表示的情况,最后通过对候选音近词以及调整音近词进行综合判断,来丰满敏感词数据库。
[0147]
上述技术方案的有益效果是:通过构建历史衍生链,以及对不同曲线图的分析,可以有效的获取到不同的映射关系,进而通过模型分析,可以获取到调整类型,进而获取得到调整音近词,进一步,来提高单纯的按照拼音更改来得到的候选音近词,可以进一步丰富敏感词数据库,也就是进一步为解决整个环节的漏放可能性大、耗时长等特性提供基础,也间接提高所提取关键词的有效性。
[0148]
实施例7:
[0149]
基于实施例6的基础上,得到对应同个历史衍生链中不同历史敏感词的第一敏感贡献程度以及对应的同个历史衍生链的第二敏感贡献程度,包括:
[0150]
根据如下公式,计算对应的同个历史衍生链中不同历史敏感词的第一敏感贡献程度bi(t,p);
[0151][0152]
其中,sum{ti}表示对应的同个历史衍生链中的第i个历史敏感词的历史搜索时间集的总搜索时长;ti表示对应的第i个历史敏感词的历史搜索时间集;sum{pi}表示对应的同个历史衍生链中的第i个历史敏感词的历史搜索频率集的总搜索频率;pi表示对应的第i个历史敏感词的历史搜索频率集;gi表示所统计的对第i个历史敏感词的搜索频率;ti表示对应的同个历史衍生链中的第i个历史敏感词对应的衍生分时长;表示对应的同个历史衍生链的历史衍生总时长;表示所统计的对对应同个历史衍生链中所有历史敏感词的总搜索频率;
[0153]
根据如下公式,计算对应的同个历史衍生链的第二敏感贡献程度y;
[0154][0155]
其中,表示对应的同个历史衍生链的分类类型,当为第一类时,取值为0.9,当为第二类时,取值为0.8,当为第三类时,取值为1;n表示对应的同个历史衍生链中包含的历史敏感词的总个数;ai表示对应的同个历史衍生链中的第i个历史敏感词的历史修改距离;bi(t,p)表示对应的同个历史衍生链中的第i个历史敏感词基于历史搜索时间集t以及历史搜索频率集p得到的第一敏感贡献程度;表示对应的同个历史衍生链中的所有历史敏感词基于历史搜索时间集t以及历史搜索频率集p得到的总敏感贡献程度;表示基于第二曲线图确定的同个历史衍生链中的第i个历史敏感词对应的时间衍生因子;表示基于第一曲线图确定的同个历史衍生链中的第i个历史敏感词对应的敏感贡献因子;
[0156]
基于所有第一敏感贡献程度与第二敏感贡献程度进行第一敏感词的提取。
[0157]
该实施例中,时间衍生因子以及敏感贡献因子,可以是相关的时间占比比例以及敏感贡献占比比例,且取值范围为(0,1)。
[0158]
该实施例中,历史修改距离应该为0,1或2,主要是考虑对应的编辑距离满足预设
距离的情况。
[0159]
上述技术方案的有益效果是:通过按照上述公式分别计算同个历史衍生链中的第一敏感贡献程度以及对应衍生链的第二敏感贡献程度,可以对后续敏感词进行有效提取,提高提取效率,且还可以提高建立映射关系的效率,保证后续推测音近字变体的可靠性。
[0160]
实施例8:
[0161]
基于实施例1的基础上,基于所述拼音-音近拼音表对敏感词数据库中的敏感词中的任意字拼音进行替换的过程中,包括:
[0162]
确定所述敏感词数据库中每个第二敏感词的第一词延伸子集合,并构建每个第一词延伸子集合的第一延伸子列表;
[0163]
对每个第一延伸子列表进行敏感词的完全重叠处理,并获取得到若干个最大囊括范围的第二词延伸子集合,其中,所述第二词延伸子集合包括:只由一个单独敏感词构成的第一延伸子集以及由多个敏感词构成的第二延伸子集;
[0164]
确定所述第一延伸子集的第一个数以及第二延伸子集的第二个数,并将所述第一个数与第二个数进行比较;
[0165]
若所述第一个数大于或等于第二个数,优先按照所述第一延伸子集中敏感词的使用频率,对所述第一延伸子集设置第一替换标签,并按照第一替换标签的标签替换时间属性,对对应第一延伸子集中的敏感词中的任意字拼音进行先后顺序替换;
[0166]
否则,优先确定所述第二延伸子集中的中心敏感词,并确定基于所述中心敏感词进行延伸的每个延伸敏感词的延伸含义、以及每个延伸敏感词基于中心敏感词的第一拼音修改位置-时间集合与基于相邻敏感词的第二拼音修改位置-时间集合;
[0167]
基于延伸含义、所述第一拼音修改位置-时间集合以及第二拼音修改位置-时间集合,获取得到对应延伸敏感词的延伸程度;
[0168]
按照标准转换规则,将对应第二延伸子集中的每个延伸敏感词的延伸程度,转换为对应的延伸序列,并按照延伸敏感词的先后产生顺序,得到对应第二延伸子集的延伸序列;
[0169]
按照所述延伸序列中每个序列的大小一致性,对所述延伸序列进行区域拆分,得到若干子区域,并分别按照每个子区域的众值序列,向对应子区域进行第二替换标签的设置;
[0170]
按照所述第二替换标签的标签替换时间属性,对同个第二延伸子集中的不同子区域的延伸敏感词的任意字拼音进行先后顺序替换。
[0171]
该实施例中,敏感词数据库中存在第二敏感词:1、2、3和4,此时,分别由第二敏感词1、2、3和4构建对应的第一词延伸子集合,比如:第二敏感词1对应的第一词延伸子集合为:1、2,第二敏感词2对应的第一词延伸子集合为1、2、3,第二敏感词3对应的第一词延伸子集合为2、3,第二敏感词4对应的第一词延伸子集合为4,此时,进行完全重叠处理之后,得到的第二延伸子集为:4,以及第二延伸子集1、2、3,两者子集对应的个数都是一个,此时,对两者子集可以随机对其中任何一个子集进行优先处理。
[0172]
该实施例中,敏感词的使用频率指的是搜索频率,此时是针对从敏感词数据库中来获取的敏感词的搜索频率,且使用频率越高,代表需要对其进行替换处理的可能性越大,也就是,优先替换的标签时间越靠前。比如,存在两个第一延伸子集,第一个第一延伸子集
中的敏感词的使用频率高于第二个第一延伸子集中的敏感词的使用频率,此时,可以对第一个第一延伸子集中的敏感词进行优先替换,直到都替换完成之后,再对于第二个第一延伸子集中的敏感词进行替换,也就是通过设置优先替换顺序,一是保证替换的有效进行,一个是提高替换效率。
[0173]
该实施例中,第二延伸子集中的中心敏感词,比如是:可以是在进行完全重叠处理过程中提取得到的,比如:第一词延伸子集合1、2,1、2、3,2、3,对应的中心敏感词可以为2。也就是重叠数量最大的敏感词视为中心敏感词,如果是存在重叠数量最大一致的多个敏感词,从中随意筛选一个作为中心敏感词。
[0174]
该实施例中,延伸含义指的是该延伸敏感词的网络含义,拼音修改位置-时间集合,是指的时间以及修为字母的字母位置所对应构成的一个集合,进而来获取延伸程度,修改时间点越多,修改位置越多以及延伸含义越敏感,对应的延伸程度越深,也就是基于标准转换规则,将该延伸程度转换为延伸序列的取值越大,一般取值为(0,1)。
[0175]
该实施例中,比如:第二延伸子集中的延伸序列为:0 0.3 0.2 0.1 0 0 0 1 1 0.8,对该序列进行大小一致性划分,比如:子区域:0 0.3 0.2 0.1 0 0 0,对应的众值序列为0,子区域:1 1 0.8,对应的众值序列为1。此时,可以按照对应的众值序列大小,来进行标签替换时间的设定,进而来确定顺序。
[0176]
上述技术方案的有益效果是:通过确定延伸子列表、完全重叠处理,可以有效获取第一延伸子集和第二延伸子集,通过进行替换标签的设置以及标签替换时间属性的确定,可以有效的进行拼音的顺序替换,其中,在对第二延伸子集中的拼音替换过程中,需要获取延伸敏感词的延伸程度,以此通过序列确定,来对第二延伸子集进行一个区域划分,以此,来保证对变化程度大的替换字优先处理,保证变体效率,提高后续推测音近字变体的可靠性。
[0177]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1