技术特征:
1.一种基于mask训练的辱骂识别方法,包括dusbert训练模型,其特征在于,具体包括以下步骤:s1:数据准备;s2:数据清洗;s3:构造字典;s4:数据增强;s5:分词构建输入;s6:mask训练;s7:结束。2.根据权利要求1所述的基于mask训练的辱骂识别方法,其特征在于,所述s1的步骤中,从网络上收集脏话数据,另外收集不带脏词但语义上是辱骂的的文本,该文本实验中不作为训练数据,而仅仅作为特殊测试数据,非辱骂文本来自于之前各种任务的随机抽样,并通过人工筛选和增加,存在脏字脏词但非辱骂文本,加入特殊测试集。3.根据权利要求2所述的基于mask训练的辱骂识别方法,其特征在于,所述s2的步骤中,通过人工筛选的通过一些预处理手段对这些文本清洗。4.根据权利要求3所述的基于mask训练的辱骂识别方法,其特征在于,所述s3的步骤中,基于收集到的语料,将预料中的脏词按字的粒度构成一个字典。5.根据权利要求4所述的基于mask训练的辱骂识别方法,其特征在于,所述s4的步骤中,基于上述的字典数据随机做一些增强,增强的手段如转换成拼音、转换成火星文、将字进行一些拆分、随机加入一些噪音字符,将这些增强后的字符也同样加入到字典中,这里的增强仅仅对相应字典脏字脏词的数据进行增强,随后将数据按7:2:1的比例分成训练集、验证集、测试集。6.根据权利要求5所述的基于mask训练的辱骂识别方法,其特征在于,所述s5的步骤中,经过数据增强后,我们对文本进行词性标注pos,考虑到对于收集文本的特点,分词采用的是ltp,然后将pos后的词以及词性一起作为bert的输入。7.根据权利要求6所述的基于mask训练的辱骂识别方法,其特征在于,所述s6步骤中,训练过程中,当某个文本中存在上述步骤中字典包含的字,则以0.98的概率将改字替换成dusbert(bert)预训练任务的特殊token——[mask],而对于不在该字典的词则以0.05的概率随机替换成[mask],所以最后输入到dusbert的形式可能是[cls][p0][mask][p0][p1][w1][p1][mask]...[sep];取除了[cls]、[sep]的所有token的编码进行平均池化,再接ffn做2分类任务,采用梯度传播更新网络参数。8.根据权利要求7所述的基于mask训练的辱骂识别方法,其特征在于,测试时,不对文本进行mask训练中的替换,而是采用分词构建输入的输入形式进行预测,当ffn输出的sigmoid值大于0.5时是辱骂,反之,不是。
技术总结
本发明属于数据挖掘技术领域,尤其是基于MASK训练的辱骂识别方法,包括DusBERT训练模型,具体包括以下步骤:S1:数据准备;S2:数据清洗;S3:构造字典;S4:数据增强;S5:分词构建输入;S6:MASK训练;S7:结束,所述S1的步骤中,从网络上收集脏话数据,另外收集不带脏词但语义上是辱骂的的文本,该文本实验中不作为训练数据,而仅仅作为特殊测试数据,非辱骂文本来自于之前各种任务的随机抽样。本发明从特殊测试集上来看,不需要额外准备数据,大大节省成本且达到较高水平,在未使用特殊测试集训练的情况下,能够区分包含脏字脏词但非辱骂语义以及暗喻辱骂文本,足可见模型方法的泛华能力。足可见模型方法的泛华能力。足可见模型方法的泛华能力。
技术研发人员:赵继帆 吉庆琳
受保护的技术使用者:北京尘锋信息技术有限公司
技术研发日:2021.12.30
技术公布日:2022/4/8