本申请涉及文本处理,具体涉及一种用于训练导流识别模型的负样本生成方法及相关设备。
背景技术:
1、目前,人们可以在互联网平台发布各种媒体内容以及评论,而这些媒体内容以及评论中会出现导流文本,准确识别出这些导流文本更有利于维持互联网平台的秩序。
2、现有方案主要是通过不断搜集互联网平台新出现的导流文本(即未能被导流识别模型所识别的负样本),然后就以这些新的导流文本即新的负样本又重新训练导流识别模型,使得导流识别模型又可以识别出这些新的导流文本。
3、但是,上述导流识别模型的新的负样本是随着新的导流文本的出现而出现,时效性较差,进而降低导流识别模型的精度。
技术实现思路
1、本申请提供了一种用于训练导流识别模型的负样本生成方法及相关设备,通过构造用于训练导流识别模型的负样本,解决了时效性的问题,进而可以提高导流识别模型的精度。
2、第一方面,本申请提供一种用于训练导流识别模型的负样本生成方法及相关设备,该方法包括:
3、获取多个初始导流文本;
4、对每个初始导流文本进行分类,得到每个初始导流文本为预设类别的第一置信度;
5、针对第一导流文本,获取与第一导流文本对应的初始提示词,其中,第一导流文本为第一置信度大于或者等于第一阈值的初始导流文本中的任意一个;
6、基于初始提示词,对第一导流文本进行变体,得到与第一导流文本对应的目标变体文本,其中,目标变体文本被分类为预设类别的置信度小于第一阈值;
7、基于第一置信度小于第一阈值的初始导流文本中的每个初始导流文本对应的目标变体文本、第一置信度小于第一阈值的初始导流文本,得到负样本。
8、第二方面,本申请提供一种用于训练导流识别模型的负样本生成装置,该装置包括:获取单元和处理单元;
9、获取单元,用于获取多个初始导流文本;
10、处理单元,用于对每个初始导流文本进行分类,得到每个初始导流文本为预设类别的第一置信度;
11、针对第一导流文本,获取单元,还用于获取与第一导流文本对应的初始提示词,其中,第一导流文本为第一置信度大于或者等于第一阈值的初始导流文本中的任意一个;
12、处理单元,还用于基于初始提示词,对第一导流文本进行变体,得到与第一导流文本对应的目标变体文本,其中,目标变体文本被分类为预设类别的置信度小于第一阈值;
13、处理单元,还用于基于第一置信度小于第一阈值的初始导流文本中的每个初始导流文本对应的目标变体文本、第一置信度小于第一阈值的初始导流文本,得到负样本。
14、第三方面,本申请提供一种电子设备,包括:处理器和存储器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。
15、第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。
16、第五方面,本申请提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。
17、实施本申请,通过获取多个初始导流文本,然后对每个初始导流文本进行分类,得到每个初始导流文本为预设类别的第一置信度,也就是说,虽然多个初始导流文本都是导流文本,但导流识别模型而言,该多个初始导流文本又可以被分为简单样本(即可以被导流识别模型识别为导流文本的文本)和困难样本(即不可以被导流识别模型识别为导流文本的文本),所以采用导流识别模型确定每个初始导流文本为导流类别的置信度;然后针对第一导流文本即为第一置信度大于或者等于第一阈值的初始导流文本中的任意一个,也可以理解为上述简单样本中的任意一个,获取与第一导流文本对应的初始提示词,其中,初始提示词用于指示对文本进行变体;然后基于初始提示词,对第一导流文本进行变体,得到与第一导流文本对应的目标变体文本,其中,目标变体文本被分类为预设类别的置信度小于第一阈值,也就是说,针对多个初始导流文本中可以被导流识别模型识别出来的简单样本中的每个初始导流文本,采用提示词对其进行变体,得到被分类为预设类别的置信度小于第一阈值的目标变体文本,即该目标变体文本不能被导流识别模型识别为导流文本,该目标变体文本对导流识别模型而言属于困难样本;然后基于多个初始导流识别文本中第一置信度小于第一阈值的初始导流文本(即对导流识别模型而言属于困难样本)、第一置信度小于第一阈值的初始导流文本中的每个初始导流文本对应的目标变体文本,得到用于训练导流识别模型的负样本,不需要一直搜集新出现的导流文本作为负样本,本申请的负样本直接囊括了各种导流样本的变形,进而使用这些负样本训练导流识别模型,使得在出现新的导流变形文本时导流识别模型可以有效识别出,而不需要重新训练模型,提高了导流识别模型的识别精度。
1.一种用于训练导流识别模型的负样本生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始提示词,对所述第一导流文本进行变体,得到与所述第一导流文本对应的目标变体文本,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述初始提示词,对所述第一导流文本进行变体,得到与所述第一导流文本对应的第一变体文本,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一相似度和所述第二变体文本,得到所述第一变体文本,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述初始提示词,对所述第二变体文本进行变体,直至得到所述第一变体文本,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述初始提示词进行调整,得到第一提示词,包括:
7.根据权利要求3-6任一项所述的方法,其特征在于,所述基于所述初始提示词,对所述第一导流文本进行变体,得到第二变体文本,包括:
8.根据权利要求1-7任一项所述的方法,其特征在于,在所述得到所述负样本之后,所述方法还包括:
9.一种用于训练导流识别模型的负样本生成装置,其特征在于,所述装置包括:获取单元和处理单元;
10.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-8中任一项所述的方法。