文本标签生成、模型训练、文本分类方法及相关设备与流程

文档序号:34178380发布日期:2023-05-17 07:10阅读:140来源:国知局
文本标签生成、模型训练、文本分类方法及相关设备与流程

本技术涉及自然语言处理,尤其涉及一种文本标签生成、模型训练、文本分类方法及相关设备。


背景技术:

1、目前用于自然语言处理(natural language processing,nlp)的预训练语言模型主要集中于对输入数据的编码,具体包括对样本文本的编码和样本文本对应的类别标签的编码。

2、在文本分类任务中,尤其是层次分类任务,对样本语料对应的类别标签的编码至关重要。相关技术中对于类别标签的编码,通常是从样本语料中找出关键词作为用于表示样本语料所属类别的类别标签,然后对该关键词进行编码,以实现对类别标签的编码。

3、但是,实际应用中关键词的内涵意义会受到语境的影响,而上述方式得到的类别标签的含义受限于关键词在样本语料中的语义而无法表示描述样本语料所属的类别,导致影响后续基于样本文本及其对应的类别标签各自的编码结果训练出的文本分类模型的准确性,进而影响基于文本分类模型的文本分类任务的执行准确性。


技术实现思路

1、本技术实施例的目的提供一种文本标签生成、模型训练、文本分类方法及相关设备,用于解决相关技术中得到的类别标签无法准确描述样本语料所属的类别而影响后续训练出的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。

2、为了实现上述目的,本技术实施例采用下述技术方案:

3、第一方面,本技术实施例提供一种文本标签生成方法,包括:

4、基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取所述样本文本对应的元概念路径,其中,所述概念树用于表示多个元概念之间的层级关系,所述元概念路径用于表示所述概念树中与所述样本文本相关的多个目标元概念以及所述多个目标元概念之间的层级关系;所述概念树中的一个元概念是用于表示词语的词义的语言单元;

5、基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找,确定所述样本文本对应的标签词语,其中,所述标签词语用于表示所述样本文本在所述目标分类任务下所属的类别;所述预设元概念表用于表示词语与词向量之间的映射关系;

6、将所述标签词语确定为所述样本文本对应的类别标签。

7、通过本技术实施例提供的文本标签生成方法,考虑到元概念是对人类所感知的事物的共同本质特点进行抽象获得的信息,其能够真实、准确地描述事物的内涵意义,因而能够将不同事物从本质上区分开来而不受语境的影响,基于此,利用预先构建好的表示多个元概念之间的层级关系的概念树,基于目标分类任务对应的样本文本中的关键词从概念树中确定与样本文本相关的多个目标元概念以及多个目标元概念之间的层级关系,使得这些目标元概念能够从根本上反映样本文本的语义;进一步,基于多个目标元概念之间的层级关系,确定样本文本对应的标签词语作为类别标签,使得样本文本的语义能够通过多个目标元概念之间的层级关系得到增强,进而使得获得的作为类别标签的标签词语能够更准确地表示样本文本在目标分类任务下所属的类别,从而为文本分类模型提供更准确的监督信号,有利于提高后续基于样本文本及其对应的类别标签训练得到的文本分类模型的准确性以及基于文本分类模型的文本分类任务的执行准确性。

8、第二方面,本技术实施例提供一种文本分类模型的训练方法,包括:

9、获取目标分类任务对应的样本文本以及所述样本文本对应的类别标签,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的;

10、对所述样本文本进行编码,得到所述样本文本对应的文本向量;

11、对所述类别标签进行编码,得到所述类别标签对应的标签向量;

12、基于所述样本文本对应的文本向量以及所述类别标签对应的标签向量,训练用于执行所述目标分类任务的文本分类模型。

13、通过本技术实施例提供的文本分类模型的训练方法,由于通过上述文本标签生成方法获得样本文本对应的类别标签能够更准确地表示样本文本在目标分类任务下所属的类别,在通过上述文本标签生成方法获得样本文本对应的类别标签之后,分别对样本文本及其对应的类别标签进行编码,进一步基于样本文本及其对应的类别标签各自的编码结果训练用于执行目标分类任务的文本分类模型,使得文本分类模型能够从样本文本对应的类别标签提供的监督信号中更准确地学习和理解样本文本的语义,进而使得文本分类模型的训练效果得以提升,有利于提高文本分类模型的分类准确性。

14、第三方面,本技术实施例提供一种文本分类方法,包括:

15、获取待处理文本;

16、通过文本分类模型对所述待处理文本执行目标分类任务,得到所述待处理文本在所述目标分类任务下所属的类别,其中,所述文本分类模型为基于所述目标分类任务对应的样本文本以及所述样本文本对应的类别标签进行训练得到的,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的。

17、通过本技术实施例提供的文本分类方法,由于通过上述文本标签生成方法获得样本文本对应的类别标签能够更准确地表示样本文本在目标分类任务下所属的类别,从而为文本分类模型提供更准确的监督信号,有利于提高后续基于样本文本及其对应的类别标签训练得到的文本分类模型的准确性;在此基础上,通过训练得到的文本分类模型对待处理文本执行目标分类任务,有利于提高对待处理文本的分类准确性。

18、第四方面,本技术实施例提供一种文本标签生成装置,包括:

19、获取单元,用于基于目标分类任务对应的样本文本中的关键词,从预先构建的概念树中获取所述样本文本对应的元概念路径,其中,所述概念树用于表示多个元概念之间的层级关系,所述元概念路径用于表示所述概念树中与所述样本文本相关的多个目标元概念以及所述多个目标元概念之间的层级关系;所述概念树中的一个元概念是用于表示词语的词义的语言单元;

20、确定单元,用于基于所述多个目标元概念分别对应的概念向量以及所述多个目标元概念之间的层级关系在预设元概念表中进行标签词语查找,确定所述样本文本对应的标签词语,其中,所述标签词语用于表示所述样本文本在所述目标分类任务下所属的类别;所述预设元概念表用于表示词语与词向量之间的映射关系;

21、所述确定单元,还用于将所述标签词语确定为所述样本文本对应的类别标签。

22、第五方面,本技术实施例提供一种文本分类模型的训练装置,包括:

23、获取单元,用于获取目标分类任务对应的样本文本以及所述样本文本对应的类别标签,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的;

24、编码单元,用于对所述样本文本进行编码,得到所述样本文本对应的文本向量;

25、所述编码单元,还用于对所述类别标签进行编码,得到所述类别标签对应的标签向量;

26、训练单元,用于基于所述样本文本对应的文本向量以及所述类别标签对应的标签向量,训练用于执行所述目标分类任务的文本分类模型。

27、第六方面,本技术实施例提供一种文本分类装置,包括:

28、获取单元,用于获取待处理文本;

29、分类单元,用于通过文本分类模型对所述待处理文本执行目标分类任务,得到所述待处理文本在所述目标分类任务下所属的类别,其中,所述文本分类模型为基于所述目标分类任务对应的样本文本以及所述样本文本对应的类别标签进行训练得到的,所述样本文本对应的类别标签为基于第一方面所述的文本标签生成方法得到的。

30、第七方面,本技术实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法;或者,所述处理器被配置为执行所述指令,以实现如第二方面所述的方法;或者,所述处理器被配置为执行所述指令,以实现如第三方面所述的方法。

31、第八方面,本技术实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法;或者,使得电子设备能够执行如第二方面所述的方法;或者,使得电子设备能够执行如第三方面所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1