本技术涉及计算机,特别是涉及一种标签分类方法、装置、设备、存储介质和计算机程序产品。
背景技术:
1、随着信息时代的到来,各大内容平台每天都新增海量的ugc(user generatedcontent,用户生成内容),这些内容形式各异,包括短视频、中视频、纯文本帖子以及图文帖子等不同类型介质。
2、在相关技术中,通常利用ai(artificial intelligence,人工智能)的能力,构建分类模型,并通过分类模型为海量的ugc内容进行标签分类。随着时代的发展和信息的快速更迭,会有很多新热词出现,从而会频繁出现新增标签。然而,相关技术中,在出现新增标签的情况下,为了保证ugc分类的准确性,通常是根据属于这些新增标签的训练样本重新对分类模型进行模型训练,再将重新训练得到的分类模型应用到大量生成的ugc,也就是说,原分类模型不适于新增标签上,这样,极大地增加了标签分类的时间成本,降低了标签分类效率。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高标签分类效率的标签分类方法、装置、设备、存储介质和计算机程序产品。
2、本技术提供了一种标签分类方法。所述方法包括:
3、获取样本内容和预设标签集合;
4、利用内容特征编码网络,对所述样本内容进行内容特征编码,得到所述样本内容的内容编码特征;
5、利用文本特征提取网络,分别对所述预设标签集合中各预设标签所对应的标签描述文本进行文本特征提取,得到各预设标签的标签文本特征;
6、基于对所述内容编码特征与各所述标签文本特征进行解码得到的解码特征,对解码网络进行训练,得到满足训练结束条件的解码网络;
7、根据所述内容特征编码网络、所述文本特征提取网络和所述满足训练结束条件的解码网络,构建得到标签分类模型,所述标签分类模型用于对获取的待分类内容进行标签分类。
8、本技术还提供了一种标签分类装置。所述装置包括:
9、第一获取模块,用于获取样本内容和预设标签集合;
10、第一编码模块,用于利用内容特征编码网络,对所述样本内容进行内容特征编码,得到所述样本内容的内容编码特征;
11、第一提取模块,用于利用文本特征提取网络,分别对所述预设标签集合中各预设标签所对应的标签描述文本进行文本特征提取,得到各预设标签的标签文本特征;
12、训练模块,用于基于对所述内容编码特征与各所述标签文本特征进行解码得到的解码特征,对解码网络进行训练,得到满足训练结束条件的解码网络;
13、构建模块,用于根据所述内容特征编码网络、所述文本特征提取网络和所述满足训练结束条件的解码网络,构建得到标签分类模型,所述标签分类模型用于对获取的待分类内容进行标签分类。
14、在一些实施例中,所述内容特征编码网络包括多个特征编码器,所述样本内容包括多个模态的内容;所述第一编码模块,用于获取所述多个特征编码器,每个特征编码器与一种模态对应;通过所述多个特征编码器,分别对所述样本内容的相应模态的内容进行特征提取,得到所述样本内容对应相应模态的内容编码特征。
15、在一些实施例中,所述装置还包括生成模块,所述生成模块,用于在所述样本内容包括文本模态的内容、且不包括其它模态的内容的情况下,基于所述文本模态的内容生成其它模态的内容,得到所述样本内容所包括的多个模态的内容,其中,所述其它模态的内容包括图像模态的内容、视频模态的内容和音频模态的内容中的至少一种。
16、在一些实施例中,所述装置还包括筛选模块,所述第一获取模块,还用于获取验证样本与各个模态对应的候选特征编码器,每个候选特征编码器与一种模态对应;所述第一编码模块,还用于通过与各个模态对应的候选特征编码器,分别对所述验证样本的相应模态的内容进行特征提取,得到所述验证样本对应相应模态的单模态内容编码特征;所述训练模块,还用于对于每个单模态内容编码特征,分别基于所述单模态内容编码特征与各预设标签的标签文本特征进行解码得到相应的解码特征,根据各所述解码特征对解码网络进行训练,得到多个解码网络;所述构建模块,还用于根据所述内容特征编码网络、所述文本特征提取网络和所述解码网络,构建得到多个标签分类模型;所述筛选模块,用于根据所述多个标签分类模型的预测准确率,从与各个模态对应的候选特征编码器中筛选出多个特征编码器。
17、在一些实施例中,所述装置还包括标签描述文本获取模块,所述标签描述文本获取模块,用于对于所述预设标签集合中的每个预设标签,基于预先存储的标签与标签描述文本的对应关系,根据所述预设标签,查询所述预设标签对应的标签描述文本。
18、在一些实施例中,所述标签描述文本获取模块,还用于对于所述预设标签集合中的每个预设标签,根据所述预设标签,生成用于模型调用的提示文本;根据所述提示文本调用大语言模型,通过所述大语言模型生成所述预设标签所对应的标签描述文本。
19、在一些实施例中,所述第一提取模块,用于对于每个预设标签所对应的标签描述文本,获取所述标签描述文本对应的词序列;利用文本特征提取网络,对所述词序列进行文本特征提取,得到所述预设标签的标签文本特征。
20、在一些实施例中,所述训练模块,用于将所述内容编码特征与各所述标签文本特征输入所述标签分类模型中基于交叉注意力的解码网络,通过所述解码网络输出各预设标签对应的解码特征;将各预设标签对应的解码特征输入单标签分类任务或多标签预测任务,根据任务预测结果更新所述解码网络的网络参数,得到满足训练结束条件的解码网络。
21、在一些实施例中,所述训练模块,用于将所述内容编码特征作为键值、将各所述标签文本特征均作为查询值,输入所述标签分类模型中基于交叉注意力的解码网络,通过所述解码网络对所述键值与各所述查询值进行交互分析,得到各预设标签对应的解码特征。
22、在一些实施例中,所述训练模块,用于获取对所述样本内容标注的标签,对所述样本内容标注的标签属于所述预设标签集合;根据对所述样本内容标注的标签,确定所述样本内容对应各预设标签的标签标注数据;基于对所述内容编码特征与各所述标签文本特征进行解码得到的解码特征,计算所述样本内容对应各预设标签的标签预测概率;根据所述标签标注数据与所述标签预测概率,构建模型损失,并以最小化所述模型损失为训练目标,对解码网络的网络参数进行更新,得到满足训练结束条件的解码网络。
23、在一些实施例中,所述装置还包括标签分类模块,所述标签分类模块,用于在所述预设标签集合中出现新增标签的情况下,获取新增标签所对应的标签描述文本;利用构建好的所述标签分类模型和包括所述新增标签的预设标签集合中各个标签对应的标签描述文本,对待分类内容进行标签分类,得到标签分类结果,所述新增标签是所述标签分类模型的训练过程中未出现过的标签。
24、本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述标签分类方法的步骤。
25、本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述标签分类方法的步骤。
26、本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述标签分类方法的步骤。
27、上述标签分类方法、装置、设备、存储介质和计算机程序产品,通过利用内容特征编码网络,对样本内容进行内容特征编码,得到样本内容的内容编码特征。利用文本特征提取网络,分别对预设标签集合中各预设标签所对应的标签描述文本进行文本特征提取,得到各预设标签的标签文本特征。基于对内容编码特征与各标签文本特征进行解码得到的解码特征,对解码网络进行训练,得到满足训练结束条件的解码网络。也就是说,解码网络本质上学习了预设标签的标签描述文本与样本内容间的匹配关系,基于该匹配关系来反映该样本内容是否与该预设标签相关。根据内容特征编码网络、文本特征提取网络和满足训练结束条件的解码网络,构建得到标签分类模型,标签分类模型用于对获取的待分类内容进行标签分类。这样,一旦出现了新增标签,该解码网络仍然可以利用学习到的匹配关系,直接识别出新增标签是否与待识别内容相关,不需要重新训练解码网络,也就无需重新对标签分类模型进行训练,简化了标签分类的过程,提高了标签分类效率。
28、本技术提供了一种标签分类方法。所述方法包括:
29、获取待分类内容和构建好的标签分类模型;
30、利用所述标签分类模型中的内容特征编码网络,对所述待分类内容进行内容特征编码,得到内容编码特征;
31、利用所述标签分类模型中的文本特征提取网络,分别对预设标签集合中各预设标签所对应的标签描述文本进行文本特征提取,得到各预设标签的标签文本特征;
32、利用所述标签分类模型中的解码网络,对所述内容编码特征与所述各预设标签的标签文本特征进行解码,得到解码特征,并基于所述解码特征确定出所述待分类内容的标签。
33、本技术还提供了一种标签分类装置。所述装置包括:
34、第二获取模块,用于获取待分类内容和构建好的标签分类模型;
35、第二编码模块,用于利用所述标签分类模型中的内容特征编码网络,对所述待分类内容进行内容特征编码,得到内容编码特征;
36、第二提取模块,用于利用所述标签分类模型中的文本特征提取网络,分别对预设标签集合中各预设标签所对应的标签描述文本进行文本特征提取,得到各预设标签的标签文本特征;
37、确定模块,用于利用所述标签分类模型中的解码网络,对所述内容编码特征与所述各预设标签的标签文本特征进行解码,得到解码特征,并基于所述解码特征确定出所述待分类内容的标签。
38、在一些实施例中,所述第二获取模块,还用于在所述预设标签集合中出现新增标签的情况下,获取新增标签所对应的标签描述文本,所述新增标签是所述标签分类模型的训练过程中未出现过的标签;所述第二提取模块,还用于对所述新增标签所对应的标签描述文本进行文本特征提取,得到所述新增标签对应的标签文本特征;所述确定模块,还用于通过所述标签分类模型中的解码网络,对所述内容编码特征与所述各预设标签的标签文本特征、所述新增标签的标签文本特征进行解码,得到解码特征,并基于所述解码特征确定出所述待分类内容的标签。
39、本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述标签分类方法的步骤。
40、本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述标签分类方法的步骤。
41、本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述标签分类方法的步骤。
42、上述标签分类方法、装置、设备、存储介质和计算机程序产品,通过利用标签分类模型中的内容特征编码网络,对待分类内容进行内容特征编码,得到内容编码特征。利用标签分类模型中的文本特征提取网络,分别对预设标签集合中各预设标签所对应的标签描述文本进行文本特征提取,得到各预设标签的标签文本特征。利用标签分类模型中的解码网络,对内容编码特征与各预设标签的标签文本特征进行解码,得到解码特征,并基于解码特征确定出待分类内容的标签。这样,一旦出现了新增标签,该解码网络仍然可以利用学习到的匹配关系,直接识别出新增标签是否与待识别内容相关,不需要重新训练解码网络,也就无需重新对标签分类模型进行训练,简化了标签分类的过程,提高了标签分类效率。