本申请实施例涉及自然语言处理,特别是涉及一种业务数据的多标签标注方法、装置及计算机设备。
背景技术:
1、在自然语言处理(natural language processing,nlp)技术领域中,文本多标签分类技术已发展得非常成熟。
2、目前,常用的多标签标注模型构建方式有如下两种:一是通过人工标注大批量数据训练标签分类模型来实现,虽然这种方法准确性较高,但其输出不能够表示标签的置信度;二是利用相似度(similarity)模型,通过计算相似度的方式来判断标签与文本的相似程度,最终确定标签是否属于该文本,虽然相似度模型的优点是在有新的标签加入时,其模型推理可直接兼容,但标签的可扩展性较差,模型对未知数据的兼容性也较差,导致实际应用效果不佳。
3、因此,现有的文本多标签分类方法存在着因模型功能性弱,而导致标签分类准确率低的技术问题。
技术实现思路
1、本申请的目的在于提供一种业务数据的多标签标注方法、装置及计算机设备,用以构建合理化的多标签标注模型,进而通过改善模型功能,提升业务数据的标签分类准确率。
2、第一方面,本申请提供一种业务数据的多标签标注方法,包括:
3、获取待标注的业务数据;
4、将业务数据输入至已训练的多标签标注模型,输出业务数据相对于各个预设标签的概率信息;其中,已训练的多标签标注模型由蕴含模型和相似度模型关联构成;概率信息包括第一概率和第二概率;
5、根据第一概率和第二概率,确定业务数据的目标标签。
6、在本申请一些实施例中,将业务数据输入至已训练的多标签标注模型,输出业务数据相对于各个预设标签的概率信息,包括:将业务数据输入至已训练的多标签标注模型,已训练的多标签标注模型包括预处理层、特征表示层、特征交互层、全连接层以及输出层;通过预处理层、特征表示层、特征交互层、全连接层以及输出层,对业务数据进行标签分类标注,输出第一概率和第二概率;其中,第一概率为相似度模型对应的第一概率,第二概率为蕴含模型对应的第二概率;确定第一概率和第二概率,作为业务数据相对于各个预设标签的概率信息。
7、在本申请一些实施例中,通过预处理层、特征表示层、特征交互层、全连接层以及输出层,对业务数据进行标签分类标注,输出第一概率和第二概率,包括:通过预处理层,对业务数据进行文字映射,得到目标业务数据;通过特征表示层,对目标业务数据进行向量化处理,得到业务特征向量;通过特征交互层,对业务特征向量进行特征融合,得到业务融合特征;通过全连接层,对业务融合特征进行特征恢复,得到业务特征向量图;通过输出层,对业务特征向量图进行特征分析,输出第一概率和第二概率。
8、在本申请一些实施例中,通过输出层,对业务特征向量图进行特征分析,输出第一概率和第二概率,包括:通过输出层和预设的目标损失函数,对业务特征向量图进行特征分析,输出第一概率和第二概率;其中,目标损失函数为第一损失函数与第二损失函数之和,第一损失函数包括作用于相似度模型的均方误差损失函数,第二损失函数包括作用于蕴含模型的交叉熵损失函数。
9、在本申请一些实施例中,特征表示层被设置为elmo模型、bert模型以及gpt模型中的任意一个预训练模型。
10、在本申请一些实施例中,在将业务数据输入至已训练的多标签标注模型,输出业务数据相对于各个预设标签的概率信息之前,还包括:构建初始的多标签标注模型;获取业务本文集,并将业务本文集划分为训练集和测试集,业务本文集中包括多个已标注文本业务类型的业务本文;使用训练集对初始的多标签标注模型进行初步训练,得到初步训练后的多标签标注模型;使用测试集对初步训练后的多标签标注模型进行测试调整,得到已训练的多标签标注模型。
11、在本申请一些实施例中,根据第一概率和第二概率,确定业务数据的目标标签,包括:将第一概率和第二概率进行点乘处理,得到已训练的多标签标注模型的模型置信度;根据模型置信度,确定业务数据的目标标签。
12、第二方面,本申请提供一种业务数据的多标签标注装置,包括:
13、数据获取模块,用于获取待标注的业务数据;
14、数据分析模块,用于将业务数据输入至已训练的多标签标注模型,输出业务数据相对于各个预设标签的概率信息;其中,已训练的多标签标注模型由蕴含模型和相似度模型关联构成;概率信息包括第一概率和第二概率;
15、标签确定模块,用于根据第一概率和第二概率,确定业务数据的目标标签。
16、第三方面,本申请还提供一种计算机设备,包括:
17、一个或多个处理器;
18、存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现上述业务数据的多标签标注方法。
19、第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行业务数据的多标签标注方法中的步骤。
20、第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。
21、上述业务数据的多标签标注方法、装置及计算机设备,服务器通过获取待标注的业务数据,并将业务数据输入至已训练的多标签标注模型,即可得到模型输出的业务数据相对于各个预设标签的概率信息,最终根据第一概率和第二概率,确定业务数据的目标标签。由此,采用本申请提出的由蕴含模型和相似度模型关联构成的多标签标注模型分析业务数据,可有效提升业务数据的标签分类准确率。
1.一种业务数据的多标签标注方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述将所述业务数据输入至已训练的多标签标注模型,输出所述业务数据相对于各个预设标签的概率信息,包括:
3.如权利要求2所述的方法,其特征在于,所述通过所述预处理层、所述特征表示层、所述特征交互层、所述全连接层以及所述输出层,对所述业务数据进行标签分类标注,输出所述第一概率和所述第二概率,包括:
4.如权利要求3所述的方法,其特征在于,所述通过所述输出层,对所述业务特征向量图进行特征分析,输出所述第一概率和所述第二概率,包括:
5.如权利要求3所述的方法,其特征在于,所述特征表示层被设置为elmo模型、bert模型以及gpt模型中的任意一个预训练模型。
6.如权利要求1至5中任一项所述的方法,其特征在于,在所述将所述业务数据输入至已训练的多标签标注模型,输出所述业务数据相对于各个预设标签的概率信息之前,还包括:
7.如权利要求1所述的方法,其特征在于,所述根据所述第一概率和所述第二概率,确定所述业务数据的目标标签,包括:
8.一种业务数据的多标签标注装置,其特征在于,包括:
9.一种计算机设备,其特征在于,所述计算机设备包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的业务数据的多标签标注方法中的步骤。