本发明涉及人工智能,尤其涉及一种金融文本多标签分类方法及装置。
背景技术:
1、本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、多标签分类任务的目标是把输入数据分成多个类别。比如“不良贷款率增加”,既影响银行的“资产质量”,又涉及银行的“管理质量”。又比如“虚增存贷款;办理无真实贸易背景的票据业务”,涉及“盈利状况”、“资产质量”和“管理质量”等多个方面。
3、现有用于金融文本分类的分类模型多为单标签分类模型,多标签分类模型仅能处理简单的任务,即标签类别少,要求语义明确且标签出现在句子当中,导致部署到具体场景(类别多、暗含语义需进行推理,例如,现有分类模型在商业银行分级分类上的效果并不好,有些模型也不满足实际分类需求,因为类别少且不方便拓展)时效率低下。多标签分类与多分类的区别为:前者类别可以共存,后者类别为多选一。因此,现有金融文本多标签分类方案的分类结果不准确。
技术实现思路
1、本发明实施例提供一种金融文本多标签分类方法,用以提高金融文本多标签分类的准确性,该方法包括:
2、获取待多标签分类的金融文本对应的多个语句;
3、将多个语句输入预先建立的金融文本多标签分类模型中,识别得到每一语句对应的多个类别;所述金融文本多标签分类模型为:以少于预设样本数目的有类别标注的样本为初始样本集,循环执行训练金融文本多标签分类模型的操作,直到给所有无标注的语句标注上类别标签,得到的金融文本多标签分类模型,每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型,其中,根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对,给无标注的语句标注上标签;在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型。
4、本发明实施例还提供一种金融文本多标签分类装置,用以提高金融文本多标签分类的准确性,该装置包括:
5、获取单元,用于获取待多标签分类的金融文本对应的多个语句;
6、多标签分类单元,用于将多个语句输入预先建立的金融文本多标签分类模型中,识别得到每一语句对应的多个类别;所述金融文本多标签分类模型为:以少于预设样本数目的有类别标注的样本为初始样本集,循环执行训练金融文本多标签分类模型的操作,直到给所有无标注的语句标注上类别标签,得到的金融文本多标签分类模型,每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型,其中,根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对,给无标注的语句标注上标签;在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型。
7、本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述金融文本多标签分类方法。
8、本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述金融文本多标签分类方法。
9、本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述金融文本多标签分类方法。
10、本发明实施例中,金融文本多标签分类方案,工作时:获取待多标签分类的金融文本对应的多个语句;将多个语句输入预先建立的金融文本多标签分类模型中,识别得到每一语句对应的多个类别;所述金融文本多标签分类模型为:以少于预设样本数目的有类别标注的样本为初始样本集,循环执行训练金融文本多标签分类模型的操作,直到给所有无标注的语句标注上类别标签,得到的金融文本多标签分类模型,每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型,其中,根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对,给无标注的语句标注上标签;在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型。
11、与现有技术中多标签分类结果不准确的技术方案相比,本发明实施例提供的金融文本多标签分类方案的有益技术效果是:
12、首先,本发明实施例中金融文本多标签分类模型为:以少于预设样本数目的有类别标注的样本为初始样本集,循环执行训练金融文本多标签分类模型的操作,直到给所有无标注的语句标注上类别标签,得到的金融文本多标签分类模型,每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型,其中,根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对,给无标注的语句标注上标签,即本发明实施例从少样本出发,自动标注更多样本数据加入到训练中,提高了融文本多标签分类模型性能。
13、其次,本发明实施例中,在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型,即本发明实施例融合了两个损失函数进行迭代训练模型,最终得到的金融文本多标签分类模型的分类准确率高。
14、综上,本发明实施例提供的金融文本多标签分类方案可以提高金融文本多标签分类的准确率。
1.一种金融文本多标签分类方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,还包括按照如下方法预先训练生成所述金融文本多标签分类模型:
3.如权利要求2所述的方法,其特征在于,用当前循环周期的多个有类别标注的样本集迭代训练当前周期对应的金融文本多标签分类模型,包括:通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型。
4.如权利要求3所述的方法,其特征在于,通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型,包括:
5.如权利要求1至4任一项所述的方法,其特征在于,所述lawl损失函数为:
6.如权利要求1至4任一项所述的方法,其特征在于,所述lcal损失函数为:
7.一种金融文本多标签分类装置,其特征在于,包括:
8.如权利要求7所述的装置,其特征在于,还包括训练单元,用于按照如下方法预先训练生成所述金融文本多标签分类模型:
9.如权利要求8所述的装置,其特征在于,所述训练单元具体用于通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型。
10.如权利要求9所述的装置,其特征在于,通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型,包括:
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。