金融文本多标签分类方法及装置与流程

文档序号：34907467发布日期：2023-07-27 19:27阅读：101来源：国知局

本发明涉及人工智能，尤其涉及一种金融文本多标签分类方法及装置。

背景技术：

1、本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、多标签分类任务的目标是把输入数据分成多个类别。比如“不良贷款率增加”，既影响银行的“资产质量”，又涉及银行的“管理质量”。又比如“虚增存贷款；办理无真实贸易背景的票据业务”，涉及“盈利状况”、“资产质量”和“管理质量”等多个方面。

3、现有用于金融文本分类的分类模型多为单标签分类模型，多标签分类模型仅能处理简单的任务，即标签类别少，要求语义明确且标签出现在句子当中，导致部署到具体场景(类别多、暗含语义需进行推理，例如，现有分类模型在商业银行分级分类上的效果并不好，有些模型也不满足实际分类需求，因为类别少且不方便拓展)时效率低下。多标签分类与多分类的区别为：前者类别可以共存，后者类别为多选一。因此，现有金融文本多标签分类方案的分类结果不准确。

技术实现思路

1、本发明实施例提供一种金融文本多标签分类方法，用以提高金融文本多标签分类的准确性，该方法包括：

2、获取待多标签分类的金融文本对应的多个语句；

3、将多个语句输入预先建立的金融文本多标签分类模型中，识别得到每一语句对应的多个类别；所述金融文本多标签分类模型为：以少于预设样本数目的有类别标注的样本为初始样本集，循环执行训练金融文本多标签分类模型的操作，直到给所有无标注的语句标注上类别标签，得到的金融文本多标签分类模型，每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型，其中，根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对，给无标注的语句标注上标签；在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型。

4、本发明实施例还提供一种金融文本多标签分类装置，用以提高金融文本多标签分类的准确性，该装置包括：

5、获取单元，用于获取待多标签分类的金融文本对应的多个语句；

6、多标签分类单元，用于将多个语句输入预先建立的金融文本多标签分类模型中，识别得到每一语句对应的多个类别；所述金融文本多标签分类模型为：以少于预设样本数目的有类别标注的样本为初始样本集，循环执行训练金融文本多标签分类模型的操作，直到给所有无标注的语句标注上类别标签，得到的金融文本多标签分类模型，每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型，其中，根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对，给无标注的语句标注上标签；在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型。

7、本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述金融文本多标签分类方法。

8、本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述金融文本多标签分类方法。

9、本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述金融文本多标签分类方法。

10、本发明实施例中，金融文本多标签分类方案，工作时：获取待多标签分类的金融文本对应的多个语句；将多个语句输入预先建立的金融文本多标签分类模型中，识别得到每一语句对应的多个类别；所述金融文本多标签分类模型为：以少于预设样本数目的有类别标注的样本为初始样本集，循环执行训练金融文本多标签分类模型的操作，直到给所有无标注的语句标注上类别标签，得到的金融文本多标签分类模型，每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型，其中，根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对，给无标注的语句标注上标签；在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型。

11、与现有技术中多标签分类结果不准确的技术方案相比，本发明实施例提供的金融文本多标签分类方案的有益技术效果是：

12、首先，本发明实施例中金融文本多标签分类模型为：以少于预设样本数目的有类别标注的样本为初始样本集，循环执行训练金融文本多标签分类模型的操作，直到给所有无标注的语句标注上类别标签，得到的金融文本多标签分类模型，每一循环周期得到的有类别标注的样本加入到下一循环周期的样本集中训练金融文本多标签分类模型，其中，根据金融文本多标签分类模型的分类结果与以少于预设样本数目的有类别标注的样本为中心对无标注的语句进行无监督初次聚类的结果比对，给无标注的语句标注上标签，即本发明实施例从少样本出发，自动标注更多样本数据加入到训练中，提高了融文本多标签分类模型性能。

13、其次，本发明实施例中，在训练的过程中通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练金融文本多标签分类模型，即本发明实施例融合了两个损失函数进行迭代训练模型，最终得到的金融文本多标签分类模型的分类准确率高。

14、综上，本发明实施例提供的金融文本多标签分类方案可以提高金融文本多标签分类的准确率。

技术特征：

1.一种金融文本多标签分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括按照如下方法预先训练生成所述金融文本多标签分类模型：

3.如权利要求2所述的方法，其特征在于，用当前循环周期的多个有类别标注的样本集迭代训练当前周期对应的金融文本多标签分类模型，包括：通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型。

4.如权利要求3所述的方法，其特征在于，通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型，包括：

5.如权利要求1至4任一项所述的方法，其特征在于，所述lawl损失函数为：

6.如权利要求1至4任一项所述的方法，其特征在于，所述lcal损失函数为：

7.一种金融文本多标签分类装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，还包括训练单元，用于按照如下方法预先训练生成所述金融文本多标签分类模型：

9.如权利要求8所述的装置，其特征在于，所述训练单元具体用于通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型。

10.如权利要求9所述的装置，其特征在于，通过自适应调整lawl和lcal两个损失函数来动态调整样本集数据迭代训练当前周期对应的金融文本多标签分类模型，包括：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。

技术总结
本发明公开了一种金融文本多标签分类方法及装置，该方法包括：获取待多标签分类金融文本的多个语句；将多个语句输入预先建立的金融文本多标签分类模型得到每一语句对应的多个类别；该模型为：以少样本的有类别标注样本为初始样本集，循环训练分类模型，直到给所有无标注语句标注上标签得到的模型，每一循环周期得到的有类别标注样本加入到下一周期的样本集中训练模型，根据模型分类结果与已有类别标注样本为中心对无标注语句无监督初次聚类结果比对，给无标注语句标上标签；训练时通过自适应调整Lawl函数和Lcal函数动态调整样本集迭代训练模型。本发明提高了金融文本多标签分类的准确率。

技术研发人员：曾菊儒,励胜,朱珣,张晓光,马学军,刘约克
受保护的技术使用者：银清科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾菊儒励胜朱珣张晓光马学军刘约克
技术所有人：银清科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。