本技术涉及人工智能,特别是涉及一种分类模型的确定方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、近几年,机器学习算法在银行的应用越来越广,分类、聚类、关联等都可能用到。从应用方向上看,主要分为四类,分别是金融用户管理、精准营销、智能风控和运营管理。其中,营销时机是精准营销中的重要组成部分。营销时机的确认需要通过大量样本进行模型训练,通过训练好的分类模型得到准确的营销时机。
2、现有技术中,一般是基于机器学习方法,利用决策树训练分类模型,具体为从一系列具有样本特征和样本标签的样本数据中总结出决策规则,当分类模型的预测准确率达到目标时,结束对分类模型的训练。但是,对于分类模型来说,除了整体的预测准确率外,还需考虑针对每种类别的数据的预测准确率,若分类模型针对不同类别的数据的预测准确率相差较大,则无法满足实际需求。
3、因此,基于目前方法确定的分类模型存在平衡性较低的问题。
技术实现思路
1、基于此,有必要针对上述分类模型存在平衡性较低的技术问题,提供一种分类模型的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种分类模型的确定方法。所述方法包括:
3、获取样本数据集;所述样本数据集包括多个类别的金融数据;
4、通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;
5、分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;
6、在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;
7、通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。
8、在其中一个实施例中,所述样本数据集中每个类别的金融数据均包括正样本数据和负样本数据;所述分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,包括:
9、针对所述各个类别中的目标类别,通过所述第一分类模型,对所述目标类别下的正样本数据进行预测,得到针对所述正样本数据的预测类别;
10、基于所述正样本数据的预测类别和所述目标类别之间的匹配结果,得到所述第一分类模型在所述目标类别的金融数据上的召回率;
11、将所述召回率,确定为所述第一分类模型在所述目标类别的金融数据上的敏感信息。
12、在其中一个实施例中,所述基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息,包括:
13、对所述各个类别对应的敏感信息进行相乘处理,得到敏感信息乘积;
14、基于所述敏感信息乘积,得到所述第一分类模型在处理各个类别的金融数据上的平衡信息。
15、在其中一个实施例中,所述在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集,包括:
16、在所述平衡信息不符合平衡条件的情况下,分别获取所述各个类别的金融数据在所述样本数据集中的样本比例;
17、以缩小所述各个类别的金融数据的样本比例之间的差异为目标,对所述各个类别的金融数据的数量进行调整处理,得到所述各个类别的调整后的金融数据;
18、基于所述各个类别的调整后的金融数据,得到所述新的样本数据集。
19、在其中一个实施例中,所述对所述各个类别的金融数据的数量进行调整处理,得到所述各个类别的调整后的金融数据,包括:
20、根据所述各个类别的金融数据的样本比例,将所述各个类别的金融数据划分为第一类别的金融数据和第二类别的金融数据;所述第一类别的金融数据的样本比例小于所述第二类别的金融数据;
21、对所述第一类别的金融数据进行过采样处理,和/或,对所述第二类别的金融数据进行欠采样处理,得到所述各个类别的调整后的金融数据。
22、在其中一个实施例中,所述基于所述各个类别的调整后的金融数据,得到所述新的样本数据集,包括:
23、获取所述各个类别的调整后的金融数据的类别平衡度;
24、当所述类别平衡度大于阈值时,将所述各个类别的调整后的金融数据,组成所述新的样本数据集。
25、在其中一个实施例中,获取所述各个类别的调整后的金融数据的类别平衡度,包括:
26、获取所述各个类别的调整后的金融数据的总数据量;
27、获取每个类别的调整后的金融数据在所述总数据量中的样本比例,基于所述每个类别对应的样本比例,得到平均类别比例;
28、基于所述每个类别对应的样本比例和所述平均类别比例,得到所述各个类别的调整后的金融数据的类别平衡度。
29、在其中一个实施例中,所述获取样本数据集,包括:
30、获取初始样本数据集;所述初始样本数据集包括多个样本金融数据,每个样本金融数据具有多个金融特征;
31、确定各个金融特征对所述分类结果的影响因子,基于所述影响因子从所述多个金融特征中筛选出目标金融特征;
32、基于所述目标金融特征,对所述初始样本数据集进行筛选处理,并对筛选后的各个样本金融数据设置类别标签;
33、根据所述筛选后的各个样本金融数据和所述筛选后的各个样本金融数据的类别标签,得到所述样本数据集。
34、在其中一个实施例中,所述基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息之后,还包括:
35、在所述平衡信息不符合平衡条件的情况下,为所述样本数据集中各个类别的金融数据设置不同的权重;所述权重与每个类别的金融数据的数据量成负相关关系;
36、按照所述各个类别的金融数据的权重,采用所述样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。
37、第二方面,本技术还提供了一种分类模型的确定装置。所述装置包括:
38、数据获取模块,用于获取样本数据集;所述样本数据集包括多个类别的金融数据;
39、第一模型训练模块,用于通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;
40、数据计算模块,用于分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;
41、样本均衡模块,用于在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集。
42、第二模型训练模块,用于通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。
43、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
44、获取样本数据集;所述样本数据集包括多个类别的金融数据;
45、通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;
46、分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;
47、在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;
48、通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。
49、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
50、获取样本数据集;所述样本数据集包括多个类别的金融数据;
51、通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;
52、分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;
53、在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;
54、通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。
55、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
56、获取样本数据集;所述样本数据集包括多个类别的金融数据;
57、通过所述样本数据集对待训练的分类模型进行训练,得到训练完成的第一分类模型;
58、分别获取所述第一分类模型在各个类别的金融数据上的敏感信息,基于所述各个类别对应的敏感信息,确定所述第一分类模型在处理所述各个类别的金融数据上的平衡信息;
59、在所述平衡信息不符合平衡条件的情况下,对所述样本数据集进行均衡化处理,得到新的样本数据集;
60、通过所述新的样本数据集对所述第一分类模型再次进行训练,得到平衡信息符合所述平衡条件的第二分类模型。
61、上述分类模型的确定方法、装置、计算机设备、存储介质和计算机程序产品,通过获取的样本数据集对待训练的分类模型进行训练得到第一分类模型,获取第一分类模型在各类别的金融数据上的敏感信息,从而确定第一分类模型在各类别金融数据上的平衡信息。在平衡信息不符合平衡条件的情况下对样本数据集进行均衡化处理得到新的样本数据集,并基于新的样本数据集对第一分类模型进行训练得到满足平衡条件的第二分类模型。该方法以平衡信息为衡量分类模型的平衡度的指标,在第一分类模型的平衡信息不符合平衡条件时,对样本数据集进行均衡化处理,以缩小样本数据集中各个类别的金融数据的数据量之间的差异,从而通过样本数据集的均衡来实现分类模型的平衡,提高训练得到的第二分类模型在各个类别上的分类准确性和平衡性。