1.本技术涉及计算机技术领域,特别涉及模型训练数据生成方法。本技术同时涉及模型训练数据生成装置,一种计算设备,以及一种计算机可读存储介质。
背景技术:2.不平衡数据集是指在多类别的数据集中,某些类别样本的数目远小于其他类别样本的数目,各个类别样本的数目存在着严重的不平衡现象。而传统的机器学习方法是建立在训练集类别平衡的基础上的,对于数据偏差分布的情况敏感度较低,导致预测结果偏向多类数据集。
3.目前,通过对数目较小的数据集中的数据进行过采样,使得各类别样本的数目达到平衡状态,从而进行模型训练;但随着业务数据的复杂度越来越高,各类别样本数据集的分布性不够广泛,在进行过采样处理时,就会出现一类过采样的数据可能与其他类的样本数据边界模糊甚至重叠,导致过采样后的数据集,数据精准度降低,进而影响后续对模型训练的结果。
技术实现要素:4.有鉴于此,本技术实施例提供了模型训练数据生成方法。本技术同时涉及模型训练数据生成装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的模型训练数据精准度较低,影响模型训练效果。
5.根据本技术实施例的第一方面,提供了一种模型训练数据生成方法,包括:
6.获取目标业务的待训练数据样本集,其中,所述待训练数据样本集包括第一样本集和第二样本集,所述第一样本集中待训练数组的数量小于预设数量阈值;
7.对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,其中,所述高维数据样本集包括所述第一样本集对应的第一高维数组集、以及所述第二样本集对应的第二高维数组集;
8.对所述第一高维数组集进行过采样处理,获得目标高维数组集,其中,所述目标高维数组集中的高维数组的数量满足所述预设数量阈值;
9.基于所述目标高维数组集和所述第二高维数组集,确定所述目标业务的目标训练数据样本集。
10.根据本技术实施例的第二方面,提供了一种模型训练数据生成装置,包括:
11.样本集获取模块,被配置为获取目标业务的待训练数据样本集,其中,所述待训练数据样本集包括第一样本集和第二样本集,所述第一样本集中待训练数组的数量小于预设数量阈值;
12.升维处理模块,被配置为对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,其中,所述高维数据样本集包括所述第一样本集对应的第一高维数组集、以及所述第二样本集对应的第二高维数组集;
13.过采样处理模块,被配置为对所述第一高维数组集进行过采样处理,获得目标高维数组集,其中,所述目标高维数组集中的高维数组的数量满足所述预设数量阈值;
14.样本集确定模块,被配置为基于所述目标高维数组集和所述第二高维数组集,确定所述目标业务的目标训练数据样本集。
15.根据本技术实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述模型训练数据生成方法的步骤。
16.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述模型训练数据生成方法的步骤。
17.本技术提供的模型训练数据生成方法,获取目标业务的待训练数据样本集,其中,所述待训练数据样本集包括第一样本集和第二样本集,所述第一样本集中待训练数组的数量小于预设数量阈值;对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,其中,所述高维数据样本集包括所述第一样本集对应的第一高维数组集、以及所述第二样本集对应的第二高维数组集;对所述第一高维数组集进行过采样处理,获得目标高维数组集,其中,所述目标高维数组集中的高维数组的数量满足所述预设数量阈值;基于所述目标高维数组集和所述第二高维数组集,确定所述目标业务的目标训练数据样本集。
18.本技术一实施例,通过对待训练数据样本集中的每个待训练数组均进行升维处理,获得高维数据样本集,再将高维数据样本集中的第一样本集对应的第一高维数组集进行过采样处理,获得目标高维数组集,即获得了新的高维数组作为过采样后的新样本,进而,将目标高维数组集和高维数据样本集中第二样本集对应的第二高维数组集,作为最后的目标训练数据样本集;该种升维处理的方式,使得低维度数据映射到高维度数据,以提高数据之间的线性可分性,再对高维度数据进行过采样,能够更加准确地获取到过采样后的新样本数据,避免了获取与其他类样本数据重叠的数据,进而,提升模型训练的效果。
附图说明
19.图1是本技术一实施例提供的两类样本数据出现交错情况的示意图;
20.图2是本技术一实施例提供的一种模型训练数据生成方法的流程示意图;
21.图3是本技术一实施例提供的一种模型训练数据生成方法的流程图;
22.图4是本技术一实施例提供的一种模型训练数据生成方法的过采样示意图;
23.图5是本技术一实施例提供的一种模型训练数据生成装置的结构示意图;
24.图6是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
25.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
26.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所
使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
27.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
28.首先,对本技术一个或多个实施例涉及的名词术语进行解释。
29.核函数:核函数源自于svm(支持向量机)模型,具体包括高斯核函数、线性核函数、多项式核函数等多种。
30.高斯核函数(gaussian kernel),也称径向基(rbf)函数,就是某种沿径向对称的标量函数,用于将有限维数据映射到高维空间。通常定义为空间中任意一点x到某一中心点x'之间的欧式距离的单调函数,可记作k(||x-x'||),其作用往往是局部的,即当x远离x'时函数取值很小。
31.过采样:在机器学习的分类任务中通常需要数据量大概相同的正负类样本才能达到比较好的学习效果,但是在现实场景中正负类样本的数据量往往是不平衡的,过采样就是指对少数类的样本进行扩充从而提高模型学习效果。
32.等核函数,其作用是将低维度数据映射到高维度数据中从而实现数据的线性可分。
33.smote(synthetic minority oversampling technique):即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(specific)而不够泛化(general),smote算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。
34.在游戏内玩家对礼包或者道具的购买数据,或者是不够买数据,可以看作为不平衡数据集。随着玩家数量的增多,大多数所反应的现象就是够买数据比较少,不够买数据比较多,进而,在后续训练模型的过程中,这种类别样本数目的不平衡,较大程度上会影响模型训练的精准度。
35.目前,可采用过采样的方式,将少类别的样本数据进行过采样,使得少类别的数目增多,再进行模型训练。当前使用smote过采样时,可对玩家购买数据进行过采样处理,以使少数类样本进行扩充,以提高后续模型学习效果。但该方式仅限于在玩家购买数据和玩家不够买数据这两类数据界限比较明显时有效,若两类样本数据交错在一起,就会很容易合成错误的购买数据新样本,可参见图1,图1是本技术一实施例提供的两类样本数据出现交错情况的示意图。
36.图1中圆形可表示玩家购买数据对应的样本点,矩形表示玩家不够买数据对应的样本点,这两类样本点交错在一起,那么,在对玩家购买数据的样本点进行过采样时,就会出现新样本点与玩家不够买数据对应的样本点可能出现重叠,导致了过采样的结果不准确;比如,图1中,与x样本点的相邻样本点,分别为y1、y2和y3,利用smote过采样方法,将x样
本点与相邻样本点y1、y2和y3之间分别进行连线,在每条连接线中选取的新样本点,即n1、n2和n3;由于圆形和矩形这两类样本点交错在一起,那么对应的新样本点n1、n2和n3,很有可能是玩家不够买数据的样本点,因此,在此种情况下,过采样处理后的结果,即使解决了数据不平衡的问题,但是已经失去了数据精准度,同样会影响后续模型训练的效果。
37.基于此,本技术实施例提供的模型训练数据生成方法,利用升维算法,将玩家购买数据和玩家不够买数据这两类样本数据均映射到高维度空间,以使得两类样本数据的线性可分性增强,再利用过采样算法对玩家购买数据进行过采样,不仅能够提高过采样新样本的质量,还能提高后续模型训练的效果。
38.在本技术中,提供了模型训练数据生成方法,本技术同时涉及模型训练数据生成装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
39.图2示出了根据本技术一实施例提供的一种模型训练数据生成方法的流程示意图。
40.图2中可先获取到待训练数据样本集,其中,该待训练数据样本集包括第一样本集和第二样本集,并对每个样本集中的待训练数组进行升维处理,获得高维数据样本集,包括第一高维数组集和第二高维数组集;由于第一高维数组集的数组数量较少,可对第一高维数组集进行过采样处理,获得目标高维数组集;最后,目标高维数组集和第二高维数组集,组成了目标训练数据样本集;即可利用该目标训练数据样本集对模型进行训练,提高模型训练的效果。
41.需要说明的是,本实施例仅将升维处理和过采样处理过程进行示意性描述,具体的处理细节可参见下述实施例的描述。
42.图3示出了根据本技术一实施例提供的一种模型训练数据生成方法的流程图,具体包括以下步骤:
43.需要说明的是,本实施例提供的模型训练数据生成方法,可应用于各类数据不平衡需要过采样处理,解决各类数据数目平衡的应用场景,本实施例对此不做具体限定;为了便于理解,下述实施例以游戏场景内向玩家推送礼包为例进行介绍,玩家购买礼包的数据则称为正样本,玩家不够买礼包的数据则称为负样本,且这种正负样本的数目不平衡。
44.步骤302:获取目标业务的待训练数据样本集,其中,所述待训练数据样本集包括第一样本集和第二样本集,所述第一样本集中待训练数组的数量小于预设数量阈值。
45.其中,目标业务可以理解为应用场景中用户执行某一行为对应的业务,比如游戏应用场景中玩家购买礼包的业务等。
46.待训练数据样本集可以理解为用户针对目标业务的行为数据,所组成的样本集,比如该样本集中包括玩家购买礼包的数据、玩家不够买礼包的数据。
47.实际应用中,服务器可获取到针对目标业务的待训练数据样本集,其中,该待训练数据样本集中包括两类数据,一类是待训练数组的数量小于预设数量阈值,另一类是待训练数组的数量大于等于预设数量阈值;且待训练数组可以理解为待训练数据样本集中的每条数据内容,该数据内容是数组形式的数据。
48.需要说明的是,待训练数据样本集中的数据需要执行过采样处理,因此,该样本集中的数据均为数组型数据,具体的,如何将结构化数据或者非结构化数据变为数组数据的
过程,在本实施例中不做过多描述。
49.进一步地,在游戏场景中,待训练数据样本集中的各个数据应该为玩家购买礼包的数据和不够买礼包的数据;具体的,所述获取目标业务的待训练数据样本集,包括:
50.获取预设时间区间内目标游戏中目标道具对应的玩家数据,其中,所述玩家数据包括玩家属性信息、玩家购买所述目标道具的结果信息;
51.将所述玩家数据,确定为待训练数据样本集。
52.实际应用中,服务器可获取到预设时间区间内,各个玩家在目标游戏中针对目标道具对应的玩家数据,该玩家数据包括玩家个人的属性信息、玩家是否购买该目标道具的结果信息,其中,玩家个人的属性信息包括玩家账号等级、玩家战力信息、玩家的钻石数量等,玩家是否购买该目标道具的结果信息包括购买和不够买;进而,每个玩家在该预设时间区间内的所有行为动作,均可生成玩家数据,根据多个玩家数据,就组成了待训练数据样本集。
53.需要说明的是,玩家在游戏中的账号等级、战力、钻石数量,是否购买道具的结果等这些特征记录下来后,均可处理为数值,进而各个维度的数值,组成了待训练数组,各个待训练数组构成了待训练数据样本集;其中,每个数组包含的维度个数,根据获取到的不同维度的数据确定,本实施例中对此不做具体限定。
54.步骤304:对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,其中,所述高维数据样本集包括所述第一样本集对应的第一高维数组集、以及所述第二样本集对应的第二高维数组集。
55.实际应用中,为了解决待训练数据样本集中各类待训练数组的数目不平衡的问题,可对各个待训练数组进行升维处理,即将各个低维度的待训练数组映射到高维度空间中,获得高维数据样本集;相应地,对待训练数据样本集中的第一样本集和第二样本集中的待训练数组进行升维处理,获得第一样本集对应的第一高维数组集,第二样本集对应的第二高维数组集,即完成了对每一类的待训练数组进行升维处理的过程。
56.进一步地,升维处理的过程,可采用多种实现方式,本实施例中可通过在预设升维算法集合中选择一个目标升维算法,并利用该目标升维算法对各个待训练数组进行升维处理;具体的,所述对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,包括:
57.在预设升维算法集合中,确定目标升维算法;
58.基于所述目标升维算法,对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集。
59.其中,目标升维算法可以理解为对待训练数据从低维度映射到高维度的算法,包括但不限定于高斯核函数、线性核函数、多项式核函数等多种核函数算法。
60.实际应用中,服务器可从预设升维算法集合中,选取一个目标升维算法,其选取的方式本实施例中不做限定;比如,选取了高斯核函数作为目标升维算法,即可利用高斯核函数的算法过程,对待训练数据样本集中的各个待训练数组进行升维处理,进而,获得高维数据样本集,其中,该高维数据样本集为多个高维数组组成的样本集,且还分为两类,这两类高维数组,在数量上相差比例较大,比如第一高维数组集包含5个高维数组,第二高维数组集中包含50个高维数组。
61.更进一步地,利用目标升维算法对每个待训练数组进行升维处理,可利用到该待训练数据样本集中的所有待训练数组,即可完成对各个待训练数组的升维过程;具体的,所述基于所述目标升维算法,对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,包括:
62.在所述待训练数据样本集中,确定目标待训练数组以及多个参考待训练数组;
63.基于所述目标待训练数组以及所述多个参考待训练数组,根据目标升维算法进行升维处理,获得所述目标待训练数组对应的高维数组;
64.基于所述目标待训练数组对应的高维数组,生成高维数据样本集。
65.其中,目标待训练数组可以理解为待训练数据样本集中的任意一个待训练数组,参考待训练数组可以理解为在该待训练数据样本集中,除了目标待训练数组以外,其余剩余的所有待训练数组;比如,待训练数据样本集中包括三个待训练数组,分别为待训练数组1、待训练数组2和待训练数组3,那么在目标待训练数组确定为待训练数组1时,则参考待训练数组即确定为待训练数组2和待训练数组3。
66.实际应用中,服务器在待训练数据样本集中确定了目标待训练数组和多个参考待训练数组以后,可根据目标升维算法,对目标待训练数组进行升维处理,获得了目标待训练数组对应的高维数组;进而,在待训练数据样本集中,每一个待训练数组均作为目标待训练数据进行升维处理,在多轮升维处理后,可获得多个高维数组,进而构成了高维数据样本集;需要说明的是,多轮升维过程在此不做过多赘述。
67.具体实施时,通过确定各个待训练数组之间的数组距离,来确定各个维度上的维度参数,并根据各个维度参数确定了每个待训练数组对应的高维数组;具体的,所述基于所述目标待训练数组以及所述多个参考待训练数组,根据目标升维算法进行升维处理,获得所述目标待训练数组对应的高维数组,包括:
68.基于所述目标待训练数组以及所述多个参考待训练数组,根据目标升维算法确定所述目标待训练数组与每个参考待训练数组之间的参考数组距离;
69.基于所述参考数组距离,获取所述目标待训练数组对应的参考维度参数;
70.根据所述参考维度参数以及目标维度参数,生成所述目标待训练数组对应的高维数组,其中,所述目标维度参数基于所述目标待训练数组确定。
71.其中,参考数组距离可以理解为目标待训练数组与参考待训练数组之间的数组距离,参考维度参数可以理解为从该数组距离中提取的代表某一维度的参数。
72.实际应用中,服务器可利用目标升维算法确定目标待训练数组与各个参考待训练数组之间的参考数组距离;再从各个参考数组距离中,获取组成高维数组的各个参考维度参数;然后,根据各个参考维度参数与目标维度参数,生成了该目标待训练数组对应的高维数组,其中,目标维度参数是指目标待训练数组与自己本身的参考数组距离,即距离为0,则获取到的维度参数也为0。
73.例如,目标升维算法为高斯核函数算法,可参考下述公式1计算参考数组距离:
[0074][0075]
若目标待训练数组为[1,1],参考待训练数组1为[2,1],参考待训练数组2为[3,1]的情况下,利用上述公式1,计算k(xi,xj)
11
、k(xi,xj)
12
、k(xi,xj)
13
,其中,下角标
11
表示目标
待训练数组与自己本身之间的参考数组距离,下角标
12
表示目标待训练数组与参考待训练数组1之间的参考数组距离,下角标
13
表示目标待训练数组与参考待训练数组2之间的参考数组距离;进一步地,在k(xi,xj)
11
中确定目标维度参数为0,在k(xi,xj)
12
中确定参考维度参数1为1,在k(xi,xj)
13
中确定参考维度参数2为2,那么,目标待训练数组对应的高维数组记作[0,1,2]。
[0076]
通过对各个待训练数组进行升维处理,可获得高维度的数组集合,通过将低维度的数组映射为高维度的数组,即增强了数组的可分性。
[0077]
步骤306:对所述第一高维数组集进行过采样处理,获得目标高维数组集,其中,所述目标高维数组集中的高维数组的数量满足所述预设数量阈值。
[0078]
实际应用中,为了解决两类高维数组之间数目不平衡的问题,可直接对数目小于预设数量阈值的第一高维数组集进行过采样处理,以获得目标高维数组集,且使得目标高维数组集中的高维数组的数量需要满足预设数量阈值,即等于或大于预设数量阈值。
[0079]
进一步地,所述对所述第一高维数组集进行过采样处理,获得目标高维数组集,包括:
[0080]
在预设过采样算法集合中,确定目标过采样算法;
[0081]
基于所述目标过采样算法,对所述第一高维数组集进行过采样处理,获得目标高维数组集。
[0082]
其中,预设过采样算法集合可以理解为可进行过采样处理的算法集合,包括smote算法,kmeans smote算法、svm smote算法等,本实施例对此不做具体限定;目标过采样算法可以理解为从该过采样算法集合中选取的目标过采样算法,比如选取smote算法,本实施例中对此也不做过多限定。
[0083]
实际应用中,服务器可利用选取的目标过采样算法,对第一高维数组集中的各个高维数组进行过采样处理,以扩充第一高维数组集中高维数组的数量,进而,获得目标高维数组集。
[0084]
具体的,所述基于所述目标过采样算法,对所述第一高维数组集进行过采样处理,获得目标高维数组集,包括:
[0085]
在所述第一高维数组集中,确定待处理高维数组;
[0086]
基于所述待处理高维数组,确定与所述待处理高维数组具有关联关系的多个相邻高维数组;
[0087]
基于所述待处理高维数组、以及所述多个相邻高维数组进行过采样处理,获得所述待处理高维数组对应的候选高维数组;
[0088]
基于所述候选高维数组,生成目标高维数组集。
[0089]
其中,待处理高维数组可以理解为第一高维数组集中任意一个高维数组。
[0090]
实际应用中,在确定了待处理高维数组之后,可确定与该待处理高维数组具有关联关系的多个相邻高维数组,其中,该关联关系可以理解为数组映射在维度空间中的相邻距离关系,本实施例对此不做具体限定;进一步地,根据待处理高维数组以及各个相邻高维数组,执行过采样的处理过程,进而,获得待处理高维数组对应的多个候选高维数组,将该多个候选高维数组作为过采样处理后的新样本数组,并根据各个候选高维数组、待处理高维数组、以及多个相邻高维数组,构成了目标高维数组子集;最后,在第一高维数组集中的
各个高维数组作为待处理高维数组进行过采样之后,可分别获得对应的多个候选高维数组,进而,将所有的候选高维数组作为第一高维数组集的扩充高维数组,以获得目标高维数组集。
[0091]
通过将第一高维数组集中的每个高维数组作为待处理高维数组,进行上述过采样处理后,均可获得一批新的数组样本,进而,扩展了第一高维数组集的数量,生成目标高维数组集。
[0092]
进一步地,所述基于所述待处理高维数组、以及所述多个相邻高维数组进行过采样处理,获得所述待处理高维数组对应的候选高维数组,包括:
[0093]
确定所述待处理高维数组对应的待处理坐标点,确定每个相邻高维数组对应的相邻坐标点;
[0094]
将所述待处理坐标点与每个相邻坐标点之间进行直线连接,获得多个相邻连接线;
[0095]
基于预设比例因子,在所述多个相邻连接线中确定候选坐标点,并将所述候选坐标点对应的高维数组,确定为候选高维数组。
[0096]
实际应用中,服务器可根据待处理高维数组映射在维度空间中获得待处理坐标点,同样地,相邻高维数组也可进行映射处理获得相邻坐标点;然后,将待处理坐标点与每个相邻坐标点之间进行连线,获得多个相邻连接的直线;再根据预设比例因子,在各条相邻连接线上确定对应的候选坐标点;最后,将候选坐标点对应的高维数组确定为候选高维数组;需要说明的是,预设比例因子为过采样算法中,随机选择[0,1]范围的缩放因子,根据该缩放因子,确定在相邻连接线上放置的新点,以作为新的样本点,并将该信的样本点对应的高维数组,确定为候选高维数组。
[0097]
参见图4,图4示出了本技术一实施例提供的一种模型训练数据生成方法的过采样示意图。
[0098]
图4中所显示的为两类高维数组集,圆形表示玩家购买数据对应的高维数组集,矩形表示玩家不够买数据对应的高维数组集,那么,在x为待处理高维数组时,其相邻的多个相邻高维数组可为y1、y2和y3,在x分别与y1、y2和y3之间进行直线连接后,根据随机选择[0,1]范围的缩放因子z,可在每条直线的(z*100)%处放置一个新点,作为候选坐标点n1、n2和n3,即玩家购买数据的新样本,此时,n1、n2和n3中对应的高维数组也不会与矩形表示的高维数组有重合的部分,保证了过采样后的结果的准确性。
[0099]
通过对第一高维数组集中的高维数组进行过采样处理,能够更加准确地获得新的样本点,提高了目标高维数组集中数据的精准度。
[0100]
步骤308:基于所述目标高维数组集和所述第二高维数组集,确定所述目标业务的目标训练数据样本集。
[0101]
实际应用中,在对少类的数组数据进行过采样处理后,在与第二高维数组集进行结合,以获得针对目标业务的目标训练数据样本集,进而,实现了目标训练数据样本集中各类数组数据的不平衡问题,同时精准度也有所提高。
[0102]
此外,本技术实施例还提供了利用目标训练数据样本集,对初始业务模型进行训练的过程;具体的,所述基于所述目标高维数组集和所述第二高维数组集,确定所述目标业务的目标训练数据样本集之后,还包括:
[0103]
基于所述目标训练数据样本集,对初始业务模型进行训练,获得目标业务模型。
[0104]
实际应用中,对初始业务模型的类型不做具体限定,可以为玩家购买礼包的预测模型、玩家行为的分析模型等;均可利用该目标训练数据样本集,对该初始业务模型进行多轮迭代训练,以获得目标业务模型。
[0105]
综上,本技术实施例提供的模型训练数据生成方法,通过将升维算法与过采样算法进行结合,将可分性不强的低维数组数据处理为高维数组数据,进而在提高了可分性之后,再对少数类的样本进行过采样处理,能够提高新样本的质量,以提高最终的模型训练效果。
[0106]
与上述方法实施例相对应,本技术还提供了模型训练数据生成装置实施例,图5示出了本技术一实施例提供的一种模型训练数据生成装置的结构示意图。如图5所示,该装置包括:
[0107]
样本集获取模块502,被配置为获取目标业务的待训练数据样本集,其中,所述待训练数据样本集包括第一样本集和第二样本集,所述第一样本集中待训练数组的数量小于预设数量阈值;
[0108]
升维处理模块504,被配置为对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集,其中,所述高维数据样本集包括所述第一样本集对应的第一高维数组集、以及所述第二样本集对应的第二高维数组集;
[0109]
过采样处理模块506,被配置为对所述第一高维数组集进行过采样处理,获得目标高维数组集,其中,所述目标高维数组集中的高维数组的数量满足所述预设数量阈值;
[0110]
样本集确定模块508,被配置为基于所述目标高维数组集和所述第二高维数组集,确定所述目标业务的目标训练数据样本集。
[0111]
可选地,所述升维处理模块504,进一步被配置为:
[0112]
在预设升维算法集合中,确定目标升维算法;
[0113]
基于所述目标升维算法,对所述待训练数据样本集中的每个待训练数组进行升维处理,获得高维数据样本集。
[0114]
可选地,所述升维处理模块504,进一步被配置为:
[0115]
在所述待训练数据样本集中,确定目标待训练数组以及多个参考待训练数组;
[0116]
基于所述目标待训练数组以及所述多个参考待训练数组,根据目标升维算法进行升维处理,获得所述目标待训练数组对应的高维数组;
[0117]
基于所述目标待训练数组对应的高维数组,生成高维数据样本集。
[0118]
可选地,所述升维处理模块504,进一步被配置为:
[0119]
基于所述目标待训练数组以及所述多个参考待训练数组,根据目标升维算法确定所述目标待训练数组与每个参考待训练数组之间的参考数组距离;
[0120]
基于所述参考数组距离,获取所述目标待训练数组对应的参考维度参数;
[0121]
根据所述参考维度参数以及目标维度参数,生成所述目标待训练数组对应的高维数组,其中,所述目标维度参数基于所述目标待训练数组确定。
[0122]
可选地,所述过采样处理模块506,进一步被配置为:
[0123]
在预设过采样算法集合中,确定目标过采样算法;
[0124]
基于所述目标过采样算法,对所述第一高维数组集进行过采样处理,获得目标高
telephone network)、局域网(lan,local area network)、广域网(wan,wide area network)、个域网(pan,personal area network)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,network interface controller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wireless local area network)无线接口、全球微波互联接入(wi-max,worldwide interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
[0143]
在本技术的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0144]
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(pc,personal computer)的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
[0145]
其中,处理器620执行所述计算机指令时实现所述的模型训练数据生成方法的步骤。
[0146]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的模型训练数据生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述模型训练数据生成法的技术方案的描述。
[0147]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述模型训练数据生成方法的步骤。
[0148]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的模型训练数据生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述模型训练数据生成方法的技术方案的描述。
[0149]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0150]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖
区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0151]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0152]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0153]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。