一种基于改进的代价敏感随机森林的数据预测方法及系统与流程

文档序号:33466309发布日期:2023-03-15 06:44阅读:162来源:国知局
一种基于改进的代价敏感随机森林的数据预测方法及系统与流程

1.本技术涉及数据预测领域,尤其涉及一种基于改进的代价敏感随机森林的数据预测方法及系统。


背景技术:

2.随着5g的到来,万物互联走向万物智联,需要精确度更高的预测算法进一步发挥作用。现有技术中,代价敏感随机森林(cost sensitive random forest,csrf)因有较高的准确度和auc(受试者工作特征曲线下的面积,受试者工作特征称为roc)值被大量的用于非平衡数据分类问题分析中,但其存在以下不足:不考虑样本数据实际分布情况,cart(classification and regression tree)决策树基于的实验数据集的非平衡程度不同。这将导致造成预测模型整体性能较差,影响预测模型的整体预测性能。因此,如何提高预测模型的精确度是一个亟待解决的技术问题。


技术实现要素:

3.针对上述技术问题,本技术实施例提供了一种基于改进的代价敏感随机森林的数据预测方法及系统,用以数据预测。
4.第一方面,本技术实施例提供的一种基于改进的代价敏感随机森林的数据预测方法,包括:
5.收集待处理数据;
6.对所述待处理数据进行预处理,得到第一数据;
7.根据所述第一数据进行特征数据处理,得到第二数据;
8.重构代价敏感函数,设置预测模型的参数;
9.根据所述预测模型和所述第二数据进行预测。
10.优选的,本发明中,收集到待处理数据后,进行预处理,得到第一数据。具体包括:
11.对所述待处理数据中的缺失值进行处理;
12.进行规范化处理得到所述第一数据;
13.所述对所述待处理数据中的缺失值进行处理包括:
14.将缺失率超过百分之五十的标签删除,将缺失率不超过百分之五十的标签中的缺失作为一种新的状态用-1对缺失值进行填充。
15.优选的,为了弥补现有技术中代价敏感随机森林算法的不足,本发明对代价敏感函数进行重构,包括:
16.计算多数类c1、少数类c0与整个数据集n的数据中心,所述数据中心根据每个特征列的算术平均数确定;
17.计算多数类c1和少数类c0到整个数据集n中心的权重距离;
18.为类别c1和c0定义γ系数;
19.构造代价函数。
20.优选的,为了提高预测模型整体预测性能,本发明对不同的决策树赋予不同的权重,具体的包括:
21.所述计算多数类c1和少数类c0到整个数据集n中心的权重距离包括:
22.根据以下公式计算所述权重距离:
[0023][0024]ds
是第s类的权重距离,a
si
是第s类数据的数据中心,ws是第s类数据的权重系数,是整个数据集的中心;
[0025]
所述为类别c1和c0定义γ系数包括:
[0026]
类别c0的γ系数为:
[0027][0028]
类别c1的γ系数为:
[0029][0030]
其中,n0为类别c0的样本个数,n1为类别c1的样本个数。
[0031]
优选的,本发明中,构造函数为:
[0032][0033]
且满足:当s=q时,代价函数为0,当ds=dq时,代价函数为1;
[0034]
其中,s和q均为是数据类别编号,等于0或者1,等于0表示少数类,等于1表示多数类。
[0035]
优选的,所述根据所述预测模型和所述第二数据进行预测包括:
[0036]
选择查全率、受试者工作特征曲线下的面积roc_auc和f1分数作为模型的评价指标,根据所述预测模型和所述第二数据进行预测;
[0037]
所述f1分数为:
[0038][0039]
其中,precision为准确率,recall为查全率。
[0040]
第二方面,本技术实施例还提供一种基于改进的代价敏感随机森林的数据预测系统,包括:
[0041]
数据处理模块,被配置用于收集待处理数据,对所述待处理数据进行预处理,得到第一数据;
[0042]
特征处理模块,被配置用于根据所述第一数据进行特征数据处理,得到第二数据;
[0043]
预测计算模块,被配置用于重构代价敏感函数,设置预测模型的参数,根据所述预测模型和所述第二数据进行预测。
[0044]
第三方面,本技术实施例还提供一种基于改进的代价敏感随机森林的数据预测系统,包括:存储器、处理器和用户接口;
[0045]
所述存储器,用于存储计算机程序;
[0046]
所述用户接口,用于与用户实现交互;
[0047]
所述处理器,用于读取所述存储器中的计算机程序,所述处理器执行所述计算机程序时,实现本发明提供的基于改进的代价敏感随机森林的数据预测方法。
[0048]
本发明的有益之处在于,使用本发明提供的基于改进的代价敏感随机森林的数据预测方法及系统,针对生产环境真实数据的非平衡性,将样本实际分布与特征权重纳入考虑,并在基础决策树分类器组合时,以错误率为依据赋予每棵决策树不同的投票权重,从而提高了分类器整体预测性能,弥补了csrf算法的不足。
附图说明
[0049]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]
图1为现有技术中决策树示意图;
[0051]
图2为本技术实施例提供的基于改进的代价敏感随机森林的数据预测方法示意图;
[0052]
图3为本技术实施例提供的一种基于改进的代价敏感随机森林的数据预测系统结构示意图;
[0053]
图4为本技术实施例提供的另一种基于改进的代价敏感随机森林的数据预测系统结构示意图。
具体实施方式
[0054]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0055]
下面对文中出现的一些词语进行解释:
[0056]
1、本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0057]
2、本技术实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
[0058]
3、roc,指的是受试者工作特征。
[0059]
4、roc_auc,指的是roc曲线下的面积,即受试者工作特征曲线下的面积。
[0060]
目前,以人工智能为代表的技术大量应用在智慧医疗、病人护理、体温检测、食堂刷脸,门禁系统等领域。随着第五代移动通信5g的到来,万物互联走向万物智联,需要精确度更高的预测算法进一步发挥作用。目前不平衡数据的二分类预测算法主要有决策树(c4.5)、逻辑回归(logistics regression,lr)、支持向量机(support vector machine,svm)、代价敏感随机森林(cost sensitive random forest,csrf)、极端梯度提升(xgboost)等。csrf因有较高的准确度和auc值被大量的用于非平衡数据分类问题中,但是目前csrf主要存在以下不足:
[0061]
1.不考虑样本数据实际分布情况;
[0062]
构造的代价敏感函数没有将样本数据的实际分布情况纳入考虑范畴;且在代价因子构造的过程中,不区别对待数据特征,并利用欧式距离计算公式计算数据样本之间的距离,这会导致算法忽略重要的数据特征。在实际的二分类问题中,预测模型基于的数据集一般由多个特征组成,且同一个特征对“是”和“否”这两个类别的重要程度不相同,若代价函数仅通过欧式距离确定样本之间的距离,这会导致构造的代价函数对重要特征不公平,无法保证所构代价的准确性,从而使csl方法的性能得不到保证,最终造成预测模型整体性能较差。
[0063]
2.cart决策树基于的实验数据集的非平衡程度不同。
[0064]
现有的csrf算法使用的基分类器是cart决策树如图2所示,而构建cart决策树所基于的数据集是随机产生的,即这些数据集的非平衡程度不同。这就导致由这些数据集训练出的基础决策树的预测能力是有差异的。但在最终投票阶段,采取的是少数服从多数的投票方式,并没有考虑决策树分类性能的差异,这影响了预测模型的整体预测性能。
[0065]
针对上述技术问题,本发明提出了一种基于改进的代价敏感随机森林的数据预测方法及系统,用以提高预测的精确度。
[0066]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,并不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0067]
需要说明的是,本技术实施例的展示顺序仅代表实施例的先后顺序,并不代表实施例所提供的技术方案的优劣。
[0068]
实施例一
[0069]
参见图2,本技术实施例提供的一种基于改进的代价敏感随机森林的数据预测方法示意图,如图2所示,该方法包括步骤s301到s305:
[0070]
s301、收集待处理数据;
[0071]
作为一种优选示例,本发明中,以生产上实际的某一场景的用户交易数据为待处理数据。例如,针对某一产品,将这些用户划分为“是”购买该产品和“否”购买该产品两类。即将用户划分为购买了该产品和未购买该产品两类。
[0072]
s302、对所述待处理数据进行预处理,得到第一数据;
[0073]
作为一种优选示例,收集完成待处理数据后,收集到的实验数据可能具有重要字段数据缺失、数据存储类型多为类别或者字符型等特点,需要对数据进行预处理。作为一种优选示例,对待处理数据进行预处理包括:
[0074]
步骤a1:对所述待处理数据中的缺失值进行处理;
[0075]
例如,对于类别型变量,本发明直接将缺失率超过百分之五十的标签删除,将缺失率不超过百分之五十的变量中的缺失作为一种新的状态,用-1对缺失值进行填充。
[0076]
步骤a2:进行规范化处理得到所述第一数据。
[0077]
数据规范化处理指的是将数据按照比例进行缩放,使之落入一个特定的区域,从而消除指标之间取值范围差异的影响。例如通过编码、连续变量离散化处理等方法进行数据的规范化。本发明中,所述进行规范化处理包括以下步骤:
[0078]
步骤b1:针对预设的产品,将发生过交易的客户标记为1,将未发生过交易的客户标记为0;
[0079]
其中,预设的产品可以是新产品,也可以是已有的产品。作为另一种优选示例,也可以将发生过交易的客户标记为0,将未发生过交易的客户标记为1。
[0080]
步骤b2:对二分类属性进行二进制编码;
[0081]
也就是说,针对发生过交易和未发生过交易这个二分属性,进行0-1编码。
[0082]
步骤b3:对无序分类属性进行哑变量编码;
[0083]
本发明中,无需分类属性是指根据具体实验数据确定无需分类的属性,例如性别。
[0084]
步骤b4:将字符串类型数据转换为整数或者浮点数;
[0085]
步骤b5:将平均数、中位数、百分之七十五分位数小于预设的第一门限,或者大于预设的第二门限的数值进行离散化处理,其中所述第一门限大于所述第二门限;
[0086]
本步骤中,作为一种优选示例,小于预设的第一门限可以是远小于预设的第一门限。大于预设的第二门限可以是远大于第二门限。
[0087]
作为一种优选示例,进行离散化处理可以是通过k-means聚类算法进行离散化处理。
[0088]
步骤b6:将数值型特征用最大最小标准化方法对数据进行标准化;
[0089]
作为一种优选示例,本步骤中,所述用最大最小标准化方法对数据进行标准化包括:
[0090]
通过以下公式进行标准化:
[0091][0092]
其中,y是标准化之后的数据,x是标准化之前的数据,max是标准化之前的数据的最大值,min是标准化之前的数据最小值;
[0093]
将所述标准化之后的数据作为所述第一数据。
[0094]
通过标准化处理,使得处理后的数据映射到[0,1]区间内。
[0095]
s303、根据所述第一数据进行特征数据处理,得到第二数据;
[0096]
作为一种优选示例,所述根据所述第一数据进行特征数据处理,得到第二数据包括步骤c1和步骤c2:
[0097]
步骤c1:进行特征衍生;
[0098]
通过特征衍生的方式在原始数据特征的基础上派生出新的特征,增加特征的数量。也就是说,为了进一步提升预测模型的性能,本发明通过特征衍生的方式在原始数据特征的基础上派生出新的特征以此来增加特征的数量。例如可从时间维度、客户交易信息、客
户余额信息等数据的基础上进行特征衍生,衍生出“本月比上月账户余额差”等特征,帮助二分类算法进行二分类。例如,还可以衍生出“本月比上月购买数增长量”等特征。
[0099]
步骤c2:对特征进行筛选。
[0100]
经过数据收集,预处理和特征衍生,本发明进行预测的实验数据的维度增加,例如可达58维,即实验数据集共有58个数据特征。由于当数据维度过大时模型的训练时间呈指数级增长,而这些数据特征中有部分与模型预测不相关的特征,所以需要进行特征筛选。本发明通过方差选择法、iv值筛选和ks检验法进行特征筛选,从而减少数据的维度。下面分别对本发明中方差选择法、iv值筛选和ks检验法进行说明。
[0101]
方差选择法:方差选择法指的是对实验数据的各个特征的方差进行计算,然后根据设定的阈值将方差低于设定的阈值的特征舍弃。本发明中,设定的阈值为1,当特征的方差接近0时,表明该特征对样本没有预测能力。
[0102]
iv值筛选法:iv(information value)即信息价值指标,用以判别二分类问题中数据特征的区分能力。当在分析连续型变量时需要先对变量进行分箱操作然后再进行iv计算。iv值计算公式如下:
[0103][0104]
其中,n表示该变量的类别数,gs表示该变量的第s种类别对应的正类样本数,g表示正类样本的总数,bs表示该变量的第s种类别对应的负样本数,b表示负类样本的总数。iv值越大代表该特征的分布有较大的差异性,有较好的区分能力。若iv值超过预设的iv门限,则将该特征加入模型中会发生过拟合的情况。若iv值小于0.02时表明,可认为该特征没有预测能力,本发明将iv值小于0.02的变量进行舍弃。
[0105]
ks检验:ks(kolmogorov-smirnov)用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异,也被用于评估模型或者特征区分能力。ks基于累计分布函数,ks指标越大,代表正负类样本的累计差异越大,特征的区分能力越强。当ks值大于0.2时,表明该特征有较好的预测能力。本发明中将ks值小于0.1的特征进行舍弃。
[0106]
作为一种优选示例,经过步骤c2后,选取25维特征构建预测模型。经过s303步骤的处理,剔除冗余特征和噪声特征,提高模型计算性能。
[0107]
s304、重构代价敏感函数,设置预测模型的参数;
[0108]
作为一种优选示例,本发明中,预测模型为代价敏感随机森林算法。优选的,所述重构代价敏感函数包括步骤d1、步骤d2、步骤d3和步骤d4:
[0109]
步骤d1:计算多数类c1、少数类c0与整个数据集n的数据中心,所述数据中心根据每个特征列的算术平均数确定;
[0110]
作为一种优选示例,
[0111]
根据以下公式计算所述整个数据集n的数据中心:
[0112]
[0113]
其中,
[0114][0115]
m和n均为数据的维度;
[0116]
k是大于等于1小于等于m的整数;
[0117]cs
表示类别,s为数据类别编号,s等于0或者1,s等于0表示少数类,s等于1表示多数类;作为一种优选示例,类别cs的值可以根据需要确定,例如0表示多数类,1表示少数类,也可以1表示多数类,0表示少数类,还可以是其他表示方法,只要不同类别数值不同即可。
[0118]
i是数据的编号。
[0119]
步骤d2:计算多数类c1和少数类c0到数据集n中心的权重距离;
[0120]
作为一种优选示例,所述计算多数类c1和少数类c0到整个数据集n中心的权重距离包括:
[0121]
根据以下公式计算所述权重距离:
[0122][0123]ds
是第s类的权重距离,a
si
是第s类数据的数据中心,ws是第s类数据的权重系数,是整个数据集的中心;
[0124]
例如,当s=0时,少数类c0到整个数据集n中心的权重距离d0的计算公式为:
[0125][0126]
其中,即为整个数据集n的数据中心ak。
[0127]
w0为少数类c0的权重系数,a
0i
是少数类c0的数据中心。
[0128]
例如,当s=1时,多数类c1到整个数据集n中心的权重距离d1的计算公式为:
[0129][0130]
其中,即为整个数据集n的数据中心ak。
[0131]
w1为多数类c1的权重系数,a
1i
是多数类c1的数据中心。
[0132]
作为一种优选示例,少数类c0的数据中心a
0i
的计算和多数类c1的数据中心a
1i
的计算方法,与整个数据集n的数据中心的计算方法相同。即少数类c0的数据中心a
0i
的计算公式为:
[0133][0134]
其中,
[0135][0136]
x
0i
为少数类的c0的数据。
[0137]
同理,多数类c1的数据中心a
1i
的计算公式为:
[0138][0139]
其中,
[0140][0141]
x
1i
为多数类的c1的数据。
[0142]
在构建rf算法预测模型过程中,单棵决策树的构建只使用到了原始训练数据集中的一个bootstrap样本,剩余的oob(out-of-bag)被闲置,本发明将这部分数据作为检验单棵决策树预测准确率的测试集,进而得到每棵决策树预测的错误率,然后依据错误率赋予每棵决策树以不同的投票权重。权重越大的基础决策树,其错误率越低,在随机森林的最后决策阶段所占的比重越大。
[0143]
换句话说,不平衡数据集中,重要特征相对较少,计算类别中心到整个数据集中心的欧式距离并以此构造代价对重要特征并不公平。因此,本发明引入权重距离,并通过信息增益这一指标来权衡每个数据特征对不同类别的重要程度,如下式所示:
[0144][0145]
其中,p(c)代表类别c在总数据集中的概率,p(x,c)代表类别c中包含特征x的概率,p(x)代表数据集中包含特征x的概率。
[0146]
步骤d3:为类别c1和c0定义γ系数;
[0147]
优选的,类别c0的γ系数为:
[0148][0149]
类别c1的γ系数为:
[0150][0151]
其中,n0为类别c0的样本个数,n1为类别c1的样本个数。
[0152]
步骤d4:构造代价函数。
[0153]
作为一种优选示例,所述构造代价函数包括:
[0154]
所述代价函数为:
[0155][0156]
且满足:当s=q时,代价函数为0,当ds=dq时,代价函数为1;
[0157]
其中,s和q均为是数据类别编号,等于0或者1,等于0表示少数类,等于1表示多数类。
[0158]
通过s304,通过让代价敏感函数将样本数据的实际分布情况纳入考虑范畴,保证所构的代价函数对数据特征的公平性,从而提高了代价的准确性和性能。最终,经过重构后,本发明的csrf算法输出入下式:
[0159][0160]
其中,表示权重中心,hk表示到权重中心距离,x表示横坐标,y表示纵坐标。
[0161]
s305、根据所述预测模型和所述第二数据进行预测。
[0162]
不平衡数据二分类问题中,少数类分类性能的好坏更为重要,而准确率无法合理的展现模型对少数类的预测性能。但是少数类的查全率,即判别正确的少数类占所有少数类的比例,可以展现模型对少数类的性能。本发明非平衡数据二分类问题,仅准确率这一评价指标无法真正的评价模型性能的好坏,所以本发明选择查全率、roc_auc和f1分数作为模型的评价指标,这三个评价指标的值越大,表明分类模型的性能越好.
[0163]
f1分数因兼容考虑了分类模型的查全率和准确率,所述f1分数为:
[0164][0165]
其中,precision为准确率,recall为查全率。
[0166]
本实施例的方法,具备以下优点:
[0167]
(1)避免重要数据特征被忽略。现有的代价敏感随机森林算法构造的代价敏感函
数没有将样本数据的实际分布情况纳入考虑范畴;且在代价因子构造的过程中,不区别对待数据特征,并利用欧式距离计算公式计算数据样本之间的距离,这会导致算法忽略重要的数据特征。而实际的生产场景中的二分类问题,预测模型基于的数据集大多由多个特征组成,且同一个特征对“是”和“否”这两个类别的重要程度不相同,若代价函数仅通过欧式距离确定样本之间的距离,这会导致构造的代价函数对重要特征不公平,无法保证所构代价的准确性,从而性能得不到保证,最终造成预测模型整体性能较差。本发明在构造代价函数时,将样本的实际分布与特征权重纳入考虑,以保证代价敏感函数对重要特征的公平性,从而提高csl方法的性能。
[0168]
(2)提高预测模型整体预测性能。现有的csrf算法使用的基分类器是cart决策树,而构建cart决策树所基于的数据集是随机产生的,即这些数据集的非平衡程度不同。这就导致由这些数据集训练出的基础决策树的预测能力是有差异的。但在最终投票阶段,采取的是少数服从多数的投票方式,并没有考虑决策树分类性能的差异,这会影响预测模型的整体预测性能。但正确率较高的决策树应该具有较高的权重,反之应该被赋予较低的权重或者零权重。本发明在基础决策树分类器的组合阶段,将oob(out-of-bag)数据作为测试集,计算每棵决策树的错误率,依据错误率赋予每棵决策树以不同的投票权重。权重越大的基础决策树,其错误率越低,在随机森林的最后决策阶段所占的比重越大。
[0169]
实施例二
[0170]
基于同一个发明构思,本发明实施例还提供了一种基于改进的代价敏感随机森林的数据预测系统,如图4所示,该系统包括:
[0171]
数据处理模块501,被配置用于收集待处理数据,对所述待处理数据进行预处理,得到第一数据;
[0172]
特征处理模块502,被配置用于根据所述第一数据进行特征数据处理,得到第二数据;
[0173]
预测计算模块503,被配置用于设置预测模型的参数,根据所述预测模型和所述第二数据进行预测。
[0174]
作为一种优选示例,数据处理模块501还被配置用于根据以下方式对所述待处理数据进行预处理,得到第一数据:
[0175]
对所述待处理数据中的缺失值进行处理;
[0176]
进行规范化处理得到所述第一数据;
[0177]
所述对所述待处理数据中的缺失值进行处理包括:
[0178]
将缺失率超过百分之五十的标签删除,将缺失率不超过百分之五十的标签中的缺失作为一种新的状态用-1对缺失值进行填充。
[0179]
所述进行规范化处理包括以下步骤:
[0180]
针对预设的产品,将发生过交易的客户标记为1,将未发生过交易的客户标记为0;
[0181]
对二分类属性进行二进制编码;
[0182]
对无序分类属性进行哑变量编码;
[0183]
将字符串类型数据转换为整数或者浮点数;
[0184]
将平均数、中位数、百分之七十五分位数小于预设的第一门限,或者大于预设的第二门限的数值进行离散化处理,其中所述第一门限大于所述第二门限;
[0185]
将数值型特征用最大最小标准化方法对数据进行标准化;
[0186]
其中,所述用最大最小标准化方法对数据进行标准化包括:
[0187]
通过以下公式进行标准化:
[0188][0189]
其中,y是标准化之后的数据,x是标准化之前的数据,max是标准化之前的数据的最大值,min是标准化之前的数据最小值;
[0190]
将所述标准化之后的数据作为所述第一数据。
[0191]
作为一种优选示例,特征处理模块502还被配置用于根据以下方式对第一数据进行特征数据处理,得到第二数据:
[0192]
进行特征衍生;
[0193]
对特征进行筛选;
[0194]
所述进行特征衍生包括:
[0195]
通过特征衍生的方式在原始数据特征的基础上派生出新的特征,增加特征的数量;
[0196]
所述对特征进行筛选包括:
[0197]
通过方差选择法、iv值筛选和ks检验法进行特征筛选,减少数据的维度。
[0198]
作为一种优选示例,预测计算模块503还被配置用于根据以下方式重构代价敏感函数:
[0199]
计算多数类c1、少数类c0与整个数据集n的数据中心,所述数据中心根据每个特征列的算术平均数确定;
[0200]
计算多数类c1和少数类c0到数据集n中心的权重距离;
[0201]
为类别c1和c0定义γ系数;
[0202]
构造代价函数。
[0203]
所述计算多数类c1、少数类c0与整个数据集n的数据中心包括:
[0204]
根据以下公式计算所述整个数据集n的数据中心:
[0205][0206]
其中,
[0207][0208]
m和n均为数据的维度;
[0209]
k是大于等于1小于等于m的整数。
[0210]cs
表示类别,cs表示类别,s为数据类别编号,等于0或者1,s等于0表示少数类,s等
于1表示多数类。
[0211]
所述计算多数类c1和少数类c0到整个数据集n中心的权重距离包括:
[0212]
根据以下公式计算所述权重距离:
[0213][0214]ds
是第s类的权重距离,a
si
是第s类数据的数据中心,ws是第s类数据的权重系数,a是整个数据集的中心。
[0215]
所述为类别c1和c0定义γ系数包括:
[0216]
所述为类别c1和c0定义γ系数包括:
[0217]
类别c0的γ系数为:
[0218][0219]
类别c1的γ系数为:
[0220][0221]
其中,n0为类别c0的样本个数,n1为类别c1的样本个数。。
[0222]
所述构造代价函数包括:
[0223]
所述代价函数为:
[0224][0225]
且满足:当s=q时,代价函数为0,当ds=dq时,代价函数为1;
[0226]
其中,s和q均为是数据类别编号,等于0或者1,等于0表示少数类,等于1表示多数类。
[0227]
作为一种优选示例,预测计算模块503还被配置用于选择查全率、受试者工作特征曲线下的面积roc_auc和f1分数作为模型的评价指标,根据所述预测模型和所述第二数据进行预测;
[0228]
所述f1分数为:
[0229][0230]
其中,precision为准确率,recall为查全率。
[0231]
需要说明的是,本实施例提供的数据处理模块501,能实现实施例一中步骤s301和s302包含的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述;
[0232]
需要说明的是,本实施例提供的特征处理模块502,能实现实施例一中步骤s303包含的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述;
[0233]
需要说明的是,本实施例提供的预测计算模块503,能实现实施例一中步骤s304和s305包含的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述;
[0234]
需要说明的是,实施例二提供的系统与实施例一提供的方法属于同一个发明构思,解决相同的技术问题,达到相同的技术效果,实施例二提供的系统能实现实施例一的所有方法,相同之处不再赘述。
[0235]
实施例三
[0236]
基于同一个发明构思,本发明实施例还提供了一种基于改进的代价敏感随机森林的数据预测系统,如图4所示,该系统包括:
[0237]
包括存储器602、处理器601和用户接口603;
[0238]
所述存储器602,用于存储计算机程序;
[0239]
所述用户接口603,用于与用户实现交互;
[0240]
所述处理器601,用于读取所述存储器602中的计算机程序,所述处理器601执行所述计算机程序时,实现:
[0241]
收集待处理数据;
[0242]
对所述待处理数据进行预处理,得到第一数据;
[0243]
根据所述第一数据进行特征数据处理,得到第二数据;
[0244]
重构代价敏感函数,设置预测模型的参数;
[0245]
根据所述预测模型和所述第二数据进行预测。
[0246]
其中,在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器601代表的一个或多个处理器和存储器602代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器601负责管理总线架构和通常的处理,存储器602可以存储处理器601在执行操作时所使用的数据。
[0247]
处理器601可以是cpu、asic、fpga或cpld,处理器601也可以采用多核架构。
[0248]
处理器601执行存储器602存储的计算机程序时,实现实施例一中的任一基于改进的代价敏感随机森林的数据预测方法。
[0249]
需要说明的是,实施例三提供的系统与实施例一提供的方法属于同一个发明构思,解决相同的技术问题,达到相同的技术效果,实施例三提供的系统能实现实施例一的所有方法,相同之处不再赘述。
[0250]
本技术还提出一种处理器可读存储介质。其中,该处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现实施例一中的任一基于改进的代价敏感随机森林的数据预测方法。
[0251]
需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元
的形式实现。
[0252]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0253]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0254]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0255]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1