一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置与流程

文档序号:28815404发布日期:2022-02-09 05:47阅读:196来源:国知局
一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置与流程

1.本技术涉及计算机技术领域,尤其涉及一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置。


背景技术:

2.近年来,我国城市轨道交通行业快速发展,在满足人民出行需求、支持和引领城市发展方面发挥了重要作用。随着信息和各种高新技术、设备在轨道交通中的普及应用,促进了轨道交通运输组织、机车技术、供电方式、维修方式的智慧化、智能化。然而,目前我国城市轨道交通的运营维护模式仍以传统的维护手段为主,随着城市轨道交通运营规模的不断扩大,部分线路的关键设施设备相继进入大修阶段,维修压力不断加大。因此,我国各地均在积极探索构建一种基于状态监测、特征提取、状态评估、故障诊断的智能综合维修系统与集成维修模式和维修决策优化的智能安全防护系统。运维人员的推荐是智能安全防护系统比较重要的环节,优选出的运维人员能够为整个安全防提升效率,但目前没有能够提供智能推荐运维人员的系统。
3.因此亟需一种基于机器学习模型,通过智能推荐的方式,将故障的相关信息推送给合适的运维人员的方法。


技术实现要素:

4.本发明目的是为了解决现有缺少一种基于机器学习模型,通过智能推荐的方式,将故障的相关信息推送给合适的运维人员的方法的问题,提供了一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法和装置。
5.本发明是通过以下技术方案实现的,本发明一方面,提供一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法,所述方法包括:利用 gbdt模型和lr模型,建立gbdt+lr模型;建立运维人员智能推荐数据集,所述运维人员智能推荐数据集包括标签变量和特征变量,其中,所述标签变量包括运维人员工号和是否维修成功,所述特征变量包括运维人员基础信息指标和维修设备信息指标;对所述运维人员智能推荐数据集进行预处理,所述预处理包括填充缺失值和特征处理,所述特征处理具体包括:若所述特征变量为连续变量,则对所述特征变量进行归一化处理;若所述特征变量为离散变量,则对所述特征变量进行独热编码;将所述预处理的运维人员智能推荐数据集划分为训练集和验证集;利用所述训练集对所述gbdt+lr模型进行训练,获取所述gbdt+lr模型的参数;根据所述gbdt+lr模型的参数,获取训练后的gbdt+lr模型;利用所述验证集对所述训练后的gbdt+lr模型进行验证,确定最终的gbdt+lr模
型。
6.进一步地,所述gbdt+lr模型包括gbdt模型和lr模型;所述gbdt模型对数据集进行特征筛选以及高阶特征组合,获取新的特征向量;所述新的特征向量为lr模型的输入,所述lr模型的输出为预测值。
7.进一步地,所述运维人员基础信息指标包括运维人员工龄、运维人员当前工作负载量、运维人员技能评价和维修时间截;所述维修设备信息指标包括维修设备名称、设备故障紧急程度、故障类型、故障现象和故障地点。
8.进一步地,所述填充缺失值包括但不限于填充默认值,填充均值、中位数,以及线性插值法。
9.进一步地,所述将所述预处理的运维人员智能推荐数据集划分为训练集和验证集,具体包括:将所述预处理的运维人员智能推荐数据集按照8:2的比例进行划分,相应划分为训练集与验证集。
10.进一步地,所述利用所述验证集对所述训练后的gbdt+lr模型进行验证,具体包括:根据所述验证集,利用评估指标对所述训练后的gbdt+lr模型进行验证;所述评估指标包括但不限于准确率、召回率、f值、auc值和损失函数值。
11.进一步地,所述评估指标为auc值和对数损失函数值;所述auc值为roc曲线下覆盖的区域面积,用来评价机器学习中二分类模型;所述对数损失函数值用来观察模型的收敛情况。
12.另一方面,本发明提供一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐装置,所述装置包括:模型构建模块,用于利用 gbdt模型和lr模型,建立gbdt+lr模型;数据集建立模块,用于建立运维人员智能推荐数据集,所述运维人员智能推荐数据集包括标签变量和特征变量,其中,所述标签变量包括运维人员工号和是否维修成功,所述特征变量包括运维人员基础信息指标和维修设备信息指标;数据集预处理模块,用于对所述运维人员智能推荐数据集进行预处理,所述预处理包括填充缺失值和特征处理,所述特征处理具体包括:若所述特征变量为连续变量,则对所述特征变量进行归一化处理;若所述特征变量为离散变量,则对所述特征变量进行独热编码;数据集划分模块,用于将所述预处理的运维人员智能推荐数据集划分为训练集和验证集;模型训练模块,用于利用所述训练集对所述gbdt+lr模型进行训练,获取所述gbdt+lr模型的参数;根据所述gbdt+lr模型的参数,获取训练后的gbdt+lr模型;模型验证模块,用于利用所述验证集对所述训练后的gbdt+lr模型进行验证,确定最终的gbdt+lr模型。
13.第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种
基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的步骤。
14.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的步骤。
15.本发明的有益效果:本发明对基于gbdt+lr模型对运维人员智能推荐进行了研究,基于机器学习模型,通过智能推荐的方式,将故障的相关信息推送给合适的运维人员,对提高工作效率及提升服务质量有重要意义。
16.本发明适用于我国城市轨道交通的运营维护。
附图说明
17.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为gbdt+lr模型训练示意图;图2为gbdt模型构造新特征示意图;图3为roc曲线。
具体实施方式
19.实施方式一、一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法,所述方法包括:利用 gbdt模型和lr模型,建立gbdt+lr模型;建立运维人员智能推荐数据集,所述运维人员智能推荐数据集包括标签变量和特征变量,其中,所述标签变量包括运维人员工号和是否维修成功,所述特征变量包括运维人员基础信息指标和维修设备信息指标;对所述运维人员智能推荐数据集进行预处理,所述预处理包括填充缺失值和特征处理,所述特征处理具体包括:若所述特征变量为连续变量,则对所述特征变量进行归一化处理;若所述特征变量为离散变量,则对所述特征变量进行独热编码;将所述运维人员智能推荐数据集划分为训练集和验证集;利用所述训练集对所述gbdt+lr模型进行训练,获取所述gbdt+lr模型的参数;根据所述gbdt+lr模型的参数,获取训练后的gbdt+lr模型;利用所述验证集对所述训练后的gbdt+lr模型进行验证,确定最终的gbdt+lr模型。
20.本实施方式中,采用 gbdt模型和lr模型,建立gbdt+lr模型。
21.其中,gbdt模型具体包括:梯度提升决策树(gradient boosting decision tree,gbdt)是一种基于boosting类的集成学习决策树算法,常选用分类回归树模型( classification and regression tree,cart)作为该模型的基学习器。gbdt模型中每一棵决策树的生成都是以
损失函数最小化为目标,一直向损失函数残差减小的梯度方向迭代,直到残差趋近于0时停止,最后将所有决策树的结果加权求和得出最终分类结果。gbdt模型流程如下:输入:训练集记为{(),

,(),

,()},其中,;;。
22.输出:(1)初始化弱分类器:其中,为初始决策树,为损失函数,为满足损失函数最小化的常数。
23.(2)对于迭代次数m=1,2

,m,执行下列步骤:

分别计算样本i的负梯度:,其中=

利用所有样本及其负梯度方向()构建出由j个叶结点组成的决策树, ,为第m棵树的节点域

对决策树的j个叶结点计算最佳拟合值:

本次迭代可得新分类器如下:其中,(3)将步骤(2)中生成的m个分类器线性加权求和,得到最终的分类模型如下:lr模型,具体包括:逻辑回归(lr)是一种用来解决二分类问题的广义线性回归模型,其公式如下:lr模型就是在线性回归模型的基础上添加了sigmoid函数,将目标值映射到[0,1]区间上,并划分一个阈值,大于阈值的可分为一类,小于阈值的归为另一类,sigmoid函数公式如下;
记输入模型的数据集为{(),

,(),

,()},其中,;;。
[0024]
设属于y=0和y=1的概率分别为:(1)由式(1)可得出其似然函数为:(2)对式(2)取对数可得:(3)通过梯度下降及求取对数似然函数的极大值可得出权重向量的估计值,则逻辑回归模型如下:(4)(5)只需把x带入公式(4)、(5),若若,则x属于y=0一类,反之,则属于y=1一类。
[0025]
本实施方式中,采用lr模型作为一种广义线性回归模型,在用lr模型进行训练之前,需要采取特征工程对原始数据进行特征提取,进而得到更好的分类结果。gbdt+lr融合模型解决ctr预估问题,利用gbdt模型来对原始数据进行特征筛选以及高阶特征组合,将生成的新的特征向量作为lr模型的输入,进而得到更好的预测效果。本实施方式解决了lr模型在处理特征关系较为简单的数据集分类时具有多方优势,但对于特征关系较为复杂的数据集来说,lr模型学习能力有限,不能充分挖掘数据集中的有效信息,容易导致欠拟合问题。
[0026]
本实施方式经浏览相关变电运维管理系统、收集相关维修人员信息管理资料、变电所巡视表单记录等资料,整理出城轨变电所维修人员智能推荐研究所需数据集,经过对该数据集进行分析,发现其存在缺失值,故而对其进行数据预处理。数据预处理是指在训练模型之前对数据集进行相关处理,以便更好地进行模型训练的过程。
[0027]
实施方式二,本实施方式是对实施方式一所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述gbdt+lr模型做了进一步限定,具体包括:所述gbdt+lr模型包括gbdt模型和lr模型;所述gbdt模型对数据集进行特征筛选以及高阶特征组合,获取新的特征向量;所述新的特征向量为lr模型的输入,所述lr模型的输出为预测值。
[0028]
本实施方式对所述gbdt+lr模型的构造和数据处理方法进行了限定。根据训练集
和验证集对该gbdt+lr模型训练,其训练过程如图1所示,用初始数据集训练gbdt模型,进而得到一系列的决策树,组成一个强学习器,每棵树上的叶结点都是新特征向量的一个维度,对所有决策树上的叶结点进行独热编码,则当新特征中有样本落入叶结点的未知记为1,其余节点位置编码为0,进而传到lr模型中进行二次训练。
[0029]
由gbdt构造新的离散特征如图2所示,tree1为gbdt模型训练过程中生成的一颗决策树,当输入样本x时,其最终落到了tree1上的第二个叶子节点上,则与这个位置上对应的编码为1其余位置均为0,故得到的新特征向量为[0,1,0,0,0]。
[0030]
实施方式三,本实施方式是对实施方式一所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述运维人员基础信息指标和维修设备信息指标做了进一步限定,具体包括:所述运维人员基础信息指标包括运维人员工龄、运维人员当前工作负载量、运维人员技能评价和维修时间截;所述维修设备信息指标包括维修设备名称、设备故障紧急程度、故障类型、故障现象和故障地点。
[0031]
本实施方式中,通过调研相关轨道交通智慧运维资料,查找某城轨变电系统相关维修信息等,将所选指标分别为两大类别,一类为标签变量,主要包括运维人员工号及是否维修成功,维修成功记为1,否则记为0;另一类为特征变量,主要包括运维人员基础信息指标以及维修设备信息指标,具体指标体系如表1所示。
[0032]
表1 运维人员智能推荐研究指标体系本实施方式给出了运维人员智能推荐数据集的具体参数,利用该参数可以预测出相应的运维人员。
[0033]
实施方式四,本实施方式是对实施方式一所述的一种基于梯度提升决策树与逻辑
回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述填充缺失值做了进一步限定,具体包括:所述填充缺失值包括但不限于填充默认值,填充均值、中位数,以及线性插值法。
[0034]
本实施方式中,给出了缺失值填充方法,常见的填补缺失值的方法有填充默认值,填充均值、中位数,以及线性插值法,可根据不同的需要选择不同的缺失值填充法,经过对数据进行整理分析,并根据所选数据集的数据特征,本实施方式选择在空缺的地方填入-1值。
[0035]
实施方式五,本实施方式是对实施方式一所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述特征处理做了进一步限定,具体包括:为消除量纲对训练模型的影响,对连续特征的数据进行归一化处理,具体公式如下;对于离散特征的数据,对其进行独热编码(one-hot encoding),用以提高模型的运算效率及精度。
[0036]
本实施方式给出了特征处理的具体方法,为数据的预处理提供了实现方法。
[0037]
实施方式六,本实施方式是对实施方式一所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述将所述预处理的运维人员智能推荐数据集划分为训练集和验证集做了进一步限定,具体包括:将所述预处理的运维人员智能推荐数据集按照8:2的比例进行划分,相应划分为训练集与验证集。
[0038]
本实施方式中,将处理好的数据集按照8:2的比例进行划分,划分为训练集与验证集,记为x_train,y_train,x_val,y_val,训练集用来训练模型生成参数,验证集用来检验模型的好坏,用来比较测试数据的预测值与真实值之间的差距。
[0039]
实施方式七,本实施方式是对实施方式一所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述利用所述验证集对所述训练后的gbdt+lr模型进行验证做了进一步限定,具体包括:根据所述验证集,利用评估指标对所述训练后的gbdt+lr模型进行验证;所述评估指标包括但不限于准确率、召回率、f值、auc值和损失函数值。
[0040]
本实施方式中,给出了常用的评估指标有准确率、召回率、f值、auc值和损失函数值等。
[0041]
实施方式八,本实施方式是对实施方式七所述的一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐方法的进一步限定,本实施方式中,对所述评估指标做了进一步限定,具体包括:所述评估指标为auc值和对数损失函数值;所述auc值为roc曲线下覆盖的区域面积,用来评价机器学习中二分类模型;所述对数损失函数值用来观察模型的收敛情况。
[0042]
本实施方式中,使用的评价指标为auc值和对数损失函数值(logloss)。
[0043]
其中,auc值为roc曲线下覆盖的区域面积,用来评价机器学习中二分类模型的优劣。一般来说,auc值越大,代表该模型效果越好,当auc 值小于0.5时,表示模型的表现较差;当auc的值大于0.5,表示模型的表现较好。
[0044]
logloss用来观察模型的收敛情况。logloss的值越小,表明模型对应的损失函数的值越小,模型的预测效果越好,公示如下:其中,logloss是损失率对数,pi是预测成功概率, n是变量个数,i=1,2,

n。
[0045]
实施方式九,通过对数据集进行数据预处理、数据集划分和基于gbdt+lr的模型训练后,用训练好的最优参数模型对测试集进行维修人员维修成功率预测。鉴于测试数据较多,本实施方式仅对十位维修人员的成功率进行模型预测及智能排序,结果如表2:表2 模型预测及智能排序结果由表2可知,通过对十名维修人员的维修成功率进行预测并对其结果进行智能排序,其中,工号i9的维修人员的维修成功概率最大,为95.63%左右;工号为i3、i4的维修人员维修成功率也均在90%以上;工号为i6的维修人员成功预测值较低,仅为62.41%左右。故而根据预测结果,可推荐i9号维修人员。
[0046]
如图3所示,为了验证gbdt+lr模型的参数效果,采用auc和logloss评价指标评价模型的预测效果,具体结果如表3所示:表3 模型评价指标实验结果表明,gbdt+lr模型在维修人员成功率预测的机器学习模型中效果较好,
auc值为0.6969,logloss值为0.2999,说明该模型具有较好的预测性能。
[0047]
另一方面,本发明提供一种基于梯度提升决策树与逻辑回归融合的运维人员智能推荐装置,所述装置包括:模型构建模块,用于利用 gbdt模型和lr模型,建立gbdt+lr模型;数据集建立模块,用于建立运维人员智能推荐数据集,所述运维人员智能推荐数据集包括标签变量和特征变量,其中,所述标签变量包括运维人员工号和是否维修成功,所述特征变量包括运维人员基础信息指标和维修设备信息指标;数据集预处理模块,用于对所述运维人员智能推荐数据集进行预处理,所述预处理包括填充缺失值和特征处理,所述特征处理具体包括:若所述特征变量为连续变量,则对所述特征变量进行归一化处理;若所述特征变量为离散变量,则对所述特征变量进行独热编码;数据集划分模块,用于将所述预处理的运维人员智能推荐数据集划分为训练集和验证集;模型训练模块,用于利用所述训练集对所述gbdt+lr模型进行训练,获取所述gbdt+lr模型的参数;根据所述gbdt+lr模型的参数,获取训练后的gbdt+lr模型;模型验证模块,用于利用所述验证集对所述训练后的gbdt+lr模型进行验证,确定最终的gbdt+lr模型。
[0048]
本发明通过建立gbdt+lr模型对城轨变电所维修人员进行维修成功率的预测,且能够智能推荐预测成功率最高的维修人员,并通过测试表明该模型在准确率、损失函数方面都具有很好的预测性能。本发明有利于更好地进行维修人员的智能管理,以及加强轨道交通维修效率及维修质量,在轨道交通维修人员的智能推荐领域提供了新的思路。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1