基于随机森林的人员的危险性分析方法与流程

文档序号:27432572发布日期:2021-11-17 22:25阅读:162来源:国知局
基于随机森林的人员的危险性分析方法与流程

1.本发明涉及机器学习领域,尤其涉及一种基于随机森林的人员的危险性分析方法。


背景技术:

2.目前人员危险性评估主要有三种:一是经验型评估,由于受当时的条件限制,危险性评估的方式主要依据评估者对改造表现的直观感觉来界定,这类方法依赖评估者主观判断,总体准确率不高,而且评估过程中的关键是依靠评估者的素质,对于同一名待评价人员,不同评估者的结论可能差别较大;二是量表型评估,实现评估过程标准化和规范化,评估准确率不再依赖评估者的主观判断,但成熟有效的量表编制耗时非常长,多数量表在使用中不能随着社会环境、地理区域、人文风俗、成因等变化而区别对待;第三种是基于机器学习数据驱动的危险性评估方法,依靠多年积累的多维度数据,使用机器学习算法训练分类模型,再通过训练好的模型对待评价人员进行分类。
3.基于机器学习的危险性评估方法目前总体上仍然处于探索阶段,但是在实际操作过程中,普遍存在操作难度较大、评估信度效度较低的问题。现有的方法均基于经验,多采用分类的形式,即把待评价人员分为危险和非危险两类,或者分为高危、中危、低危等少数几个类别,缺乏量化的危险程度指标,无法精确区分一个类别中不同待评价人员危险程度的不同;其次,训练数据集的标注方法依赖于主观判断或者量表测试结果,不仅标注成本高昂,如前所述主观判断和量表测试都存在较大误差,导致训练数据集精确度也不高,有误差的训练数据训练出的模型必然精确度不高。有的方法虽然可以得到定量的危险程度指标,但难以解释其数值的含义,使用者难以理解和把握,无法快速灵活改变参数,难以适应新技术发展、信息系统和相关制度变化带来的环境变化。
4.因此,现需研究一种容易理解和把握、且适应性高、灵活度高的人员危险性分析方法。


技术实现要素:

5.为解决上述技术问题,本发明提供一种基于随机森林的人员的危险性分析方法,建立的评估方法训练数据中不包含人的主观判断或者量表测试结果,模型质量更高,同时也降低数据标注成本,加快模型更新速度,使得模型能够更快速更低成本地适应环境变化。
6.为实现上述目的,本发明提供如下技术方案:
7.一种基于随机森林的人员的危险性分析方法,包含目标函数和特征的选择、训练模型和评估过程;其中,
8.(1)目标类别选择:
9.在人员多维度数据中选择一个维度yd作为目标类别,所述yd与危险程度有关,
10.设置危险程度指标pyd,pyd指标值含义为被评估人员yd维度取值为1的概率值;
11.(2)训练过程:
12.a、建立初始数据集pretrainset,pretrainset数据集是一个样本集合,每个样本对应多维度人员数据中一个人员的数据;
13.b、训练随机森林分类模型rfm,使用pretrainset数据集训练随机森林分类模型rfm;
14.或,在pretrainset数据集基础上,通过采样或smote算法构造训练数据集trainset,使用trainset数据集训练随机森林分类模型rfm;
15.c、计算rfm中每个决策树的每个叶子节点的参数lnpy
16.所述rfm中包含k个决策树t1,t2,t3,...tk;将rfm中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中;
17.使用rfm对人员特征向量f进行回归,建立长度和lnodes相同的数组lnpy,计算命中叶子节点的所有pretrainset或trainset样本中label等于1的样本所占比例gpyd;
18.d、保存rfm、gpyd和lnpy;
19.(3)评估过程:
20.a、从存储介质加载训练过程得到的rfm、gpyd和lnpy;
21.b、用随机森林分类算法根据模型rfm对被评估人员进行分类,获得命中的rfm叶子节点,被评估人员将来被列为重点的概率计算pyd;
22.c、计算spyd=pyd/gpyd;
23.d、pyd和spyd,作为被评价人员的危险程度量化指标;
24.spyd含义为被评估人员的危险性是平均水平的倍数;
25.当spyd>1,表示被评估人员比多数人更危险;
26.spyd<1,表示被评估人员比多数人更安全。
27.进一步地,所述步骤(1)目标类别选择中,yd是二值的,yd的值为1或0,其中1表示有危险倾向大的类别、0表示危险倾向小的类别,对应是、否两个类别。
28.进一步地,所述步骤(1)目标类别选择中,yd选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级。
29.进一步地,所述分管等级需预处理为多个二值的维度,首先将分管等级设置为严管、普管、宽管级别,每一级别拆分为是否严管、是否普管、是否宽管,即可选择其一作为目标类别yd。
30.进一步地,所述步骤(2)训练过程a中所述每个样本有两个列:label和features;yd 的值为label,从多维度人员数据中提取和危险性有关的数据,构造features向量; pretrainset数据集中,label等于1的样本比例为全部历史数据中yd等于1的记录比例。
31.进一步地,所述步骤(2)训练过程b中所述trainset数据集中,label等于1的样本比例大于全部历史数据中yd等于1的记录比例。
32.进一步地,所述步骤(2)训练过程c中使用rfm对人员特征向量f进行回归,得到向量 f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...ln
k
),其中ln
i
为向量f在第i 个决策树中命中的叶子节点在lnodes中的下标。
33.进一步地,所述步骤(2)训练过程c中gpyd,计算方法如下:
34.a、建立长度为叶子节点总数的三个数组lnpy、lnn和lnn1,所有元素均初始化为0,lnn 表示命中叶子节点的样本总数,lnn1表示命中叶子节点并且label等于1的样本总数;
lnpy 中第i个元素lnpy
i
的值是命中第i个叶子节点的样本中label等于1的样本所占比例;
35.b、枚举pretrainset中每一个样本x,用随机森林分类算法根据模型rfm预测x的分类,忽略预测结果,取得中间结果lnis=(ln1,ln2,...ln
k
),对于每个lni,其中i=1

k, lnn[ln
i
]=lnn[ln
i
]+1,如果x.label等于1,则lnn1[ln
i
]=lnn1[ln
i
]+1;
[0036]
c、计算lnpy的每个元素的值,lnpy[i]=lnn1[ln
i
]/lnn[ln
i
],其中i=1

m,m是rfm中叶子节点总数;
[0037]
d、计算pretrainset中label等于1的样本比例gpyd,gpyd=sn1/sn,sn1为pretrainset 中label等于1样本总数,sn为pretrainset样本总数。
[0038]
进一步地,所述(3)评估过程中b使用上述pretrainset或trainset数据集样本features 列相同的方法,提取被评价人员的特征向量f,用随机森林回归算法根据模型rfm预测f的分类,忽略预测结果,取中间结果lnis=(ln1,ln2,...ln
k
);计算lnpy[ln
i
]的平均值作为待评价人员的危险程度量化指标,被评估人员将来被列为重点的概率pyd。
[0039]
进一步地,所述pyd的公式计算:
[0040]
其中i=1

k。
[0041]
本发明具有以下有益效果:
[0042]
1.本发明使用信息系统数据库特定字段值自动标注训练数据,定义易于使用者理解的人员危险程度的量化指标,使用随机森林分类算法进行训练和预测,但不使用预测得到的分类,而是根据预测中间结果计算并输出被评估人员的量化的危险系数,使得评估人员能够直观和准确地把握被评估人员的危险程度;本发明评估只需要从信息系统数据库中提取数据,无需加入额外的专家主观判断,简单易于操作,准确率高,输出指标易于理解和把握。
[0043]
2.本发明建立完全基于数据进行危险性分析,提供连续量化的危险性程度指标,比起传统分析方法中仅具备的危险、不危险两个等级,或者少数几个危险程度等级,本发明能够提供关于被评估人员危险性更细致的描述,且连续量化的危险性程度指标有明确的含义,而且容易理解和把握;不一刀切,灵活性高,可以适应各地域不同的制度、不同的技术设备带来的巨大差异,易于推广,适应性强,当制度变化,技术进步导致数据发生巨大变化之后,可以通过重新训练模型的方式快速适应变化。
[0044]
3.本发明训练数据中不包含人的主观判断或者量表测试结果,模型质量更高,同时也降低数据标注成本,加快模型更新速度,使得模型能够更快速更低成本地适应环境变化;且评估过程简单成本低,易于操作,评估结果易于理解,精确度更高。
附图说明
[0045]
图1为本发明的训练过程的流程图。
[0046]
图2为本发明的评估过程的流程图。
具体实施方式
[0047]
下面通过实施例对本发明作进一步说明,但不作为是对本发明的限制。
[0048]
实施例1
[0049]
基于随机森林的人员的危险性分析方法,包含目标函数和特征的选择、训练模型和评估过程;其中,
[0050]
(1)目标类别选择:
[0051]
在人员多维度数据中选择一个维度yd作为目标类别,所述yd与危险程度有关,yd是二值的,yd的值为1或0,其中1表示有危险倾向大的类别、0表示危险倾向小的类别,对应是、否两个类别;
[0052]
yd选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级;
[0053]
所述分管等级需预处理为多个二值的维度,首先将分管等级设置为严管、普管、宽管级别,每一级别拆分为是否严管、是否普管、是否宽管,即可选择其一作为目标类别yd;
[0054]
设置危险程度指标pyd,pyd指标值含义为被评估人员yd维度取值为1的概率值;
[0055]
(2)训练过程:(图1为本发明的训练过程的流程图)
[0056]
a、建立初始数据集pretrainset,pretrainset数据集是一个样本集合,每个样本对应多维度人员数据中一个人员的数据;每个样本有两个列:label和features;yd的值为label,从多维度人员数据中提取和危险性有关的数据,构造features向量;pretrainset数据集中, label等于1的样本比例为全部历史数据中yd等于1的记录比例;
[0057]
b、训练随机森林分类模型rfm,使用pretrainset数据集训练随机森林分类模型rfm;
[0058]
或,在pretrainset数据集基础上,通过采样或smote算法构造训练数据集trainset,使用trainset数据集训练随机森林分类模型rfm;所述trainset数据集中,label等于1的样本比例大于全部历史数据中yd等于1的记录比例;
[0059]
c、计算rfm中每个决策树的每个叶子节点的参数lnpy
[0060]
所述rfm中包含k个决策树t1,t2,t3,...tk;将rfm中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中;
[0061]
使用rfm对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...ln
k
),其中ln
i
为向量f在第i个决策树中命中的叶子节点在lnodes 中的下标;建立长度和lnodes相同的数组lnpy,计算命中叶子节点的所有pretrainset或 trainset样本中label等于1的样本所占比例gpyd;
[0062]
计算方法如下:
[0063]
a、建立长度为叶子节点总数的三个数组lnpy、lnn和lnn1,所有元素均初始化为0,lnn 表示命中叶子节点的样本总数,lnn1表示命中叶子节点并且label等于1的样本总数;lnpy 中第i个元素lnpy
i
的值是命中第i个叶子节点的样本中label等于1的样本所占比例;
[0064]
b、枚举pretrainset中每一个样本x,用随机森林分类算法根据模型rfm预测x的分类,忽略预测结果,取得中间结果lnis=(ln1,ln2,...ln
k
),对于每个lni,其中i=1

k, lnn[ln
i
]=lnn[ln
i
]+1,如果x.label等于1,则lnn1[ln
i
]=lnn1[ln
i
]+1;
[0065]
c、计算lnpy的每个元素的值,lnpy[i]=lnn1[ln
i
]/lnn[ln
i
],其中i=1

m,m是rfm中叶子节点总数;
[0066]
d、计算pretrainset中label等于1的样本比例gpyd,gpyd=sn1/sn,sn1为
pretrainset 中label等于1样本总数,sn为pretrainset样本总数;
[0067]
d、保存rfm、gpyd和lnpy;
[0068]
(3)评估过程:(图2为本发明的评估过程的流程图)
[0069]
a、从存储介质加载训练过程得到的rfm、gpyd和lnpy;
[0070]
b、使用上述pretrainset或trainset数据集样本features列相同的方法,提取被评价人员的特征向量f,用随机森林回归算法根据模型rfm预测f的分类,忽略预测结果,取中间结果lnis=(ln1,ln2,...ln
k
);计算lnpy[ln
i
]的平均值作为待评价人员的危险程度量化指标,被评估人员将来被列为重点的概率pyd;其中i=1

k;
[0071]
c、计算spyd=pyd/gpyd;
[0072]
d、pyd和spyd,作为被评价人员的危险程度量化指标;
[0073]
spyd含义为被评估人员的危险性是平均水平的倍数,
[0074]
当spyd>1,表示被评估人员比多数人更危险;
[0075]
spyd<1,表示被评估人员比多数人更安全。
[0076]
实施例2
[0077]
本发明按照实施例1方法,在两个单位中(后面称为单位a和单位b)中实施,使用单位a自2016

09

01以来人员数据经数据清洗、剔除错误和质量差的数据之后,构造初始数据集pretrainset,包含4113个样本;使用“是否被列为重点”作为yd,应用本发明方法训练人员危险性评估模型,然后使用训练得到的模型对单位b已经录入完整数据的2312名人员进行危险性评估,计算被评估人员的危险性是平均水平的倍数spyd。对得到的spyd进行排序后,取spyd最大值和最小值各20名人员,由专家进行主观人工评定其危险性,结果如下:
[0078] 专家判定危险人数专家判定不危险人数危险人数占比例spyd最大值20人19195%spyd最小值20人21810%
[0079]
可见本发明的评估结果和专家主观判断基本符合,可由计算机自动完成评估,可节省大量时间和成本。
[0080]
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1