基于随机森林的人员的危险性分析方法与流程

文档序号：27432572发布日期：2021-11-17 22:25阅读：162来源：国知局

1.本发明涉及机器学习领域，尤其涉及一种基于随机森林的人员的危险性分析方法。

背景技术：

2.目前人员危险性评估主要有三种：一是经验型评估，由于受当时的条件限制，危险性评估的方式主要依据评估者对改造表现的直观感觉来界定，这类方法依赖评估者主观判断，总体准确率不高，而且评估过程中的关键是依靠评估者的素质，对于同一名待评价人员，不同评估者的结论可能差别较大；二是量表型评估，实现评估过程标准化和规范化，评估准确率不再依赖评估者的主观判断，但成熟有效的量表编制耗时非常长，多数量表在使用中不能随着社会环境、地理区域、人文风俗、成因等变化而区别对待；第三种是基于机器学习数据驱动的危险性评估方法，依靠多年积累的多维度数据，使用机器学习算法训练分类模型，再通过训练好的模型对待评价人员进行分类。
3.基于机器学习的危险性评估方法目前总体上仍然处于探索阶段，但是在实际操作过程中，普遍存在操作难度较大、评估信度效度较低的问题。现有的方法均基于经验，多采用分类的形式，即把待评价人员分为危险和非危险两类，或者分为高危、中危、低危等少数几个类别，缺乏量化的危险程度指标，无法精确区分一个类别中不同待评价人员危险程度的不同；其次，训练数据集的标注方法依赖于主观判断或者量表测试结果，不仅标注成本高昂，如前所述主观判断和量表测试都存在较大误差，导致训练数据集精确度也不高，有误差的训练数据训练出的模型必然精确度不高。有的方法虽然可以得到定量的危险程度指标，但难以解释其数值的含义，使用者难以理解和把握，无法快速灵活改变参数，难以适应新技术发展、信息系统和相关制度变化带来的环境变化。
4.因此，现需研究一种容易理解和把握、且适应性高、灵活度高的人员危险性分析方法。

技术实现要素：

5.为解决上述技术问题，本发明提供一种基于随机森林的人员的危险性分析方法，建立的评估方法训练数据中不包含人的主观判断或者量表测试结果，模型质量更高，同时也降低数据标注成本，加快模型更新速度，使得模型能够更快速更低成本地适应环境变化。
6.为实现上述目的，本发明提供如下技术方案：
7.一种基于随机森林的人员的危险性分析方法，包含目标函数和特征的选择、训练模型和评估过程；其中，
8.(1)目标类别选择：
9.在人员多维度数据中选择一个维度yd作为目标类别，所述yd与危险程度有关，
10.设置危险程度指标pyd，pyd指标值含义为被评估人员yd维度取值为1的概率值；
11.(2)训练过程：
12.a、建立初始数据集pretrainset，pretrainset数据集是一个样本集合，每个样本对应多维度人员数据中一个人员的数据；
13.b、训练随机森林分类模型rfm，使用pretrainset数据集训练随机森林分类模型rfm；
14.或，在pretrainset数据集基础上，通过采样或smote算法构造训练数据集trainset，使用trainset数据集训练随机森林分类模型rfm；
15.c、计算rfm中每个决策树的每个叶子节点的参数lnpy
16.所述rfm中包含k个决策树t1,t2,t3,...tk；将rfm中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中；
17.使用rfm对人员特征向量f进行回归，建立长度和lnodes相同的数组lnpy，计算命中叶子节点的所有pretrainset或trainset样本中label等于1的样本所占比例gpyd；
18.d、保存rfm、gpyd和lnpy；
19.(3)评估过程：
20.a、从存储介质加载训练过程得到的rfm、gpyd和lnpy；
21.b、用随机森林分类算法根据模型rfm对被评估人员进行分类，获得命中的rfm叶子节点，被评估人员将来被列为重点的概率计算pyd；
22.c、计算spyd＝pyd/gpyd；
23.d、pyd和spyd，作为被评价人员的危险程度量化指标；
24.spyd含义为被评估人员的危险性是平均水平的倍数；
25.当spyd＞1，表示被评估人员比多数人更危险；
26.spyd＜1，表示被评估人员比多数人更安全。
27.进一步地，所述步骤(1)目标类别选择中，yd是二值的，yd的值为1或0，其中1表示有危险倾向大的类别、0表示危险倾向小的类别，对应是、否两个类别。
28.进一步地，所述步骤(1)目标类别选择中，yd选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级。
29.进一步地，所述分管等级需预处理为多个二值的维度，首先将分管等级设置为严管、普管、宽管级别，每一级别拆分为是否严管、是否普管、是否宽管，即可选择其一作为目标类别yd。
30.进一步地，所述步骤(2)训练过程a中所述每个样本有两个列：label和features；yd 的值为label，从多维度人员数据中提取和危险性有关的数据，构造features向量； pretrainset数据集中，label等于1的样本比例为全部历史数据中yd等于1的记录比例。
31.进一步地，所述步骤(2)训练过程b中所述trainset数据集中，label等于1的样本比例大于全部历史数据中yd等于1的记录比例。
32.进一步地，所述步骤(2)训练过程c中使用rfm对人员特征向量f进行回归，得到向量 f在k个决策树中命中的叶子节点下标元组lnis＝(ln1,ln2,...ln
k
)，其中ln
i
为向量f在第i 个决策树中命中的叶子节点在lnodes中的下标。
33.进一步地，所述步骤(2)训练过程c中gpyd，计算方法如下：
34.a、建立长度为叶子节点总数的三个数组lnpy、lnn和lnn1，所有元素均初始化为0，lnn 表示命中叶子节点的样本总数，lnn1表示命中叶子节点并且label等于1的样本总数；
lnpy 中第i个元素lnpy
i
的值是命中第i个叶子节点的样本中label等于1的样本所占比例；
35.b、枚举pretrainset中每一个样本x，用随机森林分类算法根据模型rfm预测x的分类，忽略预测结果，取得中间结果lnis＝(ln1,ln2,...ln
k
)，对于每个lni，其中i＝1
‑
k， lnn[ln
i
]＝lnn[ln
i
]+1，如果x.label等于1，则lnn1[ln
i
]＝lnn1[ln
i
]+1；
[0036]
c、计算lnpy的每个元素的值，lnpy[i]＝lnn1[ln
i
]/lnn[ln
i
]，其中i＝1
‑
m，m是rfm中叶子节点总数；
[0037]
d、计算pretrainset中label等于1的样本比例gpyd，gpyd＝sn1/sn，sn1为pretrainset 中label等于1样本总数，sn为pretrainset样本总数。
[0038]
进一步地，所述(3)评估过程中b使用上述pretrainset或trainset数据集样本features 列相同的方法，提取被评价人员的特征向量f，用随机森林回归算法根据模型rfm预测f的分类，忽略预测结果，取中间结果lnis＝(ln1,ln2,...ln
k
)；计算lnpy[ln
i
]的平均值作为待评价人员的危险程度量化指标，被评估人员将来被列为重点的概率pyd。
[0039]
进一步地，所述pyd的公式计算：
[0040]
其中i＝1
‑
k。
[0041]
本发明具有以下有益效果：
[0042]
1.本发明使用信息系统数据库特定字段值自动标注训练数据，定义易于使用者理解的人员危险程度的量化指标，使用随机森林分类算法进行训练和预测，但不使用预测得到的分类，而是根据预测中间结果计算并输出被评估人员的量化的危险系数，使得评估人员能够直观和准确地把握被评估人员的危险程度；本发明评估只需要从信息系统数据库中提取数据，无需加入额外的专家主观判断，简单易于操作，准确率高，输出指标易于理解和把握。
[0043]
2.本发明建立完全基于数据进行危险性分析，提供连续量化的危险性程度指标，比起传统分析方法中仅具备的危险、不危险两个等级，或者少数几个危险程度等级，本发明能够提供关于被评估人员危险性更细致的描述，且连续量化的危险性程度指标有明确的含义，而且容易理解和把握；不一刀切，灵活性高，可以适应各地域不同的制度、不同的技术设备带来的巨大差异，易于推广，适应性强，当制度变化，技术进步导致数据发生巨大变化之后，可以通过重新训练模型的方式快速适应变化。
[0044]
3.本发明训练数据中不包含人的主观判断或者量表测试结果，模型质量更高，同时也降低数据标注成本，加快模型更新速度，使得模型能够更快速更低成本地适应环境变化；且评估过程简单成本低，易于操作，评估结果易于理解，精确度更高。
附图说明
[0045]
图1为本发明的训练过程的流程图。
[0046]
图2为本发明的评估过程的流程图。
具体实施方式
[0047]
下面通过实施例对本发明作进一步说明，但不作为是对本发明的限制。
[0048]
实施例1
[0049]
基于随机森林的人员的危险性分析方法，包含目标函数和特征的选择、训练模型和评估过程；其中，
[0050]
(1)目标类别选择：
[0051]
在人员多维度数据中选择一个维度yd作为目标类别，所述yd与危险程度有关，yd是二值的，yd的值为1或0，其中1表示有危险倾向大的类别、0表示危险倾向小的类别，对应是、否两个类别；
[0052]
yd选择是否被列为重点、是否被使用器械、是否被使用约束性保护措施或分管等级；
[0053]
所述分管等级需预处理为多个二值的维度，首先将分管等级设置为严管、普管、宽管级别，每一级别拆分为是否严管、是否普管、是否宽管，即可选择其一作为目标类别yd；
[0054]
设置危险程度指标pyd，pyd指标值含义为被评估人员yd维度取值为1的概率值；
[0055]
(2)训练过程：(图1为本发明的训练过程的流程图)
[0056]
a、建立初始数据集pretrainset，pretrainset数据集是一个样本集合，每个样本对应多维度人员数据中一个人员的数据；每个样本有两个列：label和features；yd的值为label，从多维度人员数据中提取和危险性有关的数据，构造features向量；pretrainset数据集中， label等于1的样本比例为全部历史数据中yd等于1的记录比例；
[0057]
b、训练随机森林分类模型rfm，使用pretrainset数据集训练随机森林分类模型rfm；
[0058]
或，在pretrainset数据集基础上，通过采样或smote算法构造训练数据集trainset，使用trainset数据集训练随机森林分类模型rfm；所述trainset数据集中，label等于1的样本比例大于全部历史数据中yd等于1的记录比例；
[0059]
c、计算rfm中每个决策树的每个叶子节点的参数lnpy
[0060]
所述rfm中包含k个决策树t1,t2,t3,...tk；将rfm中所有决策树的所有叶子节点放到统一的叶子节点数组lnodes中；
[0061]
使用rfm对人员特征向量f进行回归，得到向量f在k个决策树中命中的叶子节点下标元组lnis＝(ln1,ln2,...ln
k
)，其中ln
i
为向量f在第i个决策树中命中的叶子节点在lnodes 中的下标；建立长度和lnodes相同的数组lnpy，计算命中叶子节点的所有pretrainset或 trainset样本中label等于1的样本所占比例gpyd；
[0062]
计算方法如下：
[0063]
a、建立长度为叶子节点总数的三个数组lnpy、lnn和lnn1，所有元素均初始化为0，lnn 表示命中叶子节点的样本总数，lnn1表示命中叶子节点并且label等于1的样本总数；lnpy 中第i个元素lnpy
i
的值是命中第i个叶子节点的样本中label等于1的样本所占比例；
[0064]
b、枚举pretrainset中每一个样本x，用随机森林分类算法根据模型rfm预测x的分类，忽略预测结果，取得中间结果lnis＝(ln1,ln2,...ln
k
)，对于每个lni，其中i＝1
‑
k， lnn[ln
i
]＝lnn[ln
i
]+1，如果x.label等于1，则lnn1[ln
i
]＝lnn1[ln
i
]+1；
[0065]
c、计算lnpy的每个元素的值，lnpy[i]＝lnn1[ln
i
]/lnn[ln
i
]，其中i＝1
‑
m，m是rfm中叶子节点总数；
[0066]
d、计算pretrainset中label等于1的样本比例gpyd，gpyd＝sn1/sn，sn1为
pretrainset 中label等于1样本总数，sn为pretrainset样本总数；
[0067]
d、保存rfm、gpyd和lnpy；
[0068]
(3)评估过程：(图2为本发明的评估过程的流程图)
[0069]
a、从存储介质加载训练过程得到的rfm、gpyd和lnpy；
[0070]
b、使用上述pretrainset或trainset数据集样本features列相同的方法，提取被评价人员的特征向量f，用随机森林回归算法根据模型rfm预测f的分类，忽略预测结果，取中间结果lnis＝(ln1,ln2,...ln
k
)；计算lnpy[ln
i
]的平均值作为待评价人员的危险程度量化指标，被评估人员将来被列为重点的概率pyd；其中i＝1
‑
k；
[0071]
c、计算spyd＝pyd/gpyd；
[0072]
d、pyd和spyd，作为被评价人员的危险程度量化指标；
[0073]
spyd含义为被评估人员的危险性是平均水平的倍数，
[0074]
当spyd＞1，表示被评估人员比多数人更危险；
[0075]
spyd＜1，表示被评估人员比多数人更安全。
[0076]
实施例2
[0077]
本发明按照实施例1方法，在两个单位中(后面称为单位a和单位b)中实施，使用单位a自2016
‑
09
‑
01以来人员数据经数据清洗、剔除错误和质量差的数据之后，构造初始数据集pretrainset,包含4113个样本；使用“是否被列为重点”作为yd，应用本发明方法训练人员危险性评估模型，然后使用训练得到的模型对单位b已经录入完整数据的2312名人员进行危险性评估，计算被评估人员的危险性是平均水平的倍数spyd。对得到的spyd进行排序后，取spyd最大值和最小值各20名人员，由专家进行主观人工评定其危险性，结果如下：
[0078] 专家判定危险人数专家判定不危险人数危险人数占比例spyd最大值20人19195％spyd最小值20人21810％
[0079]
可见本发明的评估结果和专家主观判断基本符合，可由计算机自动完成评估，可节省大量时间和成本。
[0080]
虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许金礼;廖淑珍;陆宇升;陶炜;朱晓东;吕思霖
技术所有人：广西友迪资讯科技有限公司
我是此专利的发明人

上一篇：一种全自动医疗传输装置及其运行方法与流程
上一篇：一种手术室用多功能清创护理架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。