一种基于多中心模式下随机森林算法的特征重要性排序系统的制作方法

文档序号:19788074发布日期:2020-01-24 13:51阅读:来源:国知局

技术特征:

1.一种基于多中心模式下随机森林算法的特征重要性排序系统,其特征在于,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。

所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:

a.从本中心数据库接口读取数据作为样本集;

b.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;

c.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;

d.重复步骤b-c共q次,q即为随机森林中决策树的个数;

e.用训练得到的随机森林对样本集进行预测;

f.利用基尼指数作为评价指标对步骤e的预测结果进行特征重要性排序,包括以下子步骤:

a)假设样本集有h个特征x1,x2,x3,...,xh,对于每个特征xj,计算特征xj在节点m的重要性即节点m分枝前后的基尼指数变化量,公式如下:

其中,gim表示分枝前节点m的基尼指数,gil和gir分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:

其中,k表示有k个类别,pxk表示节点x中类别k所占的比例;

b)假设特征xj在决策树i中出现的节点构成集合e,那么xj在第i棵决策树的重要性为:

c)假设随机森林中有q棵树,计算每个特征xj的基尼指数评分亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:

d)将特征xj的基尼指数评分进行归一化处理,公式如下:

e)对所有特征归一化后的基尼指数评分进行降序排序。

所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:

a.接收各中心传来的特征重要性排序结果;

b.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;

c.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1