1.一种基于多中心模式下随机森林算法的特征重要性排序系统,其特征在于,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:
a.从本中心数据库接口读取数据作为样本集;
b.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;
c.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
d.重复步骤b-c共q次,q即为随机森林中决策树的个数;
e.用训练得到的随机森林对样本集进行预测;
f.利用基尼指数作为评价指标对步骤e的预测结果进行特征重要性排序,包括以下子步骤:
a)假设样本集有h个特征x1,x2,x3,...,xh,对于每个特征xj,计算特征xj在节点m的重要性
其中,gim表示分枝前节点m的基尼指数,gil和gir分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
其中,k表示有k个类别,pxk表示节点x中类别k所占的比例;
b)假设特征xj在决策树i中出现的节点构成集合e,那么xj在第i棵决策树的重要性
c)假设随机森林中有q棵树,计算每个特征xj的基尼指数评分
d)将特征xj的基尼指数评分
e)对所有特征归一化后的基尼指数评分进行降序排序。
所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:
a.接收各中心传来的特征重要性排序结果;
b.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
c.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。