本技术涉及心脏病数据处理,具体涉及一种心脏病预测用多维特征的选择方法。
背景技术:
1、随着计算机硬件与网络算法的发展,自然语言处理、目标检测、生成式算法等领域的数据维度和数据量逐渐增大,数据处理的重要性逐渐提高。特征选择就是数据处理中必不可少的步骤之一,对算法效率的提升有着显著的作用。在心脏病领域中,心脏病发生前所涉及的特征参数往往具有多维度性和复杂性,包含大量的临床指标和生理参数。
2、因此,如何针对心脏病多维数据集,包含多个特征,例如血压、胆固醇水平、年龄等,从心脏病多维数据集中选取出能够有效预测心脏病的特征子集,即特征选择方案,且所选择出来的特征选择方案具有较高的覆盖面和准确性是当前心脏病大数据领域需要努力的方向。
技术实现思路
1、本技术提供一种心脏病预测用多维特征的选择方法,可以解决上述现有技术中存在的技术问题。
2、本技术实施例提供一种心脏病预测用多维特征的选择方法,采用如下技术方案:
3、一种心脏病预测用多维特征的选择方法,所述心脏病预测用多维特征的选择方法包括:
4、基于心脏病多维数据集包括的多个特征,构建多个候选特征选择方案;其中,候选特征选择方案由所述心脏病多维数据集中至少部分特征构成,且各个候选特征选择方案中选择的特征至少部分不同;
5、对多个所述候选特征选择方案进行多轮迭代;其中,每轮迭代过程中将根据多个所述候选特征选择方案的综合评价值确定各自的采取的迭代方法,所述综合评价值根据候选特征选择方案的准确率和降维率得到;
6、确定迭代过程中所出现过的所述综合评价值最大的候选特征选择方案为最优特征选择方案。
7、在一种实施方式中,所述对多个所述候选特征选择方案进行多轮迭代,包括以下步骤:
8、获取每个所述候选特征选择方案基于预设的准确率计算模型得到的准确率以及每个所述候选特征选择方案的降维率,并进一步得到各个所述候选特征选择方案的综合评价值;
9、根据所述当前迭代次数和预设的总迭代次数,确定多个所述候选特征选择方案中扩张种群、发展种群以及迁徙种群的数量比例;其中,所述扩张种群、发展种群以及迁徙种群中候选特征选择方案的所述综合评价值依次降低;
10、根据所述数量比例确定各所述候选特征选择方案的种群类别;
11、根据所述候选特征选择方案的种群类别,以对应的迭代方法迭代所述候选特征选择方案。
12、在一种实施方式中,所述根据所述候选特征选择方案的种群类别,以对应的迭代方法迭代所述候选特征选择方案之后,包括以下步骤:
13、获取迭代后所述候选特征选择方案的生存时间;其中,迭代后所述候选特征选择方案的生存时间根据迭代前所述候选特征选择方案的生存时间得到;
14、判断属于所述发展种群和所述迁徙种群中各个所述候选特征选择方案在迭代后所述综合评价值是否提升;
15、若否,减少对应所述候选特征选择方案的生存时间;
16、判断是否存在所述生存时间小于时间阈值的候选特征选择方案;
17、若存在,去除对应的所述候选特征选择方案,并根据所述扩张种群中的候选特征选择方案补充对应数量的候选特征选择方案,并赋予新的候选特征选择方案生存时间。
18、在一种实施方式中,所述根据所述扩张种群中的候选特征选择方案补充对应数量的候选特征选择方案中,采取以下公式:
19、
20、v=a+f·(b-c)
21、
22、其中分别代表随机选取的三个扩张种群中的候选特征选择方案,xfirst代表所述综合评价值排名第一的扩张种群中的候选特征选择方案,pe代表扩张种群中候选特征选择方案的数量;a、b、c是上式中选出的候选特征选择方案,f是变异因子,是一种预设常数,用于控制变异程度;v是所选中的候选特征选择方案在基因交流之后产生的突变载体;vd和ad分别代表用于补充的新生候选特征选择方案、突变载体和原候选特征选择方案的第d个维度,cr代表交叉概率,是一种预设常数,rand[0,1)代表[0,1)范围内的随机数。
23、在一种实施方式中,所述根据所述候选特征选择方案的种群类别,以对应的迭代方法迭代所述候选特征选择方案中,
24、所述扩张种群中的候选特征选择方案的迭代方法包括以下步骤:
25、随机改变候选特征选择方案中一个特征的对象选择。
26、在一种实施方式中,所述根据所述候选特征选择方案的种群类别,以对应的迭代方法迭代所述候选特征选择方案中,
27、所述发展种群中的候选特征选择方案的迭代方法包括以下步骤:
28、基于预设的探索向量调整候选特征选择方案;
29、若调整后的候选特征选择方案的所述综合评价值提高,确定作为该候选特征选择方案本轮的迭代结果;
30、若调整后的候选特征选择方案的所述综合评价值未提高,本轮保持未调整的候选特征选择方案不变并基于预设的更新方法更新所述探索向量。
31、在一种实施方式中,所述更新方法采用以下公式:
32、
33、其中,代表探索向量的第i维,d代表发展种群中候选特征选择方案的总维度数,r1则是(-1,1)范围内的随机数,t和t分别代表当前迭代次数和总迭代次数。
34、在一种实施方式中,所述根据所述候选特征选择方案的种群类别,以对应的迭代方法迭代所述候选特征选择方案中,
35、所述迁徙种群中的候选特征选择方案的迭代方法包括以下步骤:
36、从所述扩张种群中确定用于帮助候选特征选择方案进行迭代的最佳候选特征选择方案;
37、根据所述最佳候选特征选择方案、当前迭代次数和所述迭代总次数,将迁徙种群中的候选特征选择方案向所述最佳候选特征选择方案靠近的方向上进行迭代。
38、在一种实施方式中,所述根据所述最佳候选特征选择方案、当前迭代次数和所述迭代总次数,将迁徙种群中的候选特征选择方案向所述最佳候选特征选择方案靠近的方向上进行迭代中,迁徙种群中的候选特征选择方案的迭代改变量根据以下公式得到:
39、
40、xm代表本轮待迭代的迁徙种群中的候选特征选择方案,xe代表所述最佳候选特征选择方案,r1和r2分别代表(-1,1)和(0,1)范围内的随机数,t和t分别代表当前迭代次数和总迭代次数。
41、在一种实施方式中,所述从所述扩张种群中确定用于帮助候选特征选择方案进行迭代的最佳候选特征选择方案中,采用如下公式:
42、
43、其中和分别代表衡量距离的两个候选特征选择方案的第d个维度,d是总维度数,和分别代表第d个维度的取值域上界与下界。
44、本技术实施例提供的技术方案带来的有益效果包括:
45、通过率先基于心脏病多维数据集得到多个候选特征选择方案,并进一步根据多个候选特征选择方案各自的综合评价结果,即综合评价值,确定各自的迭代方式并进行对应方式的迭代,实现能够将迭代过程与方案在预测时的准确性和覆盖面挂钩,进而达到较为快速的得到更加优秀的候选特征选择方案,最终从中所有出现的历史结果中即可确定出综合评价值最好的候选特征选择方案作为最优特征选择方案来进行心脏病的预测。