一种基于PCA的冗余变量筛选改进方法及装置

文档序号:34751516发布日期:2023-07-13 01:52阅读:73来源:国知局
一种基于PCA的冗余变量筛选改进方法及装置与流程

本发明涉及数据挖掘的,尤其涉及一种基于pca的冗余变量筛选改进方法及装置。


背景技术:

1、近年来,随着信息技术的不断发展,数据信息的爆炸性增长令数据复杂度越来越高,以及各种数据类型的增加,从而导致“维度灾难”。传统数据挖掘技术在处理高维数据时面临巨大挑战,在资源和时间方面要求越来越高。而对特征数据进行降维操作不仅能降低数据的维度,还能提高算法的性能。数据降维的方法主要分为特征变换方法与特征选择方法。

2、数据降维算法在地理、医学、仿真等领域有着广泛的应用,而特征选择算法一直是国内外研究人员大量研究的主题。特征选择方法是通过特征选择算法从原始特征集中选择出评估标准最佳的特征子集,以便帮助研究人员把任务更好地进行分类与回归,提高数据分类的精确度和效率。任家东等过计算特征的皮尔逊相关系数来判断特征的强弱关系,确定最优的阈值进行特征提取后在k近邻、决策树、随机森林等模型进行分类实验评估取得了较好的效果。陈亮等将正余弦函数的连续优化转换为特征选择的二进制优化,实现个体位置与特征子集间的映射关系,有效选择了最优特征子集并降低特征维度,提高了数据分类准确率。但其算法迭代次数过多并未接近最优解。苏卫星等引入基于相关性的特征选择(cfs)来获取最优特征子集,进而实现数据降维,并选用偏最小二乘回归法(plsr)作为建模的核心算法,有效地解决了变量间多重相关性带来的危害。李静星等通过最大信息系数衡量标准对特征的相关度和冗余性进行分析得到类属性的马尔科夫毯代表集和次最优特征子集,可以在测试阶段提高分类精度且起到显著的降维效果。李欣倩等使用互信息方法剔除不相关的特征,通过粒子群算法得到聚类簇的数量,最后将每个聚类簇中与类别互信息最高的特征合并为特征子集,可以有效减少特征之间的相关性,提升算法的分类性能。汪力纯等通过smote算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对smote算法进行改进,在处理高维不平衡数据方面各评价指标更高。但是算法的整体运行时间与其他算法相比没有显著优势。许召召等使用信息增益比计算每个特征的信息增益比值,根据特征的信息密度进行密度等分,最后,使用分组进化遗传算法对密度等分的特征组进行搜索在uci医学数据集上取得了不错的效果。但在高维小样本数据中的效果并不理想。解决此类问题有多种方法,如基于主成分分析pca(principal componentanalysis)的冗余变量筛选算法,但该算法在选择关键变量的环节也需要人为干预,需要经验丰富的技术人员进行挑选,存在一定的随机性,导致该算法在后续机器学习模型训练阶段存在预测精度不稳定的问题。


技术实现思路

1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

2、鉴于上述现有存在的问题,提出了本发明。

3、因此,本发明提供了一种基于pca的冗余变量筛选改进方法及装置解决现有的特征选择算法存在专家经验挑选关键变量导致机器学习模型预测精度低的问题。

4、为解决上述技术问题,本发明提供如下技术方案:

5、第一方面,本发明实施例提供了一种基于pca的冗余变量筛选改进方法,包括:

6、采集气体流量计特征历史工作数据,对所述历史工作数据进行预处理;

7、对所述预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;

8、基于所述关键变量筛选指标q1、q2计算第三关键变量筛选指标qf,并根据所述第三关键变量筛选指标qf完成特征选择得到筛选后的关键变量;

9、将所述关键变量输入机器学习分类算法中进行测试得到实际预测效果。

10、作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:所述采集的气体流量计特征包括:流量计温度,流量计压力;

11、所述预处理包括:通过数据标准化方法对数据进行预处理;所述数据为采集的公开数据集。

12、作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:对所述预处理后的数据进行变量聚类,包括:

13、基于每一个类提取一个主成分pz,计算每个类classz里的每个变量xi和所述类主成分pz的皮尔逊相关系数;

14、当皮尔逊相关系数值最大时,所述变量xi在其所在的classz组内最有代表性,则选取最大值时对应的变量;

15、同时计算每个类classz里的每个变量xi和其他类主成分pz的皮尔逊相关系数,当皮尔逊相关系数值最小时,所述变量xi和其他类主成分pz相关性最弱,所述变量xi在其所在的classz组内最有代表性,则选取最小值时对应的变量。

16、作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:计算第一关键变量筛选指标q1,包括:基于所述类内相似度最大的变量与类间相似度最小的变量,记xi与pz的相关系数为r;

17、第一关键变量筛选指标q1,表示为:

18、

19、其中,为每个变量与其所在组的主成分之间的相关系数的平方,为变量与其他所有组的主成分之间最大的相关系数的平方,为第i个目标变量的q1指标。

20、作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:计算关键变量筛选指标q2,包括:基于选择的每一个类里离pz最近的变量xi,计算变量xi的信息熵以及变量xi方差,用以辅助进行关键变量筛选;第二关键变量筛选指标q2,表示为:

21、

22、其中,为第i个目标变量的q2指标,etarget为目标变量的信息熵,为变量xi的样本方差,k为样本量。

23、作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:计算第三关键变量筛选指标qf,包括:

24、当第一关键变量筛选指标q1的值减小且第二关键变量筛选指标q2的值增大时,变量xi在其所在的组内代表性增强;

25、设最终的权重值为第二关键变量筛选指标q2与第一关键变量筛选指标q1的比值qf,当第三关键变量筛选指标qf的值增大,且变量xi在其所在组代表性增强,则筛选出最终的关键变量。

26、作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:还包括:第三关键变量筛选指标qf,表示为:

27、

28、其中,为第i个目标变量的qf指标。

29、第二方面,本发明实施例提供了一种基于pca的冗余变量筛选改进装置,包括:

30、数据获取模块,用于采集气体流量计特征历史工作数据,对所述历史工作数据进行预处理;

31、变量聚类模块,用于对所述预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;

32、计算模块,用于基于所述关键变量筛选指标q1、q2计算第三关键变量筛选指标qf,并根据所述第三关键变量筛选指标qf完成特征选择得到筛选后的关键变量;

33、学习预测模块,用于将所述关键变量输入机器学习分类算法中进行测试得到实际预测效果。

34、第三方面,本发明实施例提供了一种计算设备,包括:

35、存储器和处理器;

36、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的基于pca的冗余变量筛选改进方法。

37、第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述基于pca的冗余变量筛选改进方法。

38、与现有技术相比,本发明的有益效果:本发明利用数据标准化处理原始数据,平衡了各特征的贡献,消除量纲影响,解决了数据的可比性;其次选取各原始变量的方差和目标变量的熵值计算第二个关键变量筛选指标,增加特征选择的考量因素;最后以第二关键变量筛选指标与第一关键变量筛选指标的比值作为最终的关键变量筛选指标,能够更好地对原始数据进行特征提取,并提高预测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1