本发明涉及数据处理领域,尤其涉及一种多标签数据在线流特征选择方法、终端设备及介质。
背景技术:
1、特征选择方法通过去除不相关和冗余特征,将高维的数据特征空间进行降维,有利于提升分类器的性能,降低存储负担和计算压力。其中,特征高维性广泛存在于各类学习范式中。在现实生活中,多标签学习被广泛应用于多个实际领域,例如,一篇带有“雾霾”、“pm2.5”等关键字的新闻可能被认为与“空气污染”相关;网络垃圾邮件的过滤规则通常包含“金融”、“广告”等多个词条。然而,多标签数据呈现特征高维性和标签关联等特点,比如,在图像分类的任务中,若图片具有“星星”和“圆月”等标签信息,则该图片大概率具有“夜晚”标签。因此,多标签学习受到了广泛的关注。
2、目前,很多学者针对多标签数据特征空间的高维性,标签空间的标签关联、强弱、不平衡等特点进行了深入的研究,通过考虑标签相关性进行特征选择可有效地提高学习算法性能。然而,这些特征选择方法都是假定数据的特征空间是完整且固定不变,难以符合实际需求。在开放动态环境下大数据学习范式中,数据的特征呈现动态等特点,如气象站的实时天气监测、微博实时推送的文章以及无人驾驶过程中需要对特征进行实时处理。目前,已有一些在线多标签特征选择算法被提出。目前,在线多标签特征选择算法通常只考虑特征与标签之间的二阶关系,忽略了标签间存在高阶关系及特征呈现流形式逐个动态到达特征空间的情况。
技术实现思路
1、为了解决上述问题,本发明提出了一种多标签数据在线流特征选择方法、终端设备及介质。
2、具体方案如下:
3、一种多标签数据在线流特征选择方法,包括以下步骤:
4、s1:基于多标签数据的所有标签构建标签集,并计算各标签的权重;
5、s2:当接收到新到达特征时,对其进行在线显著性分析,当属于显著特征时,将其添加至已选特征集后,进入s6;否则,进入s3;
6、s3:对新到达特征进行在线相关性分析,判断其是否为与标签集有关的特征,如果是,进入s4;否则,进入s6;
7、s4:判断新到达特征是否为已选特征集中各特征的冗余特征,如果是,进入s6;否则,进入s5;
8、s5:判断已选特征集中各特征是否为新到达特征的冗余特征,如果是,从已选特征集中删除该特征,并将新到达特征添加至已选特征集中;
9、s6:判断有没有新特征达到,如果有,返回s2;否则,输出已选特征集。
10、进一步的,标签的权重的计算过程包括以下步骤:
11、基于jaccard相关系数法,计算所有标签中两两标签之间的标签相关性;
12、以标签为顶点构建标签权重无向图;
13、根据标签权重无向图和标签之间的标签相关性,基于以下公式迭代计算各标签的权重:
14、
15、其中,lw(li)表示标签li的权重,lw(lj)表示标签lj的权重,d表示阻尼因子,j(li,lj)表示标签li和标签lj之间的相关性,表示从lj开始所有边的相关性之和,b(li)表示与li有关的边节点集合。
16、进一步的,步骤s2中显著特征的判定条件为满足新到达特征的显著性大于或等于显著性平均值。
17、进一步的,新到达特征与标签集的显著性的计算公式为:
18、
19、其中,fi表示新到达特征,l表示标签集,si-1表示当前时刻之前的已选特征集,lw(lj)表示标签lj的权重,j表示标签的序号,m表示标签数,cmi表示给定条件下的条件互信息。
20、进一步的,显著性平均值为当前时刻的新到达特征以及当前时刻已选特征集中所有特征的显著性的平均值。
21、进一步的,步骤s3中与标签集有关的特征的判定条件为:在新到达特征的条件下,已选特征集中各特征与标签集的相关性大于已选特征集中各特征与标签集的相关性。
22、进一步的,已选特征集中特征fk与标签集l的相关性i(fk;l)的计算公式为:
23、
24、其中,lw(lj)表示标签lj的权重,j表示标签的序号,m表示标签数,mi表示互信息,xmi表示给定条件下的条件互信息;
25、在新到达特征fi的条件下,已选特征集中特征fk与标签集l的相关性cmi(fk;lj|fi)的计算公式为:
26、
27、其中,fi表示新到达特征。
28、进一步的,新到达特征fi为已选特征集中特征fk的冗余特征的判定条件为满足i(fk;l)≥i(fi;l)且cmi(fi;l|fk)≤i(fi;l),其中,i(fk;l)表示已选特征集中各特征与标签集的相关性,i(fi;l)表示新到达特征fi与标签集l的相关性,cmi(fi;l|fk)表示在已选特征集中特征fk的条件下,新到达特征fi与标签集l的相关性;已选特征集中特征fk为新到达特征fi的冗余特征的判定条件为满足i(fk;l)<i(fi;l)且cmi(fi;l|fk)<i(fi;l)。
29、一种多标签数据在线流特征选择终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
30、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
31、本发明采用如上技术方案,提出了一种基于平衡全局和局部的在线多标签特征选择方法,通过考虑已选特征与标签空间的全局相关性过滤不相关特征,以及在已选集合中分析特征与特征的局部相关性以剔除冗余特征,提高了特征选择的准确性和稳定性。
1.一种多标签数据在线流特征选择方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多标签数据在线流特征选择方法,其特征在于:标签的权重的计算过程包括以下步骤:
3.根据权利要求1所述的多标签数据在线流特征选择方法,其特征在于:步骤s2中显著特征的判定条件为满足新到达特征的显著性大于或等于显著性平均值。
4.根据权利要求3所述的多标签数据在线流特征选择方法,其特征在于:新到达特征与标签集的显著性的计算公式为:
5.根据权利要求3所述的多标签数据在线流特征选择方法,其特征在于:显著性平均值为当前时刻的新到达特征以及当前时刻已选特征集中所有特征的显著性的平均值。
6.根据权利要求1所述的多标签数据在线流特征选择方法,其特征在于:步骤s3中与标签集有关的特征的判定条件为:在新到达特征的条件下,已选特征集中各特征与标签集的相关性大于已选特征集中各特征与标签集的相关性。
7.根据权利要求6所述的多标签数据在线流特征选择方法,其特征在于:已选特征集中特征fk与标签集l的相关性i(fk;l)的计算公式为:
8.根据权利要求1所述的多标签数据在线流特征选择方法,其特征在于:新到达特征fi为已选特征集中特征fk的冗余特征的判定条件为满足i(fk;l)≥i(fi;l)且cmi(fi;l|fk)≤i(fi;l),其中,i(fk;l)表示已选特征集中各特征与标签集的相关性,i(fi;l)表示新到达特征fi与标签集l的相关性,cmi(fi;l|fk)表示在已选特征集中特征fk的条件下,新到达特征fi与标签集l的相关性;已选特征集中特征fk为新到达特征fi的冗余特征的判定条件为满足i(fk;l)<i(fi;l)且cmi(fi;l|fk)<i(fi;l)。
9.一种多标签数据在线流特征选择终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~8中任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~8中任一所述方法的步骤。