一种基于动态流标签的多标签特征选择方法、设备及介质

文档序号:36332706发布日期:2023-12-10 13:52阅读:61来源:国知局
一种基于动态流标签的多标签特征选择方法

本发明涉及数据处理领域,尤其涉及一种基于动态流标签的多标签特征选择方法、设备及介质。


背景技术:

1、多标签特征选择作为一种有效的降维技术,吸引了广泛的关注,因为它可以解决样本属于多个标签和特征空间高维度的问题。与传统的特征选择相比,多标签特征选择可以更好地适应实际应用场景的需求。

2、在传统的多标签特征选择的研究中,一个基本的假设是在特征选择之前就提前得到所有的标签。然而,在许多实际应用场景中,显然不现实且代价高昂去获取所有的标签。相反,更常见的情况是标签可能以流式模式逐个到达,并且在学习之前我们无法知道准确的标签数量。例如,在事件检测任务中,被早期检测系统排除的新事件需要及时检查。在许多社交网络系统中,如facebook和myspace的帖子中,热门话题(标签)每天都在不断变化。

3、目前,已经有一些算法尝试在标签流环境中进行特征选择。这类方法的主要思想是通过获取每个独立的流标签的类属特征,并利用融合策略实现类属特征的融合。尽管这些方法可以获得令人满意的预测结果,但它们往往假设流媒体标签相互无关,这是一个与现实不一致的理想化假设。在实践中,我们观察到标签是相互关联和相互影响的。例如,在一张被标为“草”和“帐篷”的照片中,它很有可能也会被贴上“户外”的标签。同样地,如果有“大象”和“狮子”的标签,那么“非洲”的标签很可能也会联系在一起。虽然许多关于多标签学习的研究已经证实,利用标签相关性可以为学习任务提供有价值的额外信息,但它们通常以静态的方式利用标签相关性,不能直接适用于流标签环境。

4、同时,标签随时间动态增加时,很难捕捉到标签的不同重要性。通常,每个标签的重要程度本质上是不同的。例如,一篇新闻文档可以同时使用“体育”和“足球”等标签注释,这些标签在描述文档语义方面的重要性因主题的长度而异。类似的情况也发生在其他任务中,例如面部表情识别和年龄估计。因此,区分和揭示不同标签的相对重要性是至关重要的。目前,已经开发了许多方法,通过提取标签重要性等有价值的信息来促进特征选择。然而,这些方法在获得了完整的标签空间的假设下估计了标签的相对重要性,这不能很好地推广到流数据上。


技术实现思路

1、为了解决上述问题,本发明提出了一种基于动态流标签的多标签特征选择方法、设备及介质。

2、具体方案如下:

3、一种基于动态流标签的多标签特征选择方法,包括以下步骤:

4、s1:基于多标签数据中各样本在特征空间上的邻域及正邻域集和负邻域集,计算当前到达标签相对于各样本的细描述度;

5、s2:结合各历史到达标签细描述度,计算当前到达标签相对于各样本的相对标签重要性程度;

6、s3:结合各历史到达标签的相对标签重要性程度,计算当前到达标签的隐形标签重要性程度;

7、s4:计算关于特征空间内的每个特征,当前到达标签和各历史到达标签之间的标签相关性和特征相关性影响因子;

8、s5:基于标签相关性和特征相关性影响因子,计算当前到达标签的增强特征相关性和特征冗余;

9、s6:将增强特征相关性于特征冗余的差值最大作为目标函数,构建优选特征集,每次迭代后随机选择特征空间内的一个特征添加至优选特征集中,输出满足目标函数的优选特征集;

10、s7:基于各到达标签对应的优选特征集中的各特征至特征空间的映射构建初始映射策略;结合各到达标签的初始映射策略和隐形标签重要性程度,构建最终映射策略;

11、s8:将当前到达标签通过最终映射策略映射后的向量中的各元素的值按照从大到小的顺序排序,基于排序结果选择其中值最大的前n个特征组成已选特征集;

12、s9:重复步骤s1-s8,直至当前到达标签为多标签数据中的最后一个到达标签时,将所有到达标签对应的已选特征集进行融合,得到最终特征集输出。

13、进一步的,当前到达标签lt相对于样本xi的细描述度的计算公式为:

14、

15、其中,表示样本xi的正邻域集,表示样本xi的负邻域集,θf(xi)表示样本xi在特征空间上的邻域,|.|表示取集合内元素的个数,表示正标签,表示负标签。

16、进一步的,当前到达标签lt相对于样本xi的相对标签重要性程度的计算公式为:

17、

18、其中,表示当前到达标签lt相对于样本xi的细描述度,a表示当前到达的所有标签的集合,|.|表示取集合内元素的个数,k表示历史到达标签的序号,表示历史到达标签lk相对于样本xi的细描述度。

19、进一步的,当前到达标签lt的隐性标签重要性imp(lt)的计算公式为:

20、

21、其中,i表示样本的序号,n表示样本的总数,表示当前到达标签lt相对于样本xi的相对标签重要性程度,a表示当前到达的所有标签的集合,|.|表示取集合内元素的个数,k表示历史到达标签的序号,表示历史到达标签lk相对于样本xi的相对标签重要性程度。

22、进一步的,关于特征空间内的特征fi,当前到达标签lt与历史到达标签lk之间的标签相关性lco(fi,lt,lk)的计算公式设定为:

23、lco(fi,lt,lk)=i(fi;lt|lk)-i(fi;lt)

24、其中,i(fi;lt|lk)表示在历史到达标签lk的条件下求特征fi对当前到达标签lt的贡献程度,i(fi;lt)表示特征fi对当前到达标签lt的贡献程度。

25、进一步的,关于特征空间内的特征fi,当前到达标签lt与历史到达标签lk之间的特征相关性影响因子ω(fi,lt,lk)的计算公式为:

26、

27、其中,ls表示历史标签集合,h(.)表示求熵。

28、进一步的,当前到达标签lt的增强特征相关性rel(fi,lt,ls)的计算公式为:

29、rel(fi,lt,ls)=i(fi;lt)×ω(fi,lt,ls)

30、当前到达标签lt的特征冗余red(fi,lt)的计算公式为:

31、

32、其中,i(fi;lt)表示特征fi对当前到达标签lt的贡献程度,s表示优选特征集,|.|表示取集合内元素的个数,fj表示优选特征集中的特征,fi为优选特征集之外的等待备选的特征,i(fi,fj|lt)表示在当前到达标签lt的条件下,求特征fi对特征fj的贡献程度,ω(fi,lt,ls)表示当前到达标签lt与历史到达标签lk之间的特征相关性影响因子。

33、进一步的,当前到达标签lt的最终映射策略的计算公式为:

34、

35、其中,ls表示历史标签集合,lk表示历史到达标签,imp(lk)表示历史到达标签lk的隐性标签重要性,imp(lt)表示当前到达标签lt的隐性标签重要性,φk表示历史到达标签lk的初始映射策略,φt表示当前到达标签lt的初始映射策略。

36、一种基于动态流标签的多标签特征选择终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

37、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

38、本发明采用如上技术方案,将潜在的标记重要性与标记相关性联合学习应用于面向动态流标签的多标签特征选择方法,为模型训练提供了高质量的特征序列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1