一种特征选择方法、装置、电子设备、芯片及介质与流程

文档序号:36334322发布日期:2023-12-13 00:27阅读:28来源:国知局
一种特征选择方法与流程

本公开涉及人工智能领域,尤其涉及一种特征选择方法、装置、电子设备、芯片及介质。


背景技术:

1、随着人工智能和大数据技术的发展,对于算法如何从数据中提取关键特征受到了极大的关注。a-tune是一款基于ai开发的系统性能优化引擎,a-tune中主要使用了两种较有代表性的特征选择方法,分别是方差下降特征选择法(variance reduction featureselector)和加权集成特征选择法(weighted ensemble feature selection)。方差下降特征选择法通过判断某一特征对目标值方差的影响来判断特征的重要程度,能够直观地从数据集的角度分析关键的特征;加权集成特征选择法对多种回归树算法得到的特征重要性通过集成学习方法(例如stacking方法)进行加权得到每个特征的重要程度,能够较为稳定地提取关键的特征。

2、但是,方差下降特征选择法要求特征取值有较多的重复值,对数据集的要求较为严格,具有一定的局限性。而加权集成特征选择法随着特征数量的增加、特征之间关系的复杂化,该方法学习特征的难度提升、可靠性会随之降低。


技术实现思路

1、本公开提供一种特征选择方法、装置、电子设备、芯片及介质,以解决相关技术中特征选择的问题,结合第一波动值和第二波动值解决组合特征难以筛选的问题,同时引入回归算法,解决了对数据集的局限性,并通过对任务数据集进行分组,减少候选特征数量、降低回归算法学习难度,进而增加特征选择的可靠性。

2、本公开的第一方面实施例提出了一种特征选择方法,该方法包括:确定第一任务数据集中的第一训练集和第一测试集;根据回归算法、第一训练集以及第一测试集,确定第一任务数据集的第一波动值;基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;根据第一波动值和第二波动值,确定关键特征。

3、在本公开的一些实施例中,确定第一任务数据集中的第一训练集和第一测试集包括:获取第一任务数据集,第一任务数据集包括特征数据和目标值数据;将特征数据和目标值数据中的离散型特征转换为连续型特征;根据预设算法和预设比例,将转换后的第一任务数据集划分为第一训练集和第一测试集。

4、在本公开的一些实施例中,根据回归算法、第一训练集以及第一测试集,确定第一任务数据集的第一波动值包括:通过第一训练集训练回归算法,获取训练后的第一回归算法;通过第一回归算法,确定第一测试集对应的第一误差值;根据预设系数以及第一误差值,确定第一波动值。

5、在本公开的一些实施例中,基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值包括:基于第一特征对第一任务数据集进行分组,获取分组后的第二任务数据集;对第二任务数据集进行特征降维处理,确定第二训练集和第二测试集;通过第二训练集训练回归算法,获取训练后的第二回归算法;通过第二回归算法,确定第二测试集对应的第二误差值;通过预设系数以及第二误差值,确定第二波动值。

6、在本公开的一些实施例中,第二任务数据集包括第一特征和至少一个第二特征,根据第一波动值和第二波动值,确定关键特征包括:比较第一波动值和第二波动值的大小,若第二波动值大于或等于第一波动值,确定第一特征和至少一个第二特征为关键特征。

7、在本公开的一些实施例中,第二任务数据集包括第一特征,根据第一波动值和第二波动值,确定关键特征包括:确定第一特征为关键特征。

8、在本公开的一些实施例中,回归算法包括第一回归算法和至少一个第二回归算法,该方法还包括:通过预设权重系数,分别将第一回归算法和至少一个回归算法对应的第一波动值和/或第二波动值进行加权融合;根据融合后的第一波动值和第二波动值,确定关键特征。

9、本公开的第二方面实施例提出了一种特征选择装置,该装置包括:第一确定单元,用于确定第一任务数据集中的第一训练集和第一测试集;第二确定单元,用于根据回归算法、第一训练集以及第一测试集,确定第一任务数据集的第一波动值;分组单元,用于基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;筛选单元,用于根据第一波动值和第二波动值,确定关键特征。

10、本公开的第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例中描述的方法。

11、本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一方面实施例中描述的方法。

12、本公开的第五方面实施例提出了一种芯片,该芯片包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令,当处理器执行计算机指令时,使得电子设备执行本公开第一方面实施例中描述的方法。

13、综上,根据本公开提出的特征选择方法,确定第一任务数据集中的第一训练集和第一测试集;根据回归算法、第一训练集以及第一测试集,确定第一任务数据集的第一波动值;基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;根据第一波动值和第二波动值,确定关键特征,结合第一波动值和第二波动值解决组合特征难以筛选的问题,同时引入回归算法,解决了对数据集的局限性,并通过对任务数据集进行分组,减少候选特征数量、降低回归算法学习难度,进而增加特征选择的可靠性。

14、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。



技术特征:

1.一种特征选择方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定第一任务数据集中的第一训练集和第一测试集包括:

3.根据权利要求1所述的方法,其特征在于,所述根据回归算法、所述第一训练集以及所述第一测试集,确定所述第一任务数据集的第一波动值包括:

4.根据权利要求1所述的方法,其特征在于,所述基于第一特征以及所述回归算法,对所述第一任务数据集进行分组,确定第二波动值包括:

5.根据权利要求1所述的方法,其特征在于,所述第二任务数据集包括第一特征和至少一个第二特征,所述根据所述第一波动值和所述第二波动值,确定关键特征包括:

6.根据权利要求5所述的方法,其特征在于,所述第二任务数据集包括第一特征,所述根据所述第一波动值和所述第二波动值,确定关键特征包括:

7.根据权利要求1所述的方法,其特征在于,所述回归算法包括第一回归算法和至少一个第二回归算法,所述方法还包括:

8.一种装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:

10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

11.一种芯片,其特征在于,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令,当所述处理器执行所述计算机指令时,使得所述电子设备执行权利要求1-7中任一项所述的方法。


技术总结
本公开提供一种特征选择方法、装置、电子设备、芯片及介质,涉及人工智能领域,该方法包括:确定第一任务数据集中的第一训练集和第一测试集;根据回归算法、第一训练集以及第一测试集,确定第一任务数据集的第一波动值;基于第一特征以及回归算法,对第一任务数据集进行分组,确定第二波动值;根据第一波动值和第二波动值,确定关键特征,结合第一波动值和第二波动值解决组合特征难以筛选的问题,同时引入回归算法,解决了对数据集的局限性,并通过对任务数据集进行分组,减少候选特征数量、降低回归算法学习难度,进而增加特征选择的可靠性。

技术研发人员:严浩冉,蔡敦波
受保护的技术使用者:中移(苏州)软件技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1