一种特征筛选方法及装置与流程

文档序号:18269756发布日期:2019-07-27 09:32阅读:159来源:国知局
一种特征筛选方法及装置与流程

本申请涉及数据处理领域,特别涉及一种特征筛选方法及装置。



背景技术:

随着人工智能的发展,机器学习模型被越来越多的应用在各种领域,用于进行目标预测。

机器学习模型进行目标预测的准确性高低,一般与机器学习模型的输入特征有关,但是如何对输入特征进行有效选取成为问题。



技术实现要素:

为解决上述技术问题,本申请实施例提供一种特征筛选方法及装置,以达到提高目标特征集的有效性的目的,技术方案如下:

一种特征筛选方法,包括:

对初始数据进行特征提取,得到第一特征集;

对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;

分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;

在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集。

一种特征筛选方法,包括:

对初始数据进行特征提取,得到第一特征集;

对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;

将所述第二特征集中的特征输入针对预测目标构建的树结构预测模型,得到所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;

在所述第三特征集中的特征的个数在特征个数阈值内且所述预测结果的准确率达到准确率阈值的情况下,将所述第三特征集中的特征作为目标特征集。

一种特征筛选装置,包括:

第一提取模块,用于对初始数据进行特征提取,得到第一特征集;

第一衍生模块,用于对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;

第一预测模块,用于分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;

第一确定模块,用于在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集。

一种特征筛选装置,包括:

第一提取模块,用于对初始数据进行特征提取,得到第一特征集;

第一衍生模块,用于对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;

第二预测模块,用于将所述第二特征集中的特征输入针对预测目标构建的树结构预测模型,得到所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;

第二确定模块,用于在所述第三特征集中的特征的个数在特征个数阈值内且所述预测结果的准确率达到准确率阈值的情况下,将所述第三特征集中的特征作为目标特征集。

与现有技术相比,本申请的有益效果为:

在本申请中,对初始数据进行特征提取,得到第一特征集,对第一特征集中的特征进行衍生,得到更完善的第二特征集,得到第二特征集之后,分别将第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,通过树结构预测模型得到预测结果及对预测结果有重要影响的第三特征集,在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集,保证目标特征集与预测目标的相关性更高,提高目标特征集的有效性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请提供的一种特征筛选方法的流程图;

图2是本申请提供的另一种特征筛选方法的流程图;

图3是本申请提供的再一种特征筛选方法的流程图;

图4是本申请提供的再一种特征筛选方法的流程图;

图5是本申请提供的再一种特征筛选方法的流程图;

图6是本申请提供的再一种特征筛选方法的流程图;

图7是本申请提供的再一种特征筛选方法的流程图;

图8是本申请提供的再一种特征筛选方法的流程图;

图9是本申请提供的再一种特征筛选方法的流程图;

图10是本申请提供的再一种客户流失预测方法的流程图;

图11是本申请提供的另一种客户流失预测方法的流程图;

图12是本申请提供的一种特征筛选装置的逻辑结构示意图;

图13是本申请提供的另一种特征筛选装置的逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例公开了一种特征筛选方法,包括:对初始数据进行特征提取,得到第一特征集;对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集。在本申请中,通过以上方式可以提高目标特征集的有效性。

接下来对本申请实施例公开的特征筛选方法进行介绍,如图1所示的,为本申请提供的一种特征筛选方法实施例1的流程图,该方法应用于一计算机设备,该方法包括以下步骤:

步骤s11、对初始数据进行特征提取,得到第一特征集。

初始数据可以理解为:预测目标所属领域的数据。其中,预测目标可以理解为:机器学习模型所预测的对象。

初始数据中包含有与预测目标相关的特征,优选的,第一特征集中至少包含与预测目标相关的特征。

步骤s12、对所述第一特征集中的特征进行衍生,得到第二特征集。

对第一特征集中的特征进行衍生,在第一特征集的基础上对特征集进行完善,得到第二特征集,所述第二特征集至少包含所述第一特征集。

本实施例中,并不限制衍生方式,具体可以包括但不局限于:分箱、交叉、平均或计算波动方式。

步骤s13、分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集。

树结构预测模型可以理解为:用于预测未知数据的一种机器学习模型。树结构预测模型可以对特征的重要性进行评估,得到特征的重要性指标值。特征的重要性指标值用于表征特征在预测过程中的重要性。特征的重要性指标值越高,该特征对预测结果的影响越大。

本实施例中,并不限制多个树结构预测模型的结构形式。多个树结构预测模型可以为结构相同的模型;或者,多个树结构预测模型为结构互不相同的模型;或者,多个树结构预测模型中,部分树结构预测模型的结构相同,另一部分树结构预测模型的结构不同。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

需要说明的是,m可以根据需要进行灵活设置。

优选的,分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集的过程,可以包括:

分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,利用遍历的方法分别确定各个树结构预测模型的最优参数,得到最优树结构预测模型;

将第二特征集中的特征输入最优树结构预测模型,得到最优树结构预测模型输出的预测结果及第三特征集。

步骤s14、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述预测结果的准确率是否均达到准确率阈值。

若是(即,若多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值),则执行步骤s15。

多个所述第三特征集中的重合特征可以理解为:多个所述第三特征集中相似度高于相似度阈值的特征。如,第三特征集a中包含特征a1、b1和c1,第三特征集b中包含特征a2、b2和c2,特征a1和特征a2的相似度高于80%,则第三特征集a和第三特征集b的重合特征为特征a1和特征a2。

当然,在特征的相似度达到100%的情况下,多个所述第三特征集中的重合特征可以理解为:多个所述第三特征集中相同的特征。如,第三特征集c中包含特征a、b和c,第三特征集d中包含特征a、d和e,第三特征集e中包含特征a、f和g,则第三特征集c、d和e中的重合特征为特征a。

本实施例中,从特征数量及特征对预测结果的影响两方面,对目标特征集的选取限制条件进行设定,来保证目标特征集选取的可靠性。

本实施例中,并不限制特征个数阈值及准确率阈值的大小,特征个数阈值及准确率阈值均可以根据需要进行灵活设置。

步骤s15、将多个所述第三特征集中的重合特征作为目标特征集。

目标特征集可以用于树结构预测模型进行预测,提高树结构预测模型预测的准确性。

在本申请中,对初始数据特征提取,得到第一特征集,对第一特征集中的特征进行衍生,得到更完善的第二特征集,得到第二特征集之后,将分别将第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,通过树结构预测模型得到预测结果及对预测结果有重要影响的第三特征集,在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集,保证目标特征集与预测目标的相关性更高,提高目标特征集的有效性。

作为本申请另一可选实施例,参照图2,为本申请提供的一种特征筛选方法实施例2的流程示意图,本实施例主要是对上述实施例1描述的特征筛选方法的细化方案,如图2所示,该方法可以包括但并不局限于以下步骤:

步骤s21、对训练用初始数据进行特征提取,得到第一训练特征集;

训练用初始数据可以理解为:用于对树结构预测模型进行训练的初始数据。

对训练用初始数据进行特征提取,提取的特征作为第一训练特征集。

步骤s22、对所述第一训练特征集中的特征进行衍生,得到第二训练特征集,所述第二训练特征集至少包含所述第一训练特征集;

对所述第一训练特征集中的特征进行衍生的详细过程可以参见实施例1中衍生的介绍,在此不再赘述。

步骤s23、分别将所述第二训练特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的第一预测结果及第三特征集。

所述第三特征集为对所述第二训练特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二训练特征集中特征的总数。

步骤s24、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述第一预测结果的准确率是否均达到第一准确率阈值;

若是,则执行步骤s25;

第一准确率阈值可以根据需要进行灵活设置,如,第一准确率阈值可以设置为但不局限于:80%。

步骤s25、对测试用初始数据进行特征提取,得到第一测试特征集;

测试用初始数据可以理解为:用于对树结构预测模型的性能进行测试的初始数据。

对测试用初始数据进行特征提取,提取的特征作为第一测试特征集。

步骤s26、对所述第一测试特征集中的特征进行衍生,得到第二测试特征集,所述第二测试特征集至少包含所述第一测试特征集;

对第一测试特征集中的特征进行衍生的过程可以参见实施例1中衍生的介绍,在此不再赘述。

步骤s27、分别将所述第二测试特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的第二预测结果;

步骤s28、判断各个所述树结构预测模型输出的第二预测结果的准确率是否均达到第二准确率阈值;

若是,则执行步骤s29;

第二准确率阈值可以根据需要进行灵活设置,如,可以设置为但不局限于:75%。

步骤s29、将多个所述第三特征集中的重合特征作为目标特征集。

可以理解的是,在多个第三特征集中的重合特征的个数在特征个数阈值内,且各个第一预测结果的准确率均达到第一准确率阈值且各个第二预测结果的准确率均达到第二准确率阈值的情况下,将训练时多个第三特征集中的重合特征作为目标特征集,进一步提高目标特征集的有效性。

作为本申请另一可选实施例,参照图3,为本申请提供的一种特征筛选方法实施例3的流程示意图,本实施例主要是对上述实施例1描述的特征筛选方法的细化方案,如图3所示,该方法可以包括但并不局限于以下步骤:

步骤s31、对初始数据进行数据清洗,对数据清洗后的数据进行特征提取,得到第一特征集。

对初始数据进行数据清洗,提高数据的可靠性。

对初始数据进行数据清洗的过程可以参见已有技术中数据清洗的过程,在此不再赘述。

对数据清洗后的数据进行特征提取的过程可以参见实施例1中特征提取的介绍,在此不再赘述。

步骤s32、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s33、分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

步骤s34、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述预测结果的准确率是否均达到准确率阈值。

若是,则执行步骤s35。

步骤s35、将多个所述第三特征集中的重合特征作为目标特征集。

步骤s32-s35的详细过程可以参见实施例1中步骤s12-s15的相关介绍,在此不再赘述。

作为本申请另一可选实施例,参照图4,为本申请提供的一种特征筛选方法实施例4的流程示意图,本实施例主要是对上述实施例1描述的特征筛选方法的扩充方案,如图4所示,该方法可以包括但并不局限于以下步骤:

步骤s41、对初始数据进行特征提取,得到第一特征集。

步骤s42、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s43、分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

步骤s44、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述预测结果的准确率是否均达到准确率阈值。

若是,则执行步骤s45;若否(即,若多个所述第三特征集中的重合特征的个数未在特征个数阈值内或其中一个或多个所述预测结果的准确率未达到准确率阈值),则执行步骤s46。

步骤s45、将多个所述第三特征集中的重合特征作为目标特征集。

步骤s41-s45的详细过程可以参见实施例1中步骤s11-s15的相关介绍,在此不再赘述。

步骤s46、对多个所述第三特征集中的重合特征进行衍生,得到的特征集作为所述第二特征集,并返回执行步骤s43,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

本实施例中,并不限制对多个第三特征集中的重合特征进行衍生的方式,具体可以包括但不局限于:分箱、交叉、平均或计算波动方式。

在多个所述第三特征集中的重合特征的个数未在特征个数阈值内或其中一个或多个所述预测结果的准确率未达到准确率阈值的情况下,说明筛选出的特征未达到设定要求,可以继续对多个第三特征集中的重合特征进行衍生,得到的特征集作为所述第二特征集,并返回执行步骤s43,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

在本实施例中,对初始数据特征提取,得到第一特征集,对第一特征集中的特征进行衍生,得到更完善的第二特征集,得到第二特征集之后,分别将第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,通过树结构预测模型得到预测结果及对预测结果有重要影响的第三特征集,在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集将多个第三特征集中的重合特征的个数在特征个数阈值内及各个所述预测结果的准确率达到准确率阈值作为特征筛选过程的结束条件,采用迭代的方式,保证目标特征集与预测目标的相关性更高,提高目标特征集的有效性。

作为本申请另一可选实施例,参照图5,为本申请提供的一种特征筛选方法实施例5的流程示意图,本实施例主要是对上述实施例4描述的特征筛选方法的细化方案,如图5所示,该方法可以包括但并不局限于以下步骤:

步骤s51、对初始数据进行特征提取,得到第一特征集。

步骤s52、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s53、分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

步骤s54、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述预测结果的准确率是否均达到准确率阈值。

若是,则执行步骤s55;若否,则执行步骤s56。

步骤s55、将多个所述第三特征集中的重合特征作为目标特征集。

步骤s51-s55的详细过程可以参见实施例4中步骤s41-s45的相关介绍,在此不再赘述。

步骤s56、判断多个所述第三特征集中的重合特征与所述预测目标的相关性是否符合预设相关性条件。

若是,则执行步骤s57;若否,则执行步骤s58。

预设相关性条件可以根据模型预测的性能需求进行设置,本实施例中不进行限制。

步骤s57、将所述第二特征集更新为多个所述第三特征集中的重合特征,并返回执行步骤s53,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

在多个所述第三特征集中的重合特征与所述预测目标的相关性符合预设相关性条件的情况下,将所述第二特征集更新为多个所述第三特征集中的重合特征,提高第二特征集更新的可靠性。

步骤s58、对不符合所述预设相关性条件的特征进行重新构造,将所述第二特征集更新为重新构造得到的特征及符合所述预设相关性条件的特征,并返回执行步骤s53,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

本步骤对不符合所述预设相关性条件的特征进行重新构造,不对符合预设相关性条件的特征进行处理,减少了重新构造的工作量,提高了工作效率。

对不符合所述预设相关性条件的特征进行重新构造的过程,可以包括:

a11、对不符合所述预设相关性条件的特征进行衍生。

对不符合所述预设相关性条件的特征进行衍生,得到更多的特征。

或者,对不符合所述预设相关性条件的特征进行重新构造的过程,可以包括:

b11、对不符合所述预设相关性条件的特征的稀疏程度进行调整。

可以理解的是,特征的稀疏程度可能会影响与预测目标的相关性,因此可以对不符合预设相关性条件的特征的稀疏程度进行调整。

对不符合所述预设相关性条件的特征的稀疏程度进行调整,可以理解为:

对不符合所述预设相关性条件的某一个特征划分为多个特征,或者,将不符合所述预设相关性条件的多个特征重组为一个特征。

或者,对符合所述预设相关性条件的特征进行重新构造的过程,可以包括:

c11、对不符合所述预设相关性条件的特征进行衍生。

对不符合所述预设相关性条件的特征进行衍生的过程可以参见步骤a11的相关介绍,在此不再赘述。

c12、对衍生得到的特征的稀疏程度进行调整。

对衍生得到的特征的稀疏程度进行调整的详细过程可以参见步骤b11的相关介绍,在此不再赘述。

对不符合所述预设相关性条件的特征进行衍生,再对衍生得到的特征的稀疏程度进行调整,可以提高重新构造得到的特征的可靠性,进一步提高目标特征集的有效性。

作为本申请另一可选实施例,参照图6,为本申请提供的一种特征筛选方法实施例6的流程示意图,本实施例主要是对上述实施例5描述的特征筛选方法的细化方案,如图6所示,该方法可以包括但并不局限于以下步骤:

步骤s61、对初始数据进行特征提取,得到第一特征集。

步骤s62、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s63、分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

步骤s64、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述预测结果的准确率是否均达到准确率阈值。

若是,则执行步骤s65;若否,则执行步骤s66。

步骤s65、将多个所述第三特征集中的重合特征作为目标特征集。

步骤s61-s65的详细过程可以参见实施例5中步骤s51-s55的相关介绍,在此不再赘述。

步骤s66、判断多个所述第三特征集中的重合特征与所述预测目标的相关性是否均达到相关性阈值。

若是,则执行步骤s67;若否,则执行步骤s68。

相关性阈值可以根据需要进行灵活设置。

优选的,可以利用皮尔逊相关系数,计算多个所述第三特征集中的各个重合特征与所述预测目标的相关性。

步骤s67、将所述第二特征集更新为多个所述第三特征集中的重合特征,并返回执行步骤s63,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

在多个所述第三特征集中的重合特征与所述预测目标的相关性均达到相关性阈值的情况下,将所述第二特征集更新为多个所述第三特征集中的重合特征,提高第二特征集更新的可靠性。

步骤s68、对未达到所述相关性阈值的特征进行重新构造,将所述第二特征集更新为重新构造得到的特征及达到所述相关性阈值的特征,并返回执行步骤s63,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

对未达到所述相关性阈值的特征进行重新构造的过程可以参见实施例5中步骤s58中重新构造的相关介绍,在此不再赘述。

作为本申请另一可选实施例,参照图7,为本申请提供的一种特征筛选方法实施例7的流程示意图,本实施例主要是对上述实施例5描述的特征筛选方法的细化方案,如图7所示,该方法可以包括但并不局限于以下步骤:

步骤s71、对初始数据进行特征提取,得到第一特征集。

步骤s72、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s73、分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

步骤s74、判断多个所述第三特征集中的重合特征的个数是否在特征个数阈值内且各个所述预测结果的准确率是否均达到准确率阈值。

若是,则执行步骤s75;若否,则执行步骤s76。

步骤s75、将多个所述第三特征集中的重合特征作为目标特征集。

步骤s71-s75的详细过程可以参见实施例5中步骤s51-s55的相关介绍,在此不再赘述。

步骤s76、确定各个所述第三特征集中特征的类型、分布及与所述预测目标的相关性,得到确定结果。

本实施例中,可以通过分别将各个第三特征集中特征与设定特征类型进行匹配,来确定第三特征集中特征的类型。

特征的分布可以理解为:分布在该特征下的对象的个数。本实施例中,可以通过但不局限于采用统计技术,计算在该特征下的对象的个数,来得到特征的分布结果。

本实施例中,可以利用皮尔逊相关系数计算各个第三特征集中特征与预测目标的相关性。

步骤s77、根据所述确定结果,判断是否需要进行特征衍生。

若是,则执行步骤s78。

可以理解的是,可以通过判断确定结果是否达到设定要求的结果,来判断是否需要进行特征衍生,若确定结果未达到设定要求,则需要进行特征衍生,执行步骤s78;若确定结果达到设定要求,则不需要进行特征衍生,可以返回步骤s73重新执行。

步骤s78、判断多个所述第三特征集中的重合特征与所述预测目标的相关性是否符合相关性设定条件。

若是,则执行步骤s79;若否,则执行步骤s710。

步骤s79、将所述第二特征集更新为多个所述第三特征集中的重合特征,并返回执行步骤s63,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

步骤s710、对不符合所述预设相关性条件的特征进行重新构造,将所述第二特征集更新为重新构造得到的特征及符合所述预设相关性条件的特征,并返回执行步骤s73,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

步骤s78-s710的详细过程可以参见实施例5中步骤s56-s58的相关介绍,在此不再赘述。

本实施例中,根据各个所述第三特征集中特征的类型、分布及与所述预测目标的相关性,来判断是否需要进行特征衍生,在需要进行特征衍生的情况下,进而判断多个第三特征集中的重合特征与所述预测目标的相关性是否符合相关性设定条件,进一步提高重合特征衍生的有效性,提高目标特征集的有效性。

作为本申请另一可选实施例8,参照图8,为本申请提供的另一种特征筛选方法的流程示意图,如图8所示,该方法可以包括但并不局限于以下步骤:

步骤s81、对初始数据进行特征提取,得到第一特征集。

步骤s82、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s81-s82的详细过程可以参见实施例1中步骤s11-s12的相关介绍,在此不再赘述。

步骤s83、将所述第二特征集中的特征输入针对预测目标构建的树结构预测模型,得到所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

本实施例中,可以针对预测目标仅构建一个树结构预测模型。本实施例中的树结构预测模型可以参见实施例1树结构预测模型的相关介绍,在此不再赘述。

得到所述树结构预测模型输出的预测结果及第三特征集的详细过程可以参见实施例1中的相关介绍,在此不再赘述。

步骤s84、判断所述第三特征集中的特征的个数是否在特征个数阈值内且所述预测结果的准确率是否达到准确率阈值。

若是,则执行步骤s85。

步骤s85、将所述第三特征集中的特征作为目标特征集。

在本申请中,对初始数据进行特征提取,得到第一特征集,对第一特征集中的特征进行衍生,得到更完善的第二特征集,得到第二特征集之后,将第二特征集中的特征输入针对预测目标构建的树结构预测模型,通过树结构预测模型得到预测结果及对预测结果有重要影响的第三特征集,在所述第三特征集中的特征的个数在特征个数阈值内且所述预测结果的准确率均达到准确率阈值的情况下,将所述第三特征集中的特征作为目标特征集,保证目标特征集与预测目标的相关性较高,提高目标特征集的有效性。

作为本申请另一可选实施例,参照图9,为本申请提供的一种特征筛选方法实施例9的流程示意图,本实施例主要是对上述实施例8描述的特征筛选方法的细化方案,如图9所示,该方法可以包括但并不局限于以下步骤:

步骤s91、对初始数据进行特征提取,得到第一特征集。

步骤s92、对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集。

步骤s93、将所述第二特征集中的特征输入针对预测目标构建的树结构预测模型,得到所述树结构预测模型输出的预测结果及第三特征集。

所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数。

步骤s94、判断所述第三特征集中的特征的个数是否在特征个数阈值内且所述预测结果的准确率是否达到准确率阈值。

若是,则执行步骤s95;若否,则执行步骤s96。

步骤s95、将所述第三特征集中的特征作为目标特征集。

步骤s96、对所述第三特征集中的特征进行衍生,得到的特征集作为所述第二特征集,并返回执行步骤s93,直至所述第三特征集中的特征的个数在特征个数阈值内且所述预测结果的准确率达到准确率阈值。

对第三特征集中的特征进行衍生的过程可以参见前述各个实施例中对多个第三特征集中的重合特征进行衍生的相关介绍,在此不再赘述。

在本申请的另一个实施例中,参照图10,为本申请提供的一种客户流失预测方法实施例1的流程示意图,如图10所示,该方法可以包括但并不局限于以下步骤:

步骤s101、对目标数据进行特征提取,得到待使用特征集;

本实施例中,目标数据可以为与客户交易相关的数据。在本实施例中,并不限制客户的类型,具体可以为但不局限于银行客户。

步骤s102、将所述待使用特征集中的特征输入针对客户流失目标构建的树结构预测模型,得到所述树结构预测模型输出的预测结果,所述树结构预测模型为预先利用目标特征集训练得到的模型;

所述目标特征集为采用前述各个实施例的特征筛选方法,基于客户流失预测目标,所筛选出的目标特征集,筛选的过程在此不再赘述。

本实施例中,利用采用前述各个实施例的特征筛选方法,基于客户流失预测目标,所筛选出的目标特征集训练得到的模型,可以提高树结构预测模型进行预测的准确性,提高预测结果的准确性。

作为本申请另一可选实施例,参照图11,为本申请提供的一种客户流失预测方法实施例2的流程示意图,本实施例主要是对上述实施例1描述的客户流失预测方法的细化方案,如图11所示,该方法可以包括但并不局限于以下步骤:

步骤s111、对目标数据进行特征提取,得到待使用特征集;

本实施例中,目标数据可以理解为:与银行客户的交易相关的数据。

步骤s112、将所述待使用特征集中的特征输入针对客户资产流失倾向构建的树结构分类模型,得到所述树结构分类模型输出的第一预测结果,所述树结构分类模型为预先利用第一目标特征集训练得到的模型;

所述第一目标特征集为采用前述各个实施例的特征筛选方法,基于客户资产流失倾向的预测目标,所筛选出的特征集,筛选的过程在此不再赘述。

优选的,可以将下季度客户的金额流失比例作为客户资产流失倾向的预测目标,当流失比例达到设定限度则认为客户资产流失倾向较大。其中,设定限度可以根据需要进行灵活设置。

第一预测结果可以理解为:客户资产流失倾向的预测结果。

步骤s113、将所述待使用特征集中的特征输入针对客户资产流失金额构建的树结构回归模型,得到所述树结构回归模型输出的第二预测结果,所述树结构回归模型为预先利用第二目标特征集训练得到的模型;

所述第二目标特征集为采用前述各个实施例的特征筛选方法,基于客户资产流失金额的预测目标,所筛选出的特征集,筛选的过程在此不再赘述。

第二预测结果可以理解为:客户资产流失金额的预测结果。

优选的,可以将下季度末的客户资产与当前季度末资产之差作为客户资产流失金额的预测目标。

步骤s114、基于所述第一预测结果及所述第二预测结果,从客户资产流失倾向高的客户中选取客户资产流失金额高的客户作为流失预警客户。

可以将第一预测结果高于客户资产流失倾向阈值的客户,作为客户资产流失倾向高的客户;将第二预测结果高于客户资产流失金额阈值的客户,作为客户资产流失金额高的客户。

与上述实施例1至9提供的一种特征筛选方法实施例相对应的,本申请还提供了应用该特征筛选方法的特征筛选装置实施例。

如图12所示的为本申请提供的一种特征筛选装置实施例1的结构示意图,该特征筛选装置可以包括以下结构:第一提取模块11、第一衍生模块12第一预测模块13和第一确定模块14。

第一提取模块11,用于对初始数据进行特征提取,得到第一特征集;

第一衍生模块12,用于对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;

第一预测模块13,用于分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型,得到各个所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;

第一确定模块14,用于在多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值的情况下,将多个所述第三特征集中的重合特征作为目标特征集。

本实施例中,上述特征筛选装置还可以包括:

第二衍生模块,用于在多个所述第三特征集中的重合特征的个数未在特征个数阈值内或其中一个或多个所述预测结果的准确率未达到准确率阈值的情况下,对多个所述第三特征集中的重合特征进行衍生,得到的特征集作为所述第二特征集,并返回执行分别将所述第二特征集中的特征输入针对预测目标构建的各个树结构预测模型的步骤,直至多个所述第三特征集中的重合特征的个数在特征个数阈值内且各个所述预测结果的准确率均达到准确率阈值。

本实施例中,所述第二衍生模块,可以包括:

第一判断子模块,用于判断多个所述第三特征集中的重合特征与所述预测目标的相关性是否符合预设相关性条件;

第一更新子模块,用于若多个所述第三特征集中的重合特征与所述预测目标的相关性符合预设相关性条件,则将所述第二特征集更新为多个所述第三特征集中的重合特征;

构造子模块,用于若多个所述第三特征集中的重合特征与所述预测目标的相关性不符合预设相关性条件,则对不符合所述预设相关性条件的特征进行重新构造,将所述第二特征集更新为重新构造得到的特征及符合所述预设相关性条件的特征。

本实施例中,所述构造子模块,可以包括:

衍生子模块,用于对不符合所述预设相关性条件的特征进行衍生;

和/或,调整子模块,用于对不符合所述预设相关性条件的特征的稀疏程度进行调整。

本实施例中,所述第一判断子模块,可以包括:

第一确定子模块,用于确定各个所述第三特征集中特征的类型、分布及与所述预测目标的相关性,得到确定结果;

衍生判断子模块,用于根据所述确定结果,判断是否需要进行特征衍生,若是,则判断多个所述第三特征集中的重合特征与所述预测目标的相关性是否符合相关性设定条件。

与上述实施例10至11提供的一种特征筛选方法实施例相对应的,本申请还提供了应用该特征筛选方法的特征筛选装置实施例。

如图13所示的为本申请提供的一种特征筛选装置实施例1的结构示意图,该特征筛选装置可以包括以下结构:第一提取模块21、第一衍生模块22、第二预测模块23和第二确定模块24。

第一提取模块21,用于对初始数据进行特征提取,得到第一特征集;

第一衍生模块22,用于对所述第一特征集中的特征进行衍生,得到第二特征集,所述第二特征集至少包含所述第一特征集;

第二预测模块23,用于将所述第二特征集中的特征输入针对预测目标构建的树结构预测模型,得到所述树结构预测模型输出的预测结果及第三特征集,所述第三特征集为对所述第二特征集中的特征的重要性指标值进行从大到小排序,排序结果中第一个至第m个重要性指标值对应的特征组成的集合,所述m小于所述第二特征集中特征的总数;

第二确定模块24,用于在所述第三特征集中的特征的个数在特征个数阈值内且所述预测结果的准确率达到准确率阈值的情况下,将所述第三特征集中的特征作为目标特征集。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种特征筛选方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1