一种基于集成算法的缴存影响因素分析方法与流程

文档序号:30063119发布日期:2022-05-18 00:09阅读:302来源:国知局
一种基于集成算法的缴存影响因素分析方法与流程

1.本发明涉及影响因素分析领域,特别涉及一种基于集成算法的缴存影响因素分析方法。


背景技术:

2.在当今的移动互联网时代,在公积金行业领先的关键不仅仅是时间、功能和安全,更是场景与体验,推动服务优化的主控权正在由中心向客户转移。因此,为了提前获取客户需求,主动提供有针对性的服务,需对真实数据进行充分的分析与挖掘,从而为灵活就业人员提供先前的、主动化的服务,使该政策更精确地受益于更广大的灵活就业人员群体。
3.而且重庆公积金管理中心为扩大住房公积金制度受益群体,将灵活就业人员群体纳入了住房公积金制度保障范围。其中,灵活就业人员是指年满16周岁未达法定退休年龄,以个体经营、非全日制、新业态方式灵活就业的完全民事行为能力人。面对灵活就业人员这一研究空白群体,如何获取有效灵活就业人员缴存公积金的影响因素就变得尤为重要。因此,如何科学地挖掘灵活就业人员海量数据,如何帮助住房公积金中心掌握灵活就业人员公积金缴存影响因素,成为了重庆住房公积金管理中心高度重视、并亟需深入探索的问题。
4.当前还没有任何一种方法可以提供有关的公积金影响因素信息,来辅助出台针对灵活就业人群的公积金政策,所以亟需这样一种方法能够准确的分析提取这些影响因素。


技术实现要素:

5.针对现有技术存在的上述问题,本发明要解决的技术问题是:如何构建一种能够分析公积金影响因素的分析方法。
6.为解决上述技术问题,本发明采用如下技术方案:
7.一种基于集成算法的缴存影响因素分析方法,包括如下步骤:
8.s100:构建分析方法模型,该模型包含两部分:第一部分用于计算灵活就业人员特征权重,第二部分用于计算灵活就业人员影响因素重要性排名;
9.s200:计算灵活人员特征权重,步骤如下:
10.s210:获取灵活就业人员信息,对每个灵活就业人员信息进行特征提取得到灵活就业人员特征向量v
user
和灵活就业人员实际缴存意愿wish
act
作为源数据;
11.通过v
user
定义灵活就业人员特征矩阵w
user
,通过wish
act
定义灵活就业人员实际缴存意愿标签矩阵其中,灵活就业人员特征矩阵w
user
定义如下:
[0012][0013]
其中,m表示灵活就业人员总数,x

z表示灵活就业人员的所有特征,每一行的特征代表一个灵活就业人员,是m*1维的,的每一行对应一个灵活就业人员的实际缴存意愿标签;
[0014]
s220:对w
user
和进行数据预处理,得到新的灵活就业人员特征矩阵w
user

和新的实际缴存意愿标签
[0015]
s230:使用随机森林算法对w
user

和计算得到n份特征权重列表
[0016]
使用极致梯度提升算法对w
user

和计算得到n份特征权重列表
[0017]
使用梯度提升树算法对w
user

和计算得到n份特征权重列表
[0018]
s300:将s230得到的进行集合,得到特征权重矩阵w
factor
,w
factor
的表达式如下:
[0019][0020]
其中,j表示特征权重列表数量,f1…fn
表示灵活就业人员的特征;
[0021]
s400:定义特征权重矩阵w
factor
为影响因素权重矩阵,并通过统计检验方法计算w
factor
得到影响因素重要性初始排名rank0;
[0022]
s500:通过cliff’s delta统计检验方法和wilcoxon秩和检验方法分别对初始排名rank0进行处理,得到使用cliff’s delta统计检验方法计算得到的影响因素重要性列表l2和使用wilcoxon秩和检验方法计算得到的影响因素重要性列表l1;
[0023]
s600:将l1和l2中重合的特征形成新的排名,得到影响因素重要性排名rank作为最终的排名结果。
[0024]
作为优选,所述s220中对w
user
和进行数据预处理的方法为smote方法。
[0025]
原数据集中愿意缴存和不愿意缴存的灵活就业人员比例不平衡,不平衡的数据集会影响后续集成算法的分类效果和输出特征重要性排名的可靠性。smote算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中的类别不再严重失衡,进而降低了后续算法的过拟合风险。
[0026]
作为优选,所述s230中使用随机森林算法时使用bootstraping方法进行样本采样,其中的损失函数采用基尼指数函数。
[0027]
这里的算法使用的是集成算法,核心思想都是将弱分类器融合之后形成的一个强分类器,都有着很好的泛化能力。
[0028]
作为优选,所述s400中计算影响因素重要性初始排名的rank0所使用的统计检验方法一为sk-esd统计检验方法。
[0029]
sk-esd统计检验方法在软件工程领域可以对随机森林模型等产生的最具影响力的变量进行排序和识别。步就可以利用sk-esd统计检验方法对所有的权重列表进行融合,得到一个统一的特征权重列表,也就是影响因素重要性初始排名。
[0030]
作为优选,所述s500中使用cliff’s delta统计检验方法和wilcoxon秩和检验方法计算影响因素重要性排名的具体步骤如下:
[0031]
s510:对灵活就业人员特征矩阵中每一个特征向量f={x1,x2,

,xm}进行分类,对任一特征f,得到有缴存意愿的灵活就业人员特征权重向量和无缴存意愿的特征向量其中,m1+m2=m,x、z均表示灵活就业人员的特征;
[0032]
s520:使用wilcoxon秩和检验计算每个特征的p-value值,当p-value《0.05时,表示差异显著不同,予以保留,得到包含n1个特征的影响因素列表l1;相反则表示差异不显著,予以去除;
[0033]
s530:定义cliff’s delta效应值δ,具体表达式如下:
[0034][0035]
其中,n表示特征总数;
[0036]
s530:计算每个特征的δ值,取靠近
±
1的前n1个δ值对应的特征组成列表l2。
[0037]
p-value和cliff’s delta效应大小的值可以帮助比较两个样本的差异大小,在此也就是比较基于该特征,愿意缴存的和不愿意缴存的灵活就业人员的差异大小,若差异显著,则说明该特征对于灵活就业人员的缴存意愿影响程度大,反之,则影响程度小。去除掉影响程度小的特征是对初始排名的再一次验证清洗。
[0038]
相对于现有技术,本发明至少具有如下优点:
[0039]
1.本发明的机制是先利用了三种不同机制的集成算法得到了三类特征权重列表,在通过不同的统计检验方法输出最终的影响因素重要性排名。
[0040]
2.本发明首次在公积金行业探索面向灵活就业人员的缴存影响因素分析的解决方案,可为公积金中心未来更多影响因素分析研究提供研究思路与方法,在公积金行业具备探索示范作用。
[0041]
3.本发明能够为公积金中心的灵活就业人员公积金缴存业务的推进和相关政策的制定提供建设性意见,提高缴存转化率。
附图说明
[0042]
图1为本发明的整体框架。
具体实施方式
[0043]
下面对本发明作进一步详细说明。
[0044]
本发明描述了一种灵活就业人员住房公积金缴存影响因素分析方法。该发明的核心思想是通过将灵活就业人员的特征和缴存意愿输入到模型中,并自动生成缴存影响因素排名,从而实现对灵活就业人员的相关影响因素分析。该发明由输出特征权重和计算影响因素重要性排名两个部分构成。第一部分由处理类别不平衡的组件和三个集成算法组件构成,用于计算特征权重。第二部分由基于sk-esd统计检验方法以及基于cliff’s delta统计
检验方法的组件构成,用于计算影响因素重要性排名。
[0045]
具体来说,在第一部分中,给定灵活就业人员的特征数据w
user
及意愿数据处理数据类别不平衡的组件首先更新优化特征数据w
user

和意愿数据然后运用十折交叉验证法划分数据集,并分别输入到随机森林算法、极致梯度提升算法以及梯度提升树算法组件中进行训练,分别得到各自的特征权重列表在第二部分中,将三种集成算法组件输出的特征权重列表进行了集合得到特征权重矩阵w
factor
,最后运用sk-esd统计检验方法和cliff’s delta统计检验方法以得到最终的影响因素重要性排名rank。
[0046]
参见图1,一种基于集成算法的缴存影响因素分析方法,包括如下步骤:
[0047]
s100:构建分析方法模型,该模型包含两部分:第一部分用于计算灵活就业人员特征权重,第二部分用于计算灵活就业人员影响因素重要性排名;
[0048]
s200:计算灵活人员特征权重,步骤如下:
[0049]
s210:获取灵活就业人员信息,对每个灵活就业人员信息进行特征提取得到灵活就业人员特征向量v
user
和灵活就业人员实际缴存意愿wish
act
作为源数据;对于灵活就业人员实际缴存意愿wish
act
,当wish
act
=1时,表示该灵活就业人员愿意缴存住房公积金,当wish
act
=2时,表示该灵活就业人员不愿意缴存住房公积金。
[0050]
通过v
user
定义灵活就业人员特征矩阵w
user
,通过wish
act
定义灵活就业人员实际缴存意愿标签矩阵其中,灵活就业人员特征矩阵w
user
定义如下:
[0051][0052]
其中,m表示灵活就业人员总数,x

z表示灵活就业人员的所有特征,每一行的特征代表一个灵活就业人员,是m*1维的,的每一行对应一个灵活就业人员的实际缴存意愿标签;
[0053]
s220:对w
user
和进行数据预处理,得到新的灵活就业人员特征矩阵w
user

和新的实际缴存意愿标签
[0054]
所述s220中对w
user
和进行数据预处理的方法为smote方法。
[0055]
s230:使用随机森林算法对w
user

和计算得到n份特征权重列表随机森林算法为现有技术。
[0056]
使用极致梯度提升算法对w
user

和计算得到n份特征权重列表极致梯度提升算法为现有技术。
[0057]
使用梯度提升树算法对w
user

和计算得到n份特征权重列表梯度提升树算法为现有技术。
[0058]
所述s230中使用随机森林算法时使用bootstraping方法进行样本采样,其中的损失函数采用基尼指数函数。
[0059]
三种算法的集成方式不同,有着不同的侧重。使用随机森林算法时,可能有些数据在每一次抽样的时候均没有被抽中,那么这些数据所携带的信息就没有被考虑到,但极致梯度提升法每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化,而权值是根据上一轮的分类结果进行调整。因此本方法将三种集成算法的结果融合在一起作为中间结果再进行后续的计算,而不是只考虑其中的一种算法。
[0060]
s300:将s230得到的进行集合,得到特征权重矩阵w
factor
,w
factor
的表达式如下:
[0061][0062]
其中,j表示特征权重列表数量,f1…fn
表示灵活就业人员的特征;
[0063]
s400:定义特征权重矩阵w
factor
为影响因素权重矩阵,并通过统计检验方法计算w
factor
得到影响因素重要性初始排名rank0;
[0064]
所述s400中计算影响因素重要性初始排名的rank0所使用的统计检验方法一为sk-esd统计检验方法。
[0065]
s500:通过cliff’s delta统计检验方法和wilcoxon秩和检验方法分别对初始排名rank0进行处理,得到使用cliff’s delta统计检验方法计算得到的影响因素重要性列表l2和使用wilcoxon秩和检验方法计算得到的影响因素重要性列表l1;
[0066]
所述s500中使用cliff’s delta统计检验方法和wilcoxon秩和检验方法计算影响因素重要性排名的具体步骤如下:
[0067]
s510:对灵活就业人员特征矩阵中每一个特征向量f={x1,x2,

,xm}进行分类,对任一特征f,得到有缴存意愿的灵活就业人员特征权重向量和无缴存意愿的特征向量其中,m1+m2=m,x、z均表示灵活就业人员的特征;
[0068]
s520:使用wilcoxon秩和检验计算每个特征的p-value值,当p-value《0.05时,表示差异显著不同,予以保留,得到包含n1个特征的影响因素列表l1;相反则表示差异不显著,予以去除;这里使用p-value进行特征筛选的,δ值的结果和p-value的结果是一致的,留下的是δ最接近
±
1的值。
[0069]
s530:定义cliff’s delta效应值δ,具体表达式如下:
[0070][0071]
其中,n表示特征总数;δ取值范围为-1≤δ≤1,接近
±
1的值表示两个样本之间没有重叠,而接近零的值表示两个样本之间有很多重叠。
[0072]
s530:计算每个特征的δ值,取靠近
±
1的前n1个δ值对应的特征组成列表l2。
[0073]
s600:将l1和l2中重合的特征形成新的排名,得到影响因素重要性排名rank作为最终的排名结果。
[0074]
实验数据
[0075]
本发明所使用的数据来自重庆市公积金管理中心调研的8427份纸质问卷,即“重庆市灵活就业人员自愿缴存住房公积金调查问卷”。该问卷的调查对象是重庆市灵活就业人员,调查形式包含三十道单选题,两道多选题和一道问答题,调查内容包含灵活就业人员的三类信息,分别是“基本情况与收入消费”,“居住情况即租购意愿”,以及“自愿缴存住房公积金意愿”。8427份纸质问卷即8427名灵活就业人员信息,其中的32道选择题就是本发明的数据来源以及特征来源。
[0076]
在三个集成算法的训练过程中,使用了十折交叉验证法划分数据集进行模型训练,再在最优参数配置下,得到了不同算法在测试集上的表现。经过模型训练,不同算法在最优参数下在测试数据集上的表现如下,可以看出三种集成算法的precision都达到了90%以上,recall达到了88%以上,都达到了非常好的效果,也验证了输出的特征权重列表的有效性。
[0077]
表1三种集成算法效果
[0078][0079]
本发明将上述三个集成得到的特征重要性排名集合后,运用sk_esd统计检验方法得到的特征重要性综合排名结果以及影响程度如表2所示:
[0080]
表2特征重要性排名及影响程度
[0081]
[0082][0083]
本发明最后对各个特征进行了cliff’s delta统计检验,结果如下表所示。p值《0.05,差异显著不同,cliff’s delta绝对值越接近1,差异越大。可以发现其中“学历”,“购房地点倾向”,“目前的工作/学习地点”,“您及配偶近一年月均收入”,“个人近一年月均收入”,“住房所在地”,“家庭债务”,“家庭月自由支配金额”和“打算购买首套住房时间”等特征差异显著不同,并在表3中以“*”进行标识。
[0084]
表3显著差异特征
[0085][0086][0087]
因此,最终得到影响因素重要性排名见表4:
[0088]
表4影响因素重要性排名
[0089]
排名影响因素1学历2购房地点倾向3目前的工作/学习地点4年龄段5您及配偶近1年月均收入6个人近一年月均收入7住房所在地8家庭债务9家庭月自由支配金额10打算购买首套住房时间
[0090]
简而言之,实验结果证明,本发明提出的基于集成方法的缴存影响因素分析方法能够得到有效的影响因素重要性排名。同时,本发明可以运用至实际的工作场景,也可进行灵活就业人员缴存方式影响因素分析,为重庆公积金中心智能化发展做出贡献。
[0091]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1