本发明属于财税管控领域,具体涉及一种基于企业财税数据的金融风控方法。
背景技术:
1、现如今,通过识别和提取财税报表文件中的数据而得到金融统计数据的技术已经非常完善,但是这一技术在面对大体量数据的情况下,会消耗大量的建模时间和计算机资源,且得到的统计数据与真实数据会存在一定的误差性;并且现有的企业财税风控模型,数据来源是通过对税票报表文件进行识别与数据提取,以得到报表文件中用于企业纳税的申报数据,这部分数据一般要等到报表公开才能获取到,因此存在一定的滞后性,且准确度较低。其原因在于构建风控模型的过程中,并未从多个维度衍生特征进行机器学习模型的训练,从而在筛选入模特征时容易丢失某些维度的特征,最终使得模型无法从更加全面的角度评估风险。并且上述技术也并未考虑行业特征在模型中的差异性,用同一模型对所有样本进行评价时会出现行业差异带来的模型准确度降低等问题。
2、因此,需要一种分多个维度进行特征筛选、考虑不同行业特性的机器学习模型来更加全面的评估企业财税数据中存在的金融风险。
技术实现思路
1、为了解决上述技术问题,本申请设计了一种基于企业财税数据的金融风控方法,以求从全流程上构建机器学习与业务经验相结合的模型,从而全面挖掘企业财税数据中存在的金融风险。
2、一种基于企业财税数据的金融风控方法,包括:
3、步骤s1、通过协议接口接收来自企业的财税结构化数据;针对所述财税结构化数据进行数据解析;
4、步骤s2、针对解析后的数据进行特征衍生,获取基础信息维度衍生特征数据、经营规模维度衍生特征数据、经营稳定性维度衍生特征数据、经营成长性维度衍生特征数据、履约历史维度衍生特征数据、财务信息维度衍生特征数据;
5、步骤s3、按照国民经济行业分类将样本数据分成农、林、牧、渔业,制造业&采矿业,电力、热力、燃气及水生产和供应业,交通运输、仓储和邮政业,住宿和餐饮业,批发和零售业,信息传输&科学研究,建筑业,房地产业,其他,共10个行业,获取各个行业的财税结构化数据作为样本数据,并分行业进行特征解析,从基础信息维度、经营规模维度、经营稳定性维度、经营成长性维度、履约历史维度、财务信息维度这6个维度来衍生样本特征数据;并与其对应的标签y进行拼接,以构建行业特定的训练集;
6、步骤s4、针对衍生样本特征数据,使用卡方分箱的方法进行分组,计算iv值、绘制iv图并计算各分箱对应的坏账率;
7、筛选出分箱数较少、且各分箱对应的坏账率区别较大的衍生样本特征数据作为逻辑回归模型的前置规则,这些规则的阈值设置则分别根据各自行业分箱对应的阈值来决定;
8、步骤s5、根据这10个行业的衍生样本特征数据,结合iv图和业务逻辑,从剩下的衍生样本特征数据中逐步筛选入模特征,构建逻辑回归模型,并转化成各行业的评分卡模型;
9、步骤s6、用各行业的评分卡模型在各自行业样本中进行打分,并根据模型分数进行模型评估和调整,确保命中规则的样本平均分数低于未命中规则的样本平均分数,获取各行业最终模型;
10、步骤s7、将各行业最终模型评估的分数按照相同的样本占比划分成a、b、c、d、e五个等级,并通过调整各行业评分卡模型将的五个等级对应的分数阈值进行拉齐,方便不同行业最终的评分比较。
11、优选地,所述财税结构化数据包括:纳税人状态、企业注册时间、法定代表人信息、企业纳税申报表、欠税信息表、企业资产负债表、利润表、现金流量表以及其他财税数据。
12、优选地,所述标签y包括正例以及反例。
13、优选地,所述iv值的计算方法为:
14、
15、其中yi为当前组的正例数量,ys为全局正例数量,ni为当前组的反例数量,ns为全局反例数量。
16、优选地,所述坏账率br=ni/ns。
17、优选地,所述iv图的绘制方法为:以分组编号为横轴,每个分组的数量和坏账率为双纵轴进行绘制。
18、优选地,所述步骤s5中,剩下的衍生样本特征数据中逐步筛选入模特征的方法为:结合iv值和特征趋势来进行二分类模型中的特征筛选,筛选出iv值大于0.2、特征趋势较好的前20个衍生样本特征作为入模特征。
19、本申请的优点和效果如下:
20、本申请设计的一种基于企业财税数据的金融风控方法,通过协议接口接收来自企业与税务和财务相关的结构化数据,然后针对所述结构化数据进行数据解析。在模型构建方面,现有技术未针对不同行业特性进行分行业、分维度训练模型,本发明则将样本划分为10个不同各行业,从6个不同维度全面挖掘财税数据中的金融风险。在构建模型过程中,本发明结合iv图趋势和业务经验相结合的方法筛选出规则特征和入模特征,规则特征通过设置减分的方式,将具有严重风险的企业识别出来。最后将不同行业的评分卡模型的分数等级区间拉齐至同一水平,方便不同行业最终的评分比较,从而全面挖掘企业财税数据中存在的金融风险。
21、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,从而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下以本申请的较佳实施例并配合附图详细说明如后。
22、根据下文结合附图对本申请具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述及其他目的、优点和特征。
1.一种基于企业财税数据的金融风控方法,其特征在于,包括:
2.根据权利要求1所述的一种基于企业财税数据的金融风控方法,其特征在于,所述财税结构化数据包括:纳税人状态、企业注册时间、法定代表人信息、企业纳税申报表、欠税信息表、企业资产负债表、利润表、现金流量表以及其他财税数据。
3.根据权利要求1所述的一种基于企业财税数据的金融风控方法,其特征在于,所述标签y包括正例以及反例。
4.根据权利要求1所述的一种基于企业财税数据的金融风控方法,其特征在于,所述iv值的计算方法为:
5.根据权利要求1所述的一种基于企业财税数据的金融风控方法,其特征在于,所述坏账率br=ni/ns。
6.根据权利要求1所述的一种基于企业财税数据的金融风控方法,其特征在于,所述iv图的绘制方法为:以分组编号为横轴,每个分组的数量和坏账率为双纵轴进行绘制。
7.根据权利要求1所述的一种基于企业财税数据的金融风控方法,其特征在于,所述步骤s5中,剩下的衍生样本特征数据中逐步筛选入模特征的方法为:结合iv值和特征趋势来进行二分类模型中的特征筛选,筛选出iv值大于0.2、特征趋势较好的前20个衍生样本特征作为入模特征。