本发明涉及机器学习,具体提供一种基于机器学习的空壳企业模型识别方法及装置。
背景技术:
1、空壳企业通常在资金(资产)、经营场地、企业人员、经营活动和经营资质等方面具有区别于正常企业的特征,但这些特征均不能作为判断空壳企业的充分条件。识别空壳企业需要综合考虑各维度数据并结合企业形态特征加以判断。
2、传统的空壳企业识别模型属于定性分析模型,依赖人工经验,常使用指标峰值法,指标设置的内在联系性不强,结果数据容易受参数设置影响,当人工经验不足时有一定局限性。对个体样本进行风险画像,但对样本间的关联信息没有进一步延展分析,不会一并抓取其他样本的风险,属于孤立森林模式。以税种、行业为维度进行搭建,多数指标仅是对原始数据的初级加工比对,相对比较单一。
技术实现思路
1、本发明是针对上述现有技术的不足,提供一种实用性强的基于机器学习的空壳企业模型识别方法。
2、本发明进一步的技术任务是提供一种设计合理,安全适用的基于机器学习的空壳企业模型识别装置。
3、本发明解决其技术问题所采用的技术方案是:
4、一种基于机器学习的空壳企业模型识别方法,具体步骤如下:
5、s1、根据空壳企业风险类型,分类整理不同类型、不同维度的形态特征和风险点;
6、s2、利用税务发票数据,构建六员循环数学模型;
7、s3、对黑样本进行穿透验证;
8、s4、根据特色六项图谱指标和辅助指标,进行风险染色,设计指标权重;
9、s5、对特征数据进行数据预处理;
10、s6、对特征库指标进行相关性分析;
11、s7、根据完成训练结果,对黑样本团伙进行验证,依据验证结果进行模型修正。
12、进一步的,在步骤s1中,以税务稽查审理案件中的空壳企业作为黑样本的参考依据,对经营特点、生命周期、人员穿透循环情况、同mac地址开票情况的特点进行归集,形成完整疑点清单。
13、进一步的,在步骤s2中,构建六员循环数学模型时,筛选出六员分析数据,设计六员循环团伙、六员连接广度、六员分布频率、六员分布密度、密度占比和重点人数六项图谱指标,绘制六员团伙n循环结构图谱,生成六员结果表;
14、根据重点人数、密度和广度复合型指标将黑样本划分高中低三类,初步建立四分类样本。
15、进一步的,在步骤s3中,对黑样本进行穿透验证时,其中存在六员交叉情形的,使用六员循环的排列组合算法成功抓取循环团伙,取团伙企业所在地区的发票数据,绘制发票流向关系图谱进一步验证风险等级;
16、开发4个辅助指标,4个辅助指标为入库税款显著偏低、无房土入库、无动力发票和无设备采购发票,对所述黑样本进行扫描分析,寻找共性的典型指标,探索供机器学习的特征值。
17、进一步的,在步骤s4中,根据六项图谱指标和辅助指标,进行风险染色,设计指标权重,根据指标分值和权重,对黑样本进行赋分,根据得分情况抓取四分类团伙样本,分别为:
18、黑+++为高风险;黑++为中风险;黑+为低风险;白为无风险。
19、进一步的,在步骤s5中,对特征数据进行数据预处理,对于黑白样本不均衡的问题,通过smote算法生成新的样本来均衡正负样本的比例。
20、进一步的,在步骤s6中,对特征库指标进行相关性分析,筛选出优质特征指标供于空壳企业识别模型的训练;
21、相关性分析作为一种用于量化特征之间关系的方法,计算出两个变量之间线性相关程度,删减掉相关性高的其中一个;
22、特征重要性分析使用随机森林模型拟合数据,会对数据属性列,有一个变量重要性的度量,在sklearn中即为随机森林模型的 feature_importances_ 参数,这个参数返回一个numpy数组对象,对应为随机森林模型认为训练特征的重要程度,float类型,和为1,特征重要性度数组中,数值越大的属性列对于预测的准确性更加重要;
23、特证贡献度分析是对单个样本的特征重要性进行分析,通过shap值选择对模型预测更为重要的特征。
24、进一步的,在步骤s7中,根据完成训练结果,对黑样本团伙进行验证,依据验证结果进行模型修正;
25、后续定期通过模型扫描所有企业数据,实现空壳企业风险识别。通过空壳企业模型计算空壳企业的概率值并输出风险企业清单,一并展示风险企业的基本信息及模型各项特征值,并对新产生的空壳企业纳入黑样本库。
26、一种基于机器学习的空壳企业模型识别装置,包括:至少一个存储器和至少一个处理器;
27、所述至少一个存储器,用于存储机器可读程序;
28、所述至少一个处理器,用于调用所述机器可读程序,执行一种基于机器学习的空壳企业模型识别方法。
29、本发明的一种基于机器学习的空壳企业模型识别方法及装置和现有技术相比,具有以下突出的有益效果:
30、本发明以智能识别空壳团伙为目标,以机器算法模型为驱动力,以六员循环数学模型为发力点,绘制六员团伙n循环结构图谱,辅助发票流向图谱,形成知识图谱风险雷达图,根据特色核心指标和辅助指标,进行风险染色,抓取四分类(黑+++,黑++,黑+,白)样本团伙。
31、采用机器学习的方法训练和评估随机森林模型,定时自动扫描所有企业数据,即可对尚未实质发生违法行为的空壳企业进行阻断性监管,又可以对正在实施的违法行为的空壳企业进行靶向定位,实现精准监管,将识别结果传递给相关部门,共同打击空壳企业的违法行为。
1.一种基于机器学习的空壳企业模型识别方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s1中,以税务稽查审理案件中的空壳企业作为黑样本的参考依据,对经营特点、生命周期、人员穿透循环情况、同mac地址开票情况的特点进行归集,形成完整疑点清单。
3.根据权利要求2所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s2中,构建六员循环数学模型时,筛选出六员分析数据,设计六员循环团伙、六员连接广度、六员分布频率、六员分布密度、密度占比和重点人数六项图谱指标,绘制六员团伙n循环结构图谱,生成六员结果表;
4.根据权利要求3所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s3中,对黑样本进行穿透验证时,其中存在六员交叉情形的,使用六员循环的排列组合算法成功抓取循环团伙,取团伙企业所在地区的发票数据,绘制发票流向关系图谱进一步验证风险等级;
5.根据权利要求4所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s4中,根据六项图谱指标和辅助指标,进行风险染色,设计指标权重,根据指标分值和权重,对黑样本进行赋分,根据得分情况抓取四分类团伙样本,分别为:
6.根据权利要求5所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s5中,对特征数据进行数据预处理,对于黑白样本不均衡的问题,通过smote算法生成新的样本来均衡正负样本的比例。
7.根据权利要求6所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s6中,对特征库指标进行相关性分析,筛选出优质特征指标供于空壳企业识别模型的训练;
8.根据权利要求7所述的一种基于机器学习的空壳企业模型识别方法,其特征在于,在步骤s7中,根据完成训练结果,对黑样本团伙进行验证,依据验证结果进行模型修正;
9.一种基于机器学习的空壳企业模型识别装置,其特征在于,包括:至少一个存储器和至少一个处理器;