本发明属于人工智能,具体涉及一种基于xgboost算法的企业风险预警方法、装置、设备及存储介质。
背景技术:
1、企业在运营过程中,涉及的数据和指标非常庞大,通常包括多个维度,包括基本信息、管理水平、经营情况、财务信息、信用信息等多个维度的数据,上千项指标内容,主要包括工商、税务、社保、公积金、用水、用电、产品质检、海关进出口、金融机构的信贷记录等数据。这些指标有时是相互关联的,且可能有不同的表现形式(如数值型、类别型)。如何从这些多维度、多样本的数据中筛选出与企业发展最相关、最具影响力的关键指标,是数据分析中的一个核心问题。
2、特征选择是机器学习中提高模型性能的一个重要步骤,尤其在数据维度极高的场景中尤为重要。特征选择可以降低模型的复杂度,提升其泛化能力,减少计算成本。在企业分析中,指标筛选不仅有助于提升数据处理的效率,还能让决策者集中精力于最具影响力的指标上,从而提高业务洞察力。
3、目前,特征选择方法有多种,其中最常见的包括传统统计方法(包括:过滤法、包装法、嵌入法等)、基于模型的特征选择方法以及深度学习方法等。深度学习方法所涉及的模型需要大量的训练数据和计算资源,且训练过程中的可解释性较差,这使得其在一些实际应用中受到限制。深度学习可能适用于需要通过大量数据进行模式识别的场景,但对于企业中常见的结构化数据,深度学习的优势并不明显,且存在过拟合的风险。
4、上述这些方法存在人工干预过多、计算开销大、过拟合问题、缺乏可解释性、不适合处理特征交互等问题。
技术实现思路
1、为了解决上述技术问题,本发明提出了一种基于xgboost算法的企业风险预警方法、装置、设备及存储介质。
2、为了达到上述目的,本发明的技术方案如下:
3、第一方面,本发明公开一种基于xgboost算法的企业风险预警方法,包括:
4、步骤s1:采集企业指标数据,并对企业指标数据进行预处理;
5、步骤s2:基于基本信息、财务数据、经营数据、信用历史、外部环境中的若干个维度对企业指标数据进行特征提取和特征编码,并划分为训练集和测试集;
6、步骤s3:采用训练集对基于xgboost算法的企业风险预测模型进行训练;
7、在训练过程中,对各个特征的贡献度进行评估,计算每个特征的重要性,并根据特征重要性排序,识别最重要特征;
8、使用gridsearchcv或randomizedsearchcv进行超参数优化,然后调整并选择若干超参数组合进行迭代,最后使用最优超参数组合训练企业风险预测模型;
9、步骤s4:采用测试集对训练好的企业风险预测模型进行性能评估;
10、步骤s5:使用交叉验证对训练好的企业风险预测模型进行模型评估;
11、步骤s6:在部署阶段,采集对应最重要特征的企业指标数据,并将其输入训练好的企业风险预测模型,对企业风险进行预警。
12、在上述技术方案的基础上,还可做如下改进:
13、作为优选的方案,步骤s1包括:
14、步骤s1.1:采集企业指标数据;
15、步骤s1.2:对采集的企业指标数据中存在的缺失值进行填充处理;
16、步骤s1.3:对企业指标数据进行数据标准化和归一化处理。
17、作为优选的方案,在步骤s3中,在训练过程中,对各个特征的贡献度进行评估,计算每个特征的重要性,并根据特征重要性排序,识别最重要特征,并对最重要特征进行可视化展示。
18、作为优选的方案,超参数包括以下一种或多种:学习率、树的数量、树的深度、子采样比例、正则化参数、每棵树随机选择的特征比例、最大叶子节点数。
19、第二方面,本发明还公开一种基于xgboost算法的企业风险预警装置,包括:
20、采集模块,用于采集企业指标数据,并对企业指标数据进行预处理;
21、处理模块,用于基于基本信息、财务数据、经营数据、信用历史、外部环境中的若干个维度对企业指标数据进行特征提取和特征编码,并划分为训练集和测试集;
22、训练模块,用于采用训练集对基于xgboost算法的企业风险预测模型进行训练;
23、在训练过程中,对各个特征的贡献度进行评估,计算每个特征的重要性,并根据特征重要性排序,识别最重要特征;
24、使用gridsearchcv或randomizedsearchcv进行超参数优化,然后调整并选择若干超参数组合进行迭代,最后使用最优超参数组合训练企业风险预测模型;
25、测试模块,用于采用测试集对训练好的企业风险预测模型进行性能评估;
26、评估模块,用于使用交叉验证对训练好的企业风险预测模型进行模型评估;
27、部署模块,用于在部署阶段,采集对应最重要特征的企业指标数据,并将其输入训练好的企业风险预测模型,对企业风险进行预警。
28、作为优选的方案,采集模块包括:
29、采集单元,用于采集企业指标数据;
30、填充单元,用于对采集的企业指标数据中存在的缺失值进行填充处理;
31、处理单元,用于对企业指标数据进行数据标准化和归一化处理。
32、作为优选的方案,训练模块在执行训练过程中,对各个特征的贡献度进行评估,计算每个特征的重要性,并根据特征重要性排序,识别最重要特征,并对最重要特征进行可视化展示。
33、作为优选的方案,超参数包括以下一种或多种:学习率、树的数量、树的深度、子采样比例、正则化参数、每棵树随机选择的特征比例、最大叶子节点数。
34、第三方面,本发明还公开一种计算设备,包括:
35、一个或多个处理器;
36、存储器;
37、以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括上述任一种基于xgboost算法的企业风险预警方法的指令。
38、第四方面,本发明还公开一种存储介质,存储介质存储有一个或多个计算机可读的程序,一个或多个程序包括指令,指令适于由存储器加载并执行上述任一种基于xgboost算法的企业风险预警方法。
39、本发明公开一种基于xgboost算法的企业风险预警方法、装置、设备及存储介质,其具有以下有益效果:
40、第一,本发明利用xgboost在企业风险模型中进行特征筛选,不仅能够提高模型的准确性和稳定性,还能够减少计算复杂度。
41、第二,通过特征选择、超参数优化以及交叉验证等技术,构建高效且具有较强泛化能力的企业风险预测模型,帮助决策者做出更准确的风险预测和业务决策。
1.基于xgboost算法的企业风险预警方法,其特征在于,包括:
2.根据权利要求1所述的企业风险预警方法,其特征在于,所述步骤s1包括:
3.根据权利要求1所述的企业风险预警方法,其特征在于,在所述步骤s3中,在训练过程中,对各个特征的贡献度进行评估,计算每个特征的重要性,并根据特征重要性排序,识别最重要特征,并对最重要特征进行可视化展示。
4.根据权利要求1所述的企业风险预警方法,其特征在于,所述超参数包括以下一种或多种:学习率、树的数量、树的深度、子采样比例、正则化参数、每棵树随机选择的特征比例、最大叶子节点数。
5.基于xgboost算法的企业风险预警装置,其特征在于,包括:
6.根据权利要求5所述的企业风险预警装置,其特征在于,所述采集模块包括:
7.根据权利要求5所述的企业风险预警装置,其特征在于,所述训练模块在执行训练过程中,对各个特征的贡献度进行评估,计算每个特征的重要性,并根据特征重要性排序,识别最重要特征,并对最重要特征进行可视化展示。
8.根据权利要求5所述的企业风险预警装置,其特征在于,所述超参数包括以下一种或多种:学习率、树的数量、树的深度、子采样比例、正则化参数、每棵树随机选择的特征比例、最大叶子节点数。
9.计算设备,其特征在于,包括:
10.存储介质,其特征在于,所述存储介质存储有一个或多个计算机可读的程序,一个或多个程序包括指令,所述指令适于由存储器加载并执行上述权利要求1-8中任一所述的基于xgboost算法的企业风险预警方法。