本发明涉及企业风险管控领域,尤其涉及一种企业风险预估方法及装置。
背景技术:
目前,企业运营过程中,风险预估主要依据企业风险分析师或者管理者,依据以往工作经验以及市场环境等因素进行主观判断。这种方式主要依赖于分析人员的个人经验和能力,主观因素较大、标准不统一,且大多数企业并不具备这样的人员配备,因此对市场洞察力和企业风险预估能力不足。
在企业风险判断中,如果能够基于企业历史的数据,形成统一的规则实现对企业未来风险的预估,在金融行业将会形成一个非常重要的研究领域,因为这不仅有利于帮助企业衡量风险,在企业做出重大决定作为参考因素,还有利于降低企业人工成本。例如对企业风险的预判能够降低金融行业(比如银行)的贷款回收风险,或者对申请贷款的企业进行风险定价。
技术实现要素:
本发明提供的一种企业风险预估方法及装置,主要解决的技术问题是:如何对企业风险实现自动预估。
为解决上述技术问题,本发明提供一种企业风险预估方法,包括:
获取企业的基础数据,所述基础数据包括工商注册基本信息、行业信息、法务信息、变更信息以及与所述企业存在关联关系的关联企业的法务信息;
基于所述基础数据生成衍生数据;
将所述基础数据以及所述衍生数据进行进行结构化处理,得到结构化的综合数据;
读取所述结构化的综合数据,并对所述结构化的综合数据进行缺失值处理以及异常值处理,将进行缺失值处理以及异常值处理后的综合数据作为训练集;
利用机器学习分类算法,对所述训练集进行训练得到预估模型;
在预估阶段,获取待预估企业的基础数据,将所述待预估企业的基础数据输入到所述预估模型,得到所述待预估企业的风险概率。
可选的,所述衍生数据包括如下至少一种:环比、相对极差、变异系数、半对数化。
可选的,所述机器学习分类算法包括决策树、逻辑回归。
可选的,所述工商注册基本信息包括如下至少一种:注册号、注册名称、类型、法定代表人、注册资本、住所、营业期限自、营业期限至、核准日期、经营范围、经营状态、股东信息;
所述法务信息包括如下至少一种:失信被执行、裁判文书、执行;
所述变更信息包括如下至少一种:法定代表人的变更、注册基本的变更、经营范围的变更、股东的变更。
可选的,所述关联关系包括如下至少一种:
所述关联企业与所述企业之间,其中一方持有另一方的股份;
所述关联企业与所述企业两者同为第三者所拥有或控制;
所述关联企业与所述企业之间,其中一方的负债至少部分由另一方承担;
所述关联企业与所述企业之间,法定代表人或者董事或者至少部分股东相同;
所述关联企业与所述企业之间,其中一方的生产或销售由另一方控制。
本发明还提供一种企业风险预估装置,包括:
模型建立模块和风险预估模块;
所述模型建立模块包括:
第一获取子模块,用于获取企业的基础数据,所述基础数据包括工商注册基本信息、行业信息、法务信息、变更信息以及与所述企业存在关联关系的关联企业的法务信息;
衍生子模块,用于基于所述基础数据生成衍生数据;
结构化子模块,用于将所述基础数据以及所述衍生数据进行进行结构化处理,得到结构化的综合数据;
数据处理子模块,用于读取所述结构化的综合数据,并对所述结构化的综合数据进行缺失值处理以及异常值处理,将进行缺失值处理以及异常值处理后的综合数据作为训练集;
训练子模块,用于利用机器学习分类算法,对所述训练集进行训练得到预估模型;
所述风险预估模块包括:
第二获取子模块,用于在预估阶段,获取待预估企业的基础数据;
风险预估子模块,用于将所述待预估企业的基础数据输入到所述预估模型,得到所述待预估企业的风险概率。
可选的,所述衍生数据包括如下至少一种:环比、相对极差、变异系数、半对数化。
可选的,所述机器学习分类算法包括决策树、逻辑回归。
可选的,所述工商注册基本信息包括如下至少一种:注册号、注册名称、类型、法定代表人、注册资本、住所、营业期限自、营业期限至、核准日期、经营范围、经营状态、股东信息;
所述法务信息包括如下至少一种:失信被执行、裁判文书、执行;
所述变更信息包括如下至少一种:法定代表人的变更、注册基本的变更、经营范围的变更、股东的变更。
可选的,所述关联关系包括如下至少一种:
所述关联企业与所述企业之间,其中一方持有另一方的股份;
所述关联企业与所述企业两者同为第三者所拥有或控制;
所述关联企业与所述企业之间,其中一方的负债至少部分由另一方承担;
所述关联企业与所述企业之间,法定代表人或者董事或者至少部分股东相同;
所述关联企业与所述企业之间,其中一方的生产或销售由另一方控制。
有益效果:
根据本发明提供的一种企业风险预估方法及装置,通过获取企业的基础数据,基础数据包括工商注册基本信息、行业信息、法务信息、变更信息以及与企业存在关联关系的关联企业的法务信息;基于基础数据生成衍生数据;将基础数据以及衍生数据进行进行结构化处理,得到结构化的综合数据;读取结构化的综合数据,并对结构化的综合数据进行缺失值处理以及异常值处理,将进行缺失值处理以及异常值处理后的综合数据作为训练集;利用机器学习分类算法,对训练集进行训练得到预估模型;在预估阶段,获取待预估企业的基础数据,将待预估企业的基础数据输入到预估模型,得到待预估企业的风险概率。同时结合了企业基础数据以及衍生数据,实现了企业风险的自动预估,预估准确性高,根据实际测试,准确率高达82%。在企业做出重大决定之前作为参考因素,帮助企业衡量、规避风险,提升企业的生存能力。
附图说明
图1为本发明实施例一的企业风险预估方法流程示意图;
图2为本发明实施例二的企业风险预估装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
请参见图1,图1为本实施例的企业风险预估方法流程示意图,该方法包括:
s101、获取企业的基础数据,基础数据包括工商注册基本信息、行业信息、法务信息、变更信息以及与企业存在关联关系的关联企业的法务信息。
工商注册基本信息包括如下至少一种:注册号、注册名称、类型、法定代表人、注册资本、住所、营业期限自、营业期限至、核准日期、经营范围、经营状态、股东信息。
行业信息可以分为如下多类:(1)党政机关、社会团体;(2)新闻、出版、科教、文体;(3)金融、保险、开发、涉外;(4)广告、会展、商务、咨询;(5)信息产业;(6)交通、物流、交运设备;(7)城建房产、水电煤、建筑建材;(8)工业;(9)轻工业、手工业、日用品;(10)批零、外贸、物资调剂、市场;(11)旅游、餐饮、娱乐、休闲;(12)医疗、药品、器械、保健品;(13)日常服务;(14)农业、水利、采矿;(15)数据库专用;(16)新闻、出版、科研、教育;(17)旅游、餐饮、娱乐、休闲、购物;(18)家具、生活用品、食品;(19)钟表眼镜、工艺品、礼品;(20)医疗保健、社会福利;(21)金融、保险、证券、投资;(22)广告、会展、商务办公、咨询业;(23)通信、邮政、计算机、网络;(24)交通物流、运输设备;(25)城建、房产、建材、装潢;(26)贸易、批发、市场;(27)纺织、皮革、服装、鞋帽;(28)造纸、纸品、印刷、包装;(29)石油化工、橡胶塑料;(30)电子电器、仪器仪表;(31)机械设备、通用零部件;(32)冶金冶炼、金属及非金属制品;(33)农林牧渔。
法务信息包括如下至少一种:失信被执行、裁判文书、执行。
变更信息包括如下至少一种:法定代表人的变更、注册基本的变更、经营范围的变更、股东的变更。
关联关系包括如下至少一种:
1)关联企业与企业之间,其中一方持有另一方的股份。
2)关联企业与所述企业两者同为第三者所拥有或控制。
3)关联企业与所述企业之间,其中一方的负债至少部分由另一方承担。
4)关联企业与所述企业之间,法定代表人或者董事或者至少部分股东相同。
5)关联企业与所述企业之间,其中一方的生产或销售由另一方控制。
s102、基于基础数据生成衍生数据。
数据加工过程中,除了基础数据,还根据基础数据与业务理论、统计方法结合生成衍生数据。其中,连续型数据主要衍生方法有与趋势类相关的方法、与波动类相关方法、与去量纲相关的方法等。离散型数据主要衍生方法是取频数的占比后,变成连续型数据进行衍生,以及互补数据交叉合并等。
其中,与趋势类相关的衍生方法包括但不限于环比、同比、定基比。
与波动类相关方法包括但不限于方差、标准差、变异系数、相对极差等。
与去量纲相关的方法包括但不限于半对数化、半反三角函数化、标准化、变异系数、标准差等。
衍生数据包括如下至少一种:环比、相对极差、变异系数、半对数化。
例如,环比,针对单个公司,上半周期的数量与下半周期的数量之比,具体形式如下:
相对极差,针对单个公司,同一周期内最大值与最小值之差比上均值,具体形式如下:
变异系数,针对单个公司,同一周期内标准差和均值之比,具体形式如下:
半对数化,针对全部公司,对基础的连续型数据以自然数e为底数做对数,具体形式如下:
y=lnx,(x周期内每个季度/月/周的数量)
变异系数与环比交叉合并,针对单个公司,将变异系数和环比按实际情况离散化(有监督或无监督)以后,直接合并拼接成新的数据。
s103、将基础数据以及衍生数据进行进行结构化处理,得到结构化的综合数据。
对基础数据以及衍生数据进行结构化处理的方式可以采用现有任意方式,本实施例对此不做限制。
s104、读取结构化的综合数据,并对结构化的综合数据进行缺失值处理以及异常值处理,将进行缺失值处理以及异常值处理后的综合数据作为训练集。
s105、利用机器学习分类算法,对训练集进行训练得到预估模型。
其中,机器学习分类算法可以采用决策树、逻辑回归等算法。当然,也可以采用其他算法训练预测模型。
s106、在预估阶段,获取待预估企业的基础数据,将待预估企业的基础数据输入到预估模型,得到待预估企业的风险概率。
最终的结果表明,该预估模型在基于历史3年数据预测未来3个月失信风险上效果最佳,模型预测准确率为82%。
在预估模型建立完成后,当需要对相应的企业(待预测企业)进行风险预估时,可以获取待预估企业的基础数据,包括但不限于工商注册基本信息、行业信息、法务信息、变更信息以及与该待预估企业存在关联关系的关联企业的法务信息等,将该待预估企业的基础数据输入到建立好的预估模型中,即可得到该待预估企业的风险概率。
例如,预估模型为决策树模型,将待预估企业的基础数据输入到该决策树模型中,按照各个节点依次进行判断,确定该待预测企业最终所落入哪一个子节点中,该子节点的风险概率,即为该待预估企业的风险概率。
本发明提供的企业风险预估方法通过获取企业的基础数据,基础数据包括工商注册基本信息、行业信息、法务信息、变更信息以及与企业存在关联关系的关联企业的法务信息;基于基础数据生成衍生数据;将基础数据以及衍生数据进行进行结构化处理,得到结构化的综合数据;读取结构化的综合数据,并对结构化的综合数据进行缺失值处理以及异常值处理,将进行缺失值处理以及异常值处理后的综合数据作为训练集;利用机器学习分类算法,对训练集进行训练得到预估模型;在预估阶段,获取待预估企业的基础数据,将待预估企业的基础数据输入到预估模型,得到待预估企业的风险概率。同时结合了企业基础数据以及衍生数据,实现了企业风险的自动预估,预估准确性高,根据实际测试,准确率高达82%。在企业做出重大决定之前作为参考因素,帮助企业衡量、规避风险,提升企业的生存能力。
实施例二:
本实施例在实施例一的基础上,提供一种企业风险预估装置,用于实现上述实施例一所述的企业风险预估方法的步骤,请参见图2,图2为本实施例提供的一种企业风险预估装置的结构示意图,该企业风险预估装置20包括模型建立模块210和风险预估模块220;
所述模型建立模块210包括:
第一获取子模块211,用于获取企业的基础数据,基础数据包括工商注册基本信息、行业信息、法务信息、变更信息以及与企业存在关联关系的关联企业的法务信息。
衍生子模块212,用于基于基础数据生成衍生数据;其中,衍生数据包括如下至少一种:环比、相对极差、变异系数、半对数化。
结构化子模块213,用于将基础数据以及衍生数据进行进行结构化处理,得到结构化的综合数据。
数据处理子模块214,用于读取结构化的综合数据,并对结构化的综合数据进行缺失值处理以及异常值处理,将进行缺失值处理以及异常值处理后的综合数据作为训练集。
训练子模块215,用于利用机器学习分类算法,对训练集进行训练得到预估模型。机器学习分类算法包括决策树、逻辑回归。
风险预估模块220包括:
第二获取子模块221,用于在预估阶段,获取待预估企业的基础数据;
风险预估子模块222,用于将待预估企业的基础数据输入到预估模型,得到待预估企业的风险概率。
显然,本领域的技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在计算机存储介质(rom/ram、磁碟、光盘)中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。