本发明涉及风险监管领域,特别涉及一种平台综合风险预警系统。
背景技术:
近年来,互联网支付、网络借贷、股权众筹融资等互联网金融蓬勃发展。其中,网贷行业作为互联网金融的重要组成部分,市场规模,交易量近年来一直处于高速增长状态,与此同时,过去几年,平台倒闭与提现困难、违规经营的现象频有发生,引发各界对我国网贷市场安全性和稳定性的担忧,因此行业的迅猛发展对监管方提出更高的要求。
面对平台存在的风险,现有的平台风险预警和监管系统在实际运行中存在以下问题:
1、效率低:传统的风险管控方法依靠人力进行排查,面对网贷业务的海量交易数据显得无能为力;
2、风险跟踪滞后:行业运营变化快,风险同样具有时效性,而行业信息数据量庞大,非结构化的自然语言文本信息很多,现有的平台风险预警系统技术上难以实时跟踪并及时发现平台的风险隐患。
3、风险种类范围较窄:现有风险预警方法一般着重通过逾期率,不良率,是否有大量借款人具有相同特征再加上查询黑名单的方式进行预警及监管,风险根源排查有限,不利于全面刻画平台主体在经营活动和社会活动中的风险程度。
专利号为cn201510076663.6,名称为“一种基于文本分析的p2p网络借贷风险预测系统”的中国专利提供了一种于网络借贷风险预测系统,其组成包括:平台数据采集模块;文本特征提取模块;风险预测模型搭建、训练模块;风险预测模块。但是该发明仅解决了网贷平台对网贷平台内部用户的借贷违约风险进行风险预测,其针对的主体主要是网贷用户,并未涉及金融机构对网贷平台的风险预警等技术问题,因此如何更全面、更及时、更准确地对平台进行实时风险跟踪和预警,是本领域亟需解决的技术问题。
技术实现要素:
本发明的目的在于克服现有技术中存在的上述缺陷,提供一套针对平台的风险的自动跟踪和预警的技术方案。
本发明的第一目的是解决如何实现基于大数据自动进行风险预警,以提高风险预警的时效性的技术问题。为了实现上述目的,本发明提出以下技术方案:
一种平台综合风险预警系统,包括:
数据采集系统:用于基于关键字集,爬取与平台风险事件相关的非结构化的文本数据,并从所述非结构化的文本数据中提取出特征信息,生成多个结构化样本数据表,并存储于数据库,所述样本数据表包含风险预测值类标识字段;
风险预测系统:用于从数据库中获取样本数据,并基于所述样本数据构建得到预测模型,并根据输入的待预测数据进行综合风险值测算,输出综合风险预测值;
风险跟踪系统:其数据输入端与风险预测系统的数据输出端连接,风险跟踪系统用于根据跟踪策略,向数据采集系统发送数据采集任务,以及根据风险预测系统输出的综合风险预测值,生成风险趋势跟踪报告;
风险预警系统:其数据输入端与风险跟踪系统的数据输出端连接,用于根据风险跟踪报告,在风险预测值超过设定预警阈值时产生并发送预警提示。
所述数据采集系统包括文本处理模块,所述文本处理模块用于从连续的非结构化文本数据中,抽取出与所述关键字集有关的字段信息。
所述关键字集包括关键字的一种或多种的组合,所述关键字包括:基本信息类关键字、标的逾期类关键字、运营类关键字、资金链类关键字、借贷类关键字、集中度类关键字、合规类关键字、稳定性类关键字、舆情类关键字、其他类关键字;所述的其他类关键字包括:动态关联方类关键字、静态关联方类关键字。
本发明的第二目的是解决如何实现追溯风险类型的技术问题,为此提供了进一步优化的技术方案:所述风险预测值类标识字段包括:平台实力类风险、标的逾期类风险、运营类风险、资金链类风险、借贷类风险、集中度类风险、合规类风险、稳定性类风险、舆情类风险、其他类风险。
风险预测值类标识字段包括上述字段,即可进行对应的风险预测,通过对各个风险指标类别分别进行风险度量的技术处理,可以一定条件的溯源风险类型,而且也可以提升系统能够识别从部分到整体体现企业当前风险状况。
所述多个样本数据表主要包括:平台实力类风险表,存储基础数据,所述基础数据包括融资金额、高管姓名、注册年限、注册资金;标的逾期类风险表,存储平台标的逾期事件数据;运营类风险表,存储平台日常运营数据;资金链类风险表,存储平台的资金流、兑付事件数据;借贷类风险表,存储平台发生的出借事件数据;集中度类风险表,存储平台客户借款及时间数据;合规类风险表,存储平台内外相关的违规事件数据;稳定性类风险表,存储借款人数据,所述借款人数据包括平台借款人年龄、地区以及借款企业的信用数据;舆情类风险表,存储与平台相关的主流媒体的负面舆情数据,所述负面舆情数据包括负面新闻和投诉;其他类风险表:存储与平台相关的工商信息、经营信息、关联方数据。
构建预测模型时使用到的风险指标表包括一个一级风险指标表和一个二级风险指标表,其中所述一级风险指标表存储的数据包括:一级风险指标标识、一级指标权重、一级指标阈值;所述的二级风险指标表存储的数据包括:二级风险指标、所属一级风险指标标识、指标函数、二级指标权重、二级指标阈值。
所述的一级风险指标表存储十个一级风险指标,具体包括:综合实力风险、逾期风险、运营风险、资金链风险、借贷行为风险、集中度风险、合规风险、稳定性风险、舆情风险、其他风险。
本发明的第三目的是解决如何识别敏感突发高风险异常信息的技术问题,为此提供了进一步优化的技术方案:所述二级指标权重为动态权重。二级指标权重的调整策略为:判断二级风险指标的指标预测值是否超过二级指标阈值;如果是,则根据预定规则调整对应的二级指标权重,否则二级指标权重保持不变。
通过对二级指标权重进行动态调整,然后基于调整后的二级指标权重进行一级风险指标的估计值计算,系统可以在刻画企业整体风险趋势的同时,保持识别敏感突发高风险异常信息的能力。
调整后的二级指标权重为:
一级指标权重为动态权重,且当该一级风险指标下的至少一项二级风险指标的二级指标权重调整时,该一级风险指标的一级风险指标权重才调整。当二级指标权重有调整时,一级指标权重相应调整,可以更好地捕捉个别一级风险指标出现极端情况时对平台风险变动带来的影响,以提高风险预测的及时性。
一级指标权重的调整策略为:
默认状态下,一级风险指标的风险预测值s为
预警状态下,一级风险指标的风险预测值s为
与现有技术相比,本发明至少包括以下有益效果:
1、自动跟踪:本发明公开的技术方案基于大数据,从海量的数据中根据跟踪需求自动爬取平台的风险相关事件数据,实现对平台的风险及时的跟踪和态势分析,效率高,且实时性强;
2、风险维度更全面:本发明从海量的行业风险数据中归纳出当前风险影响,构建十个风险维度的量化评分,通过对平台全量数据进行大数据计算,预测结果能够比较全面反映平台主体在经营活动和社会活动中的风险程度,可实现风险类型的可追溯性,且风险预测结果更加准确。
3、能识别敏感突发高风险异常信息:通过二级指标阈值的设置,能够识别敏感突发高风险异常信息,且通过对二级指标权重进行动态调整,然后基于调整后的二级指标权重进行一级风险指标的估计值计算,系统可以在刻画企业整体风险趋势的同时,保持识别敏感突发高风险异常信息的能力。
4、预测结果更加准确:不仅二级指标权重和一级指标权重为动态权重,而且在预警状态下,一级风险指标的风险预测值也会动态调整,进一步增强预测结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例中所述的平台综合风险预警系统组成框图。
图2为实施例中所述的计算平台的风险预测值的流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1示出了一个实施例中所述的平台综合风险预警系统组成框图,如图1所示,本发明实施例主要包括数据采集系统101、风险预测系统102、风险跟踪系统103、风险预警系统104,其中:
数据采集系统101:用于基于关键字集,爬取与平台风险事件相关的非结构化的文本数据,并从所述非结构化的文本数据中提取出特征信息,生成多个结构化样本数据表,并存储于数据库,所述样本数据表包含风险预测值类标识字段。
其中,在一个实施例中,平台风险事件相关的非结构化文本数据的获取方法可以是采用人工智能技术和大数据技术,一般直接从互联网网页、主管单位公布的数据、舆情数据库以及其他商业数据库中爬取,爬取的数据通常是非结构化文本数据,因此获得后首先进行结构化处理。因此,数据采集系统包括数据爬取模块和文本处理模块,数据爬取模块从公开网页等渠道中爬取数据后,传输给文本处理模块,文本处理模块负责从连续的非结构化文本数据中,抽取出与所述关键字集有关的字段信息。
为了更加全面且准确地获取平台的风险事件,一个实施例中,在爬取数据之前,对关键字进行了分类,分别是:基本信息类关键字、标的逾期类关键字、运营类关键字、资金链类关键字、借贷类关键字、集中度类关键字、合规类关键字、稳定性类关键字、舆情类关键字、其他类关键字,其中,其他类关键字包括:动态关联方类关键字、静态关联方类关键字。动态关联方是指关联关系会动态变化的关联方,静态关联方是指关联关系固定不变的关联方。
当然地,这个关键字分类包括10种,是基于比较完善的方案而言的,根据具体需求,作为其他实施方式,可以选择其中的一种或多种关键字构成关键字集,爬取数据时基于该关键字集而进行。
一个实施例中,基于所述的关键字的分类,结构化样本数据表中包括了风险预测值类标识字段,所述风险预测值类标识字段存储(记录)风险预测值类标识,风险预测值类标识分别包括:平台实力类风险、标的逾期类风险、运营类风险、资金链类风险、借贷类风险、集中度类风险、合规类风险、稳定性类风险、舆情类风险、其他类风险。通过对结构化样本数据表标注风险预测值类标识字段,方便于有针对性地选取对应的样本数据来进行预测模型构建,继而提高预测模型的准确性。
针对于每一类别的结构化样本数据表,存储的数据是有区别的,作为举例,对每一类风险样本数据表,存储的数据如下:
平台实力类风险表,存储待预测平台的基础数据;
标的逾期类风险表,存储待预测平台标的逾期事件数据;
运营类风险表,存储待预测平台日常运营数据;
资金链类风险表,存储待预测平台的资金流、兑付事件数据;
借贷类风险表,存储待预测平台发生的出借事件数据;
集中度类风险表,存储待预测平台客户借款及时间数据;
合规类风险表,存储待预测平台内外相关的违规事件数据;
稳定性类风险表,存储待预测平台的借款人数据;
舆情类风险表,存储与待预测平台相关的主流媒体的负面舆情数据;
其他类风险表,存储与待预测平台相关的关联方数据。
更具体地,作为举例,基础数据可以包括融资金额、高管姓名、注册年限、注册资金等。
所述平台标的逾期事件数据可以包括逾期标的数量、逾期金额、逾期标率、逾期金额率等。
平台日常运营数据可以包括平台每日发标数量、平台每日尚未到期的债权以标的形式转让给他人的数量、每日短标总数、日发标数变化率、日发标金额等。
平台的资金流、兑付事件数据可以包括月借贷余额变化率、偿兑率、杠杆比、月资金净流入等。
平台发生的出借事件数据可以包括日总出借人数、日复投率(人数)、月复投率(金额)等。
平台客户借款及时间数据可以包括最多出借人金额比、前十出借人金额比、最多借款人金额比、前十借款人金额比等。
平台内外相关的违规事件数据可以包括是否存在自融、是否存在未小额分散等。
借款人数据可以包括平台借款人年龄、地区以及借款企业的信用数据等。
负面舆情数据可以包括对待预测平台的当月评价、负面新闻和投诉等。
关联方数据可以包括近三个月内自然人关联节点变动数据、近三个月内公司分支机构数量变动数据、关联方是否存在包含非法集资类裁判文书的企业、关联方中自然人控制企业数量等。
各个结构化样本数据表中一般记录了多项数据,在进行风险预测时,可以从多项数据中选择全部或部分数据作为指标特征用于进行风险预测。
对于各个结构化样本数据表中各项数据的设置,是基于行业相关规定而进行的,例如主要参考政策文件包括全国p2p网络借贷风险专项整治领导小组办公室下发《开展网贷机构合规检查工作的通知》及《p2p合规问题检查清单》(简称“(108条)”);银监会及其他相关单位发布的关于网贷行业监管的系列文件“一个办法三个指引”,包括《流动资金贷款管理暂行办法》、《个人贷款管理暂行办法》、《固定资产贷款管理暂行办法》和《项目融资业务指引》;互联网金融风险专项整治工作领导小组办公室、p2p网贷风险专项整治工作领导小组办公室联合发布了《关于做好网贷机构分类处置和风险防范工作的意见》(175号文)和《关于进一步做实p2p网络借贷合规检查及后续工作的通知》(1号文)。
另外,对于样本数据表中记录的数据,或者选取哪些数据作为指标特征用于进行风险预测,本文中仅是作为举例而列出,可以有其他实施方式。
风险预测系统102:用于从数据库中获取样本数据,并基于所述样本数据构建得到预测模型,并根据输入的待预测数据进行综合风险值测算,输出风险预测值。
样本数据只是用于构建预测模型所用,构建出预测模型后,即可输入待预测数据进行综合风险值测算,得到所述待预测数据对应的风险预测值。
此处的预测模型是指用于进行综合风险值测算的模型,而如前所述,针对每一类风险,都对应有一个测算方法,此预测模型则是融合了多种风险类型的综合模型,因此输出的风险预测值是一个综合值。
用于单类风险预测的指标特征称为二级风险指标,而用于综合风险预测的指标特征称为一级风险指标,一级风险指标的数据值就是单类风险预测得到的预测值,即一个一级风险指标的数据值是对应的多个二级风险指标进行相应计算而得到的预测值。
在实施例中,构建预测模型时使用到的风险指标表包括一个一级风险指标表和一个二级风险指标表,其中:
一级风险指标表存储的数据包括:一级风险指标标识、一级指标权重、一级指标阈值。二级风险指标表存储的数据包括:二级风险指标、所属一级风险指标标识、指标函数、二级指标权重、二级指标阈值。
在实施例中,对应到风险样本数据的分类,此处的一级指标具体包括10个一级风险指标,具体包括:综合实力风险、逾期风险、运营风险、资金链风险、借贷行为风险、集中度风险、合规风险、稳定性风险、舆情风险、其他风险。
在实施例中,该风险预测系统预测风险的步骤请参考图2所示的步骤。
风险跟踪系统103:其数据输入端与风险预测系统的数据输出端连接,风险跟踪系统用于根据跟踪策略,向数据采集系统发送数据采集任务,以及根据风险预测系统输出的风险值,生成风险趋势跟踪报告。
在具体实施中,跟踪策略往往包括风险跟踪的对象、时间段、风险类型等因素,在具体实施例中,可以制定每天的跟踪策略,例如每日定时对平台的所有风险数据收集汇总,计算当天的风险预测值。
在具体实施例中,风险趋势跟踪报告可以根据策略,以文档、图表、数据表等一种或多种方式进行存储。
风险预警系统104:其数据输入端与风险跟踪系统的数据输出端连接,用于根据风险跟踪报告,在风险值超过设定预警阈值时产生并发送预警提示。预警提示可以采用短信、邮件、微信等一种或多种方式进行发送。
在具体实施例中,风险预警系统主要根据风险预测的结果进行预警判断,对需要预警的事件,例如风险值超过设定预警阈值,产生预警提示并发送。此处的风险值超过设定预警阈值可以包括两种情况,第一种情况是综合风险预测值超过设定的对应预警阈值;第二种情况是某单类风险预测值超过设定的对应预警阈值。例如,标的逾期类风险的风险预测值超过设定的对应预警阈值,即使其他类风险预测值及综合风险预测值没有超过对应的预警阈值,也发出预警提示,以实现有针对性地对高危风险进行预警。
请参阅图2,图2示出了实施例中所述的计算平台的风险预测值的流程图,包括步骤s21-s25:
步骤s21:针对于每个单类风险,根据输入对应的样本数据,计算各项二级风险指标对应的指标预测值。
每一个样本数据,都有对应的风险预测值类标识,根据风险预测值类标识对应相应的二级风险指标。不同单类风险的风险预测算法不同,根据对应的二级风险指标预测算法,可以计算获取样本数据的所有二级风险指标的指标预测值。
在一个实施例中,基于风险函数计算得到二级风险指标的指标预测值,结合其业务特征,可以根据“风险呈u型或者递增s型”不同指标分成两类。“风险呈u型或者递增s型”用于区分一个指标的风险预测值会随着这个指标基础分的增加不断递增,还是呈现先递减再递增的状态。s型的风险函数可以基于sigmoid函数构建,通过调整平移和斜率等的参数,建立“基本分-风险预测值”的对应关系;u型的风险函数基于指数族分布族构建。
由于指标的业务特征的不同,不同风险指标其风险估值的计算方法有差异,因此需要根据指标特征设置相应的计算方法。例如综合实力风险下各个指标,指标预测方法是基于企业基本工商信息的评分规则+参考公司之前项目成果,例如逾期风险下各个指标,确定风险与指标值的关系是呈中间低两边高的u型还是单调递增的s型之后,首先利用无监督学习的密度估计处理异常点,对指标分位数和风险预测值进行u型或s型函数基于最小二乘法拟合,得到一个风险预测值关于指标值的函数;最后将当日指标值带入拟合好的风险函数即得到该二级指标的风险预测值。例如运营风险下各个指标,基于时间序列因素分解模型,提取各指标长期和中期趋势,汇总后作为计算当天风险的基准值。之后根据实际数据偏离基准值的程度,计算各指标风险预测值。
步骤s22:计算每一个二级风险指标的二级指标权重和二级指标阈值。
在一个实施例中,二级指标权重采用熵值法进行确定,根据各二级风险指标的分布离散程度,通过熵计算出各个二级指标权重,为一级风险指标的综合评价提供依据。
在本实施例中,根据不同二级风险指标的业务特点,各二级指标阈值有三种计算方法:
1)根据相关法规要求来确定,比如逾期率和偿兑率;
2)根据二级风险指标自己的历史数据,将5%最大风险预测值截点所对应的指标值作为二级指标阈值,比如标的数等绝对数指标;
3)根据所有平台的历史数据,将5%最大风险预测值截点所对应的指标值作为二级指标阈值,比如杠杆比等相对数指标。
步骤s23:根据所有二级风险指标的指标预测值和对应的二级指标权重,分别计算出对应的一级风险指标的预测值,即得到单类风险预测值。
二级指标阈值的主要作用是区分模型的“默认状态”和“预警状态”。在一个实施例中,根据二级指标阈值的情况,“默认状态”是指所有二级风险指标的指标预测值都没有超过对应的二级指标阈值的情况,“预警状态”是指存在某个或某些二级风险指标的指标预测值超过对应的二级指标阈值的情况,意味着这个二级风险指标产生了极为异常的波动,需要给予额外的关注。
1)“默认状态”下,一级风险指标风险预测值计算方法
在“默认状态”,一级风险指标的风险预测值计算采取二级指标的指标预测值加权求和的方法得出,如下:
其中s为某一级风险指标的风险预测值,n为属于该一级风险指标的二级风险指标的数量,
2)“预警状态”下,一级风险指标风险预测值计算方法
在“预警状态”,一级风险指标的风险预测值计算只考虑超过二级指标阈值的二级指标,同时这些二级指标的权重也会相应调整,如下:
其中s为某一级风险指标的风险预测值,t为超过二级指标阈值的二级风险指标集合,
需要注意的是,针对不同二级风险指标,所采用的二级指标阈值是不同的。仅作为举例,例如针对于当前逾期数量这一个二级风险指标,可以根据二级风险指标平台自身的历史数据,取95%分位数作为触发阈值;又例如,针对于当前逾期标率这个二级风险指标,可以根据相关法规要求并结合业务经验,取10%作为触发阈值。
步骤s24:根据各项二级风险指标的基础值,分别调整对应一级风险指标的一级指标权重。
f:b->s,f是s型或者u型的风险函数,b为二级风险指标的基础值,s是二级风险指标的指标预测值,在前述进行二级风险指标的指标预测值计算时,可以得到二级风险指标的基础值。
在本实施例中,为了更好地捕捉个别一级风险指标出现极端情况时对平台风险变动带来的影响,平台采用了基于可配置阈值的动态权重调整机制。
在预警状态下,如果某个二级风险指标发生了严重异常波动,远远超出二级指标阈值,那么对应的一级指标权重也应该作出相应的提升,来更好地反馈这一异常。具体思路是,首先汇总二级风险指标的基础值(
其中
步骤s25:根据所有一级风险指标的预测值和一级指标权重,计算平台的综合风险预测值。
具体计算方法如下:
其中
作为最简单的实施方式,一级指标权重和二级指标权重的默认权重均可以是平均权重,平均权重是指所有一级(或二级)指标权重之和为1,除以一级(或二级)风险指标的项数,即得一级(或二级)的平均权重。但是在更优化的方案中,默认权重可以在平均权重的基础上,通过大量实际数据进行调整,得到更优化的配置。
在所有二级风险指标都没有超过二级指标阈值的默认状态下,平台的最终风险预测值为各一级风险指标的预测值按对应一级指标权重进行加权所得;若某些二级风险指标的指标预测值超过对应的二级指标阈值,则其对应的二级指标权重将增加,所属一级风险指标也将按照前述一级指标权重调整策略进行权重调整,平台的最终风险预测值为各一级指标风险预测值按对应的调整之后的权重进行加权所得。
作为简要的实施方式,一级风险指标的风险预测值可以按照上述
另外,若某个一级风险指标的一级指标权重小于平均权重5%,则对该一级风险指标的风险预测值进行调整,调整策略如下:假设一级风险指标的风险预测值经由模型(
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的应用和设计约束条件。专业技术人员可以对每个的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。