一种基于实时流数据的在线金融风控模型

文档序号:32340827发布日期:2022-11-26 09:43阅读:77来源:国知局
一种基于实时流数据的在线金融风控模型

1.本发明涉及金融风控技术领域,具体为一种基于实时流数据的在线金融风控模型。


背景技术:

2.互联网金融作为金融和计算机技术相结合的产物,在日常生活中扮演着越来越重要的角色。用户可以通过互联网实现账目管理、网上支付、购买金融产品等各种操作。如何制定快速有效的金融风控策略,提高客户信息数据处理效率,及时预测防范业务中信用及欺诈风险,已成为金融企业迫切需要解决的问题。
3.然而现有的金融风控模型大多为通过人工长期实践与归纳出来的,不能及时识别风险并进行预警或者风控,难以适应市场的快速变化。基于此,本发明提出一种基于实时流数据的在线金融风控模型。


技术实现要素:

4.为了解决现有技术中存在的上述技术问题,本发明提出一种基于实时流数据的在线金融风控模型,其具体技术方案如下。
5.一种基于实时流数据的在线金融风控模型,包含以下模块:
6.数据采集模块,基于风控指标调用对应的采集单元获取目标数据集,并对实时数据和离线数据进行整合;
7.数据预处理模块,对数据中的缺失值和异常值进行处理,防止质量低下的数据影响模型的泛化性,提高模型的泛化能力;
8.特征工程模块,结合金融风控的业务背景,对原始数据进行工程性处理,挖掘数据中的潜在价值;
9.风险评估模块,基于集成学习的思想,通过stacking融合方式对几个金融风控机器学习算法模型进行融合,融合多个模型的拟合规律,根据实时采集的数据集实时更新风险预测模型,提高模型的时效性。
10.进一步的,所述数据采集模块具体包括:
11.步骤1.1,通过实时数据采集单元与外部数据平台对接,获取实时的流式交易数据。并将该时刻的流式数据存储到数据存储系统和高速缓存中,高速缓存移除上一时刻的流式数据,并将该时刻的流式数据存储到高速缓存中。所述外部数据平台,用于将银行、atm机、pos机等的实时交易数据向所述实时数据采集单元传输;
12.步骤1.2,通过批量数据采集单元与数据存储系统连接,抽取批量离线数据;所述离线数据为过往的用户交易记录;
13.步骤1.3,数据整合单元对数据进行清洗与集成,对实时数据与离线数据的数据格式进行格式化,清洗冗余数据。并对实时数据与离线数据进行整合从而获得集成数据,将集成数据发送至数据预处理模块。
14.进一步的,所述数据预处理模块具体包括:
15.步骤2.1,缺失值处理单元,根据初始设定的阈值,对有缺失字段的数据分为两大部分,直接删除缺失字段数目小于阈值且重要字段没有缺失的数据项,对缺失字段数目较多或是缺失重要字段的数据项进行中位数填充;
16.上述重要字段为身份证号、金额、贷款类型、时间等对模型影响比重较大大的字段;
17.步骤2.2,异常值处理单元,采用标准差判断法,计算出当前字段的标准差为:
[0018][0019]
其中n表示数据项的总数,μ表示该字段在全部数据项中的平均值;
[0020]
若该字段的数值与平均值μ的偏差超过标准差的值的三倍,则认为该字段的数值超出了样本数据的正常范围,将该字段的数据标记为异常值进行后续处理。
[0021]
步骤2.3,样本均衡单元,利用smote算法合成新的少数类样本。先利用k-近邻算法,选择离样本点xi最近的k个同类样本点,并从中随机挑选m个样本点,对于每一个随机选中的样本点,构造新的样本点x
new
,公式为:
[0022]
x
new
=xi+rand(0,1)*(x
j-xi),j=1,2,

,m
[0023]
其中xi表示少数类别中的一个样本点,xj表示k-近邻算法中随机挑选的样本点;rand(0,1)表示生成0-1的随机数。
[0024]
进一步的,所述特征工程模块具体包括:
[0025]
步骤3.1,类别特征编码单元,将数据集中涉及到的类别型特征把其对应的类别特征转换为模型可以识别的类型,类别型特征如性别、学历、民族和贷款类型等;
[0026]
步骤3.2,特征组合单元,通过把用户的多个字段进行融合生成新的字段,使得后续模型学习到更深层次的信息。使用因子分解机,将稀疏数据embedding向低维度表达,形成一个稠密的特征向量,对于每个组合特征wiχi,训练出两组一维向量的内积《νi,νj》来替代权重值:
[0027][0028]
其中,w0表示常数项,表示一阶线性模型,表示一阶线性模型,表示二阶特征交叉模型。;
[0029]
进一步的,所述风险评估模块具体包括:
[0030]
步骤4.1,定义第一层基础学习器,m={f1,f2,

,fn},其中,fi为各个优选的金融风控模型。;
[0031]
步骤4.2,划分数据集,采用随机抽样将数据集d平均划分为n份,n的大小与基础学习器的数量对应d={d1,d2,

,dn};
[0032]
步骤4.3,训练第一层基础学习器,单个基础学习器f1对应的测试集为d1,训练集d为中除di外的数据,基于训练集的数据进行训练之后对测试集进行预测,结果记为yi,所以基础学习器的预测结果集合作为框架第二层模型的输入d
new
={y1,y2,y3,

,yn}。
[0033]
步骤4.4,选择第二层基础学习器并输出结果,从m中选择基础学习器,以d
new
为输入数据,并以auc为衡量指标选择最优的模型作为第二层的学习器。输出结果为ys=f(d
new
)。
[0034]
本发明的优点:
[0035]
(1)基于实时数据采集单元,实时采集最新的交易数据。利用实时的在线数据和过往的离线数据共同更新模型,使模型对当前时刻的风控预测结果更加准确。
[0036]
(2)基于集成学习的思想,利用多个高效的金融风控模型共同训练一个集成模型,有效提高了金融风控的预测准确率。
附图说明
[0037]
图1为本发明的一种基于实时流数据的在线金融风控模型的流程图;
[0038]
图2为本发明所提出的一种基于实时流数据的在线金融风控模型的结构图。
具体实施方式
[0039]
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
[0040]
如图1所示,一种基于实时流数据的在线金融风控模型,包含以下步骤:
[0041]
步骤1,数据采集模块,基于风控指标调用对应的采集单元获取目标数据集,并对实时数据和离线数据进行整合,具体为:
[0042]
在步骤1.1中,本实施例通过实时数据采集单元与外部数据平台对接,获取实时的流式交易数据。并将该时刻的流式数据存储到数据存储系统和高速缓存中,高速缓存移除上一时刻的流式数据,并将该时刻的流式数据存储到高速缓存中。所述外部数据平台,用于将银行、atm机、pos机等的实时交易数据向所述实时数据采集单元传输。
[0043]
在步骤1.2中,本实施例通过批量数据采集单元与数据存储系统连接,抽取批量离线数据;所述离线数据为过往的用户交易记录。
[0044]
在步骤1.3中,本实施例通过数据整合单元对数据进行清洗与集成,对实时数据与离线数据的数据格式进行格式化,清洗冗余数据。并对实时数据与离线数据进行整合从而获得集成数据,将集成数据发送至数据预处理模块。
[0045]
步骤2,数据预处理模块,对数据中的缺失值和异常值进行处理,防止质量低下的数据影响模型的泛化性,提高模型的泛化能力,具体为:
[0046]
在步骤2.1中,本实施例的失值处理单元,根据初始设定的阈值,对有缺失字段的数据分为两大部分,直接删除缺失字段数目小于阈值且重要字段没有缺失的数据项,对缺失字段数目较多或是缺失重要字段的数据项进行中位数填充;
[0047]
上述重要字段为身份证号、金额、贷款类型、时间等对模型影响比重较大大的字段。
[0048]
在步骤2.2中,本实施例的异常值处理单元,采用标准差判断法,计算出当前字段的标准差为:
[0049][0050]
其中n表示数据项的总数,μ表示该字段在全部数据项中的平均值;
[0051]
若该字段的数值与平均值μ的偏差超过标准差的值的三倍,则认为该字段的数值超出了样本数据的正常范围,将该字段的数据标记为异常值进行后续处理。
[0052]
步骤2.3,本实施例的样本均衡单元,利用smote算法合成新的少数类样本。先利用k-近邻算法,选择离样本点xi最近的k个同类样本点,并从中随机挑选m个样本点,对于每一个随机选中的样本点,构造新的样本点x
new
,公式为:
[0053]
x
new
=xi+rand(0,1)*(x
j-xi),j=1,2,

,m
[0054]
其中xi表示少数类别中的一个样本点,xj表示k-近邻算法中随机挑选的样本点;rand(0,1)表示生成0-1的随机数。
[0055]
步骤3,特征工程模块,结合金融风控的业务背景,对原始数据进行工程性处理,挖掘数据中的潜在价值,具体为:
[0056]
在步骤3.1中,本实施例的类别特征编码单元,将数据集中涉及到的类别型特征把其对应的类别特征转换为模型可以识别的类型,类别型特征如性别、学历、民族和贷款类型等。
[0057]
在步骤3.2中,本实施例的特征组合单元,通过把用户的多个字段进行融合生成新的字段,使得后续模型学习到更深层次的信息。使用因子分解机,将稀疏数据embedding向低维度表达,形成一个稠密的特征向量,对于每个组合特征wixi,训练出两组一维向量的内积《vi,vj》来替代权重值:
[0058][0059]
其中,w0表示常数项,表示一阶线性模型,表示一阶线性模型,表示二阶特征交叉模型。
[0060]
在某些情况下,用户的一项属性并不会直接和其的违约欺诈行为挂钩,但如果把用户的多个属性信息结合起来看,可能可以发现违约欺诈行为的迹象。类似于警察在破案时会把犯罪嫌疑人的多方面信息进行结合来看,将不同的线索结合在一起。
[0061]
步骤4,风险评估模块,基于集成学习的思想,通过stacking融合方式对几个金融风控机器学习算法模型进行融合,融合多个模型的拟合规律,根据实时采集的数据集实时更新风险预测模型,具体为:
[0062]
在步骤4.1中,本实施例定义第一层基础学习器集合为m={f1,f2,

,fn},其中,fi为各个优选的金融风控模型。
[0063]
在步骤4.2中,本实施例划分数据集,采用随机抽样将数据集d平均划分为n份,n的大小与基础学习器的数量对应d={d1,d2,

,dn}。
[0064]
在步骤4.3中,本实施例训练第一层基础学习器,单个基础学习器f1对应的测试集为d1,训练集d为中除di外的数据,基于训练集的数据进行训练之后对测试集进行预测,结果记为yi,所以基础学习器的预测结果集合作为框架第二层模型的输入d
new
={y1,y2,y3,

,yn
}。
[0065]
在步骤4.4中,本实施例选择第二层基础学习器并输出结果,从m中选择基础学习器,以d
new
为输入数据,并以auc为衡量指标选择最优的模型作为第二层的学习器。输出结果为ys=f(d
new
)。
[0066]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1