基于迁移样本筛选的金融风险预测方法、装置和电子设备与流程

文档序号:23729779发布日期:2021-01-26 07:33阅读:71来源:国知局
基于迁移样本筛选的金融风险预测方法、装置和电子设备与流程

[0001]
本发明涉及计算机信息处理领域,具体而言,涉及一种基于迁移样本筛选的金融风险预测方法、装置和电子设备。


背景技术:

[0002]
风险控制(简称为风控)是指风险管理者采取各种措施和方法,消灭或减少风险案件发生的各种可能性,或风险控制者减少风险案件发生时造成的损失。风险控制一般应用于金融行业,如对公司的交易、商家的交易或个人交易等进行风险控制。
[0003]
在现有技术中,金融风险评估主要的目的是如何区分出好客户和坏客户,评估用户的风险情况,以降低信用风险实现利润最大化。但是,很多算法进行学习时,对数据量的要求较大,特别在深度学习中,因为大量参数需要学习,所以数据量要求格外大。在面对某一领域或者新业务的具体问题时,没有办法获得所需数据,或者可获得的数据量很小。
[0004]
传统机器学习的模型都是建立在训练数据和测试数据服从相同的数据分布的基础上。例如有监督学习,可以在训练数据上面训练得到一个分类器,用于测试数据。但是在许多情况下,并不满足这种同分布的假设,而且有时候训练数据会受时间因因素的影响而过期,再重新去标注大量新的数据,成本是较高的。此时,如果丢弃训练数据又会比较浪费数据资源,研究如何使用这部分数据,是非常必要的。此外,使用单模型进行计算,存在不稳定性。
[0005]
因此,有必要提供更有效的金融风险预测方法。


技术实现要素:

[0006]
针对没有或只有很少量数据或者数据分布不均匀的情况,如何建立更有效、模型稳定性和模型精度更高的模型,本发明提供了一种基于迁移样本筛选的金融风险预测方法,包括:获取历史样本数据,确定源域训练集和目标域训练集;基于所述目标域训练集训练多个子模型,并从训练好的多个子模型中选出至少两个子模型;使用所选出的至少两个子模型,根据样本筛选策略,在所述源域数据集中进行迁移样本筛选,以形成迁移样本训练集;将所形成的迁移样本训练集与目标域训练集合并,以得到新目标域训练集;使用所述新目标域数据集,训练金融风险预测模型;使用训练好的金融风险预测模型,计算目标用户在目标域上的用户风险预测值。
[0007]
优选地,所述从训练好的多个子模型中选出至少两个子模型包括:通过最大互信息系数mic,从训练好的多个子模型中选取三个子模型。
[0008]
优选地,还包括:使用所述三个子模型进行加权融合,以构建融合模型作为金融风险预测模型;所述加权融合包括使用各子模型在验证集上所计算的评价指标值作为权重系数,该评价指标值为auc值。
[0009]
优选地,还包括提取模块,所述提取模块从源域数据集和目标域数据集中提取模型特征,该模型特征包括与金融风险相关的共性特征、解释性特征和区别特征;根据模型特
征,从所述源域数据集中筛选样本数据,建立训练集和测试集,并从所述目标域数据集中筛选样本数据,建立目标域测试集。
[0010]
优选地,还包括:设定样本筛选策略,所述样本筛选策略包括设定筛选指标,其中,该筛选指标包括待去除的样本比例、初始权重系数、权重更新方式和次数、最大迭代次数、最小比对阈值和最大比对阈值;所述筛选规则包括判断是否达到最大迭代次数、是否更新权重系数、是否小于最小比对阈值、是否大于等于最大比对阈值中的至少两个。
[0011]
优选地,还包括:对于训练集的样本数据,将各子模型的输出结果与最小比对阈值和最大比对阈值进行比较,将小于最小比对阈值或者大于等于最大比对阈值的样本去除。
[0012]
优选地,还包括:对于训练集和测试集的样本数据,使用tradaboost算法,分别计算各样本数据的输出结果的错误率;根据所计算的错误率,重新调整样本权重,所述重新调整样本权重包括提高或降低权重系数。
[0013]
优选地,还包括:设定第一资源配额阈值和第二资源配额阈值;获取大于等于第一资源配额阈值的样本数据作为源域数据集;获取小于第二资源配额阈值的样本数据作为目标域数据集。
[0014]
优选地,所述金融表现数据包括违约概率和/或逾期概率。
[0015]
此外,本发明还提供了一种基于迁移样本筛选的金融风险预测装置,包括:数据获取模块,其用于获取历史样本数据,确定源域训练集和目标域训练集;第一训练模块,基于所述目标域训练集训练多个子模型,并从训练好的多个子模型中选出至少两个子模型;样本筛选模块,其用于使用所选出的至少两个子模型,根据样本筛选策略,在所述源域数据集中进行迁移样本筛选,以形成迁移样本训练集;合并模块,用于将所形成的迁移样本训练集与目标域训练集合并,以得到新目标域训练集;第二训练模块,用于使用所述新目标域数据集,训练金融风险预测模型;计算模块,用于使用训练好的金融风险预测模型,计算目标用户在目标域上的用户风险预测值。
[0016]
优选地,还包括:通过最大互信息系数mic,从训练好的多个子模型中选取三个子模型。
[0017]
优选地,还包括:使用所述三个子模型进行加权融合,以构建融合模型作为金融风险预测模型;所述加权融合包括使用各子模型在验证集上所计算的评价指标值作为权重系数,该评价指标值为auc值。
[0018]
优选地,还包括提取模块,所述提取模块从源域数据集和目标域数据集中提取模型特征,该模型特征包括与金融风险相关的共性特征、解释性特征和区别特征;根据模型特征,从所述源域数据集中筛选样本数据,建立训练集和测试集,并从所述目标域数据集中筛选样本数据,建立目标域测试集。
[0019]
优选地,还包括设定模块,所述设定模块用于设定样本筛选策略,所述样本筛选策略包括设定筛选指标,其中,该筛选指标包括待去除的样本比例、初始权重系数、权重更新方式和次数、最大迭代次数、最小比对阈值和最大比对阈值;所述筛选规则包括判断是否达到最大迭代次数、是否更新权重系数、是否小于最小比对阈值、是否大于等于最大比对阈值中的至少两个。
[0020]
优选地,还包括:对于训练集的样本数据,将各子模型的输出结果与最小比对阈值和最大比对阈值进行比较,将小于最小比对阈值或者大于等于最大比对阈值的样本去除。
[0021]
优选地,还包括:对于训练集和测试集的样本数据,使用tradaboost算法,分别计算各样本数据的输出结果的错误率;根据所计算的错误率,重新调整样本权重,所述重新调整样本权重包括提高或降低权重系数。
[0022]
优选地,还包括:设定第一资源配额阈值和第二资源配额阈值;获取大于等于第一资源配额阈值的样本数据作为源域数据集;获取小于第二资源配额阈值的样本数据作为目标域数据集。
[0023]
优选地,所述金融表现数据包括违约概率和/或逾期概率。
[0024]
此外,本发明还提供了一种电子设备,其中,该电子设备包括:处理器;以及,存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行本发明所述的基于迁移样本筛选的金融风险预测方法。
[0025]
此外,本发明还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现本发明所述的基于迁移样本筛选的金融风险预测方法。
[0026]
有益效果
[0027]
与现有技术相比,本发明使用tradaboost(transferadaboost)算法,通过样本筛选和迁移、重建目标域训练数据集等方式,有效避免了因样本数据而导致的高偏差和高方差的问题,并有效节约了数据资源;构建加权融合模型,以用于预测金融风险,显著提升了模型的预测效果,提高了模型精度和准确度,还优化了金融风险预测方法。
附图说明
[0028]
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明本发明示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
[0029]
图1是本发明的实施例1的基于迁移样本筛选的金融风险预测方法的一示例的流程图。
[0030]
图2是本发明的实施例1的基于迁移样本筛选的金融风险预测方法的另一示例的流程图。
[0031]
图3是本发明的实施例1的基于迁移样本筛选的金融风险预测方法的又一示例的流程图。
[0032]
图4是本发明的实施例2的基于迁移样本筛选的金融风险预测装置的一示例的示意图。
[0033]
图5是本发明的实施例2的基于迁移样本筛选的金融风险预测装置的另一示例的示意图。
[0034]
图6是本发明的实施例2的基于迁移样本筛选的金融风险预测装置的又一示例的示意图。
[0035]
图7是根据本发明的一种电子设备的示例性实施例的结构框图。
[0036]
图8是根据本发明的计算机可读介质的示例性实施例的结构框图。
具体实施方式
[0037]
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
[0038]
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
[0039]
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
[0040]
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0041]
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0042]
应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但这不应受这些定语限制。这些定语乃是用以区分一者与另一者。例如,第一器件亦可称为第二器件而不偏离本发明实质的技术方案。
[0043]
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
[0044]
鉴于上述问题,本发明提出了一种基于迁移样本筛选的金融风险预测方法,使用tradaboost(transferadaboost)算法,通过样本筛选和迁移、重建目标域训练数据集等方式,有效避免了因样本数据而导致的高偏差和高方差的问题,还有效节约了数据资源。
[0045]
实施例1
[0046]
下面,将参照图1至图3描述本发明的基于迁移样本筛选的金融风险预测方法的实施例。
[0047]
图1为本发明的基于迁移样本筛选的金融风险预测方法的流程图。如图1所示,一种风险预测方法,该方法包括如下步骤。
[0048]
步骤s101,获取历史样本数据,确定源域训练集和目标域训练集。
[0049]
步骤s102,基于所述目标域训练集训练多个子模型,并从训练好的多个子模型中选出至少两个子模型。
[0050]
步骤s103,使用所选出的至少两个子模型,根据样本筛选策略,在所述源域数据集中进行迁移样本筛选,以形成迁移样本训练集。
[0051]
步骤s104,将所形成的迁移样本训练集与目标域训练集合并,以得到新目标域训练集。
[0052]
步骤s105,使用所述新目标域数据集,训练金融风险预测模型。
[0053]
步骤s106,使用训练好的金融风险预测模型,计算目标用户在目标域上的用户风
险预测值。
[0054]
首先,在步骤s101中,获取历史样本数据,确定源域训练集和目标域训练集。
[0055]
具体地,获取历史样本数据,该历史样本数据包括用户特征数据和金融表现数据。
[0056]
进一步地,用户特征数据包括用户基本信息数据、社交数据等,所述金融表现数据包括违约概率和/或逾期概率。
[0057]
更进一步地,金融表现数据包括违约概率和/或逾期概率。
[0058]
优选地,还包括:设定第一资源配额阈值和第二资源配额阈值;获取大于等于第一资源配额阈值的样本数据作为源域数据集;获取小于第二资源配额阈值的样本数据作为目标域数据集。
[0059]
例如,所获取的当前历史样本数据中大额度(例如资源配额大于等于1万元)的金融服务产品的样本数据量为约70万条(即源域数据集),而对于小额度(例如资源配额小于1500元)的金融服务产品的样本数据量较少,为约2万条(即目标域数据集)。
[0060]
在上述示例中,按照所设定的资源配额阈值,则大额度的金融服务产品的样本数据为源域数据集,而小额度的金融服务产品的样本数据为目标域数据集。
[0061]
需要说明的是,在上述示例中,大额度的样本数据量和小额度的样本数据量在数量上存在很大差异,即源域数据集与目标域数据集具有一定差异性,如果过分依赖于源域将导致高偏差,过分依赖于目标域数据将导致高方差。
[0062]
针对上述这种问题,本发明通过样本筛选、重建目标域训练数据集等方式,以有效避免因样本数据而导致的高偏差和高方差的问题。具体如下。
[0063]
具体地,从源域数据集和目标域数据集中提取模型特征,该模型特征包括与金融风险相关的共性特征、解释性特征和区别特征。
[0064]
例如,共性特征包括与工作相关的风险共性特征或归还共性特征,具体包括月收入是否稳定、特定时间周期内的动支行为情况、是否有逾期或违约、是否为多头用户等等。
[0065]
再例如,解释性特征包括对局部特性、特定用户群、地区特点、时间因素等具有一定解释性的解释性特征。
[0066]
在本示例中,根据模型特征,从所述源域数据集中筛选样本数据,确定正、负样本及各自的样本数量,建立训练集和测试集,确定源域训练集和源域测试集。
[0067]
更进一步地,从所述目标域数据集中筛选样本数据,建立目标域训练集和目标域测试集。
[0068]
需要说明的是,在本发明中,针对源域数据集和目标域数据集分布不均匀的问题,tradaboost算法主要通过赋予源域数据集中的样本某种权重,使其分布靠近目标域,来实现样本迁移。
[0069]
接下来,在步骤s102中,基于所述目标域训练集训练多个子模型,并从训练好的多个子模型中选出至少两个子模型。
[0070]
优选地,例如根据正负样本的比例,和/或根据不同类别样本对应的比例,设置样本的初始权重,并使用tradaboost算法对训练样本进行权重调整。
[0071]
在本示例中,例如选用逻辑回归算法作为基模型(即子模型或者基础分类器),使用目标域训练集训练多个子模型。但是不限于此,在其他示例中,还可以选用xgboost模型、lightgbm模型和gbdt模型的一个模型,或者其组合模型等。
[0072]
需要说明的是,tradaboost算法的基本思想是:当一个训练样本被错误分类时,算法就会认为这个样本是难分类的,就会适当地增加样本权重,下次训练时这个样本被分错的概率就会降低,即换言之,提高对被错误分类的目标域样本的关注度。
[0073]
在本示例中,通过mic(最大互信息系数)从训练好的多个子模型中筛选三个差异化最大且效果较好的子模型。
[0074]
例如,选取子模型a、子模型b、子模型c,并且该三个模型分别针对特征组a、特征组b、特征组c进行训练。
[0075]
在另一示实施方式中,根据所述模型特征,多次从源域数据集中选取与目标域训练集相同数量的源域数据,形成多个源域训练集,并与目标域训练集一起作为训练数据,训练多个子模型。后续选择子模型的方法与上述选择方法相同。
[0076]
计算原理
[0077]
1)初始化
[0078]
初始权重向量为:
[0079]
其中,
[0080]
2)设置
[0081]
其中,t=1,

,n。
[0082]
3)设置p
t
满足下式:
[0083][0084]
4)调用learner,根据训练数据集t(t为目标域训练数据t
b
,或者为目标域训练集t
b
和源域训练集t
a
)、t上的权重分布p
t
和未标注的测试集s,得到一个在s上的分类器h
t
:x~y。
[0085]
5)计算h
t
在目标域训练数据集t
b
上的错误率:
[0086][0087]
6)设置
[0088][0089]
7)设置新的权重向量如下:
[0090][0091]
8)输出最终的分类器(即子模型)
[0092][0093]
9)选择预测效果最好的分类器,即选择子模型:
[0094]
h
f
(x)=h
t
(x)
ꢀꢀ
(6)
[0095]
其中,t为分类器(即子模型)在目标域训练集上表现最好的迭代次数。
[0096]
由此,通过上述计算式(1)至(6),能够得到子模型a、子模型b、子模型c。
[0097]
需要说明的是,在其他示例中,还可以通过其他方法。此外,对于子模型的数量和选择方法均没有特别的限制,上述仅作为优选的示例进行说明,不能理解成对本发明的限制。
[0098]
接下来,在步骤s103中,使用所选出的至少两个子模型,根据样本筛选策略,在所述源域数据集中进行迁移样本筛选,以形成迁移样本训练集。
[0099]
需要说明的是,由于存在源域数据集和目标域数据集分布不均匀的问题,使用tradaboost权重更新方法,通过赋予源域数据集中的样本特定权重,并进行权重更新,使其分布靠近目标域中的样本分布,来实现样本筛选和样本迁移,从而有效节约了数据资源。
[0100]
具体地,如图2所示,还包括设定样本筛选策略的步骤s201。
[0101]
在步骤s201中,设定样本筛选策略,以用于筛选迁移样本,由此实现减小模型方差的目的。
[0102]
具体地,所述样本筛选策略包括设定筛选指标,其中,该筛选指标包括待去除的样本比例、初始权重系数、权重更新方式和次数、最大迭代次数、最小比对阈值和最大比对阈值。
[0103]
进一步地,所述筛选规则包括判断是否达到最大迭代次数、是否更新权重系数、是否小于最小比对阈值、是否大于等于最大比对阈值中的至少两个。
[0104]
优选地,预设去掉的样本比例,最大迭代次数,
[0105]
进一步地,还包括:对于源域训练集的样本数据,将各子模型的输出结果与最小比对阈值和最大比对阈值进行比较,将小于最小比对阈值或者大于等于最大比对阈值的样本去除。
[0106]
优选地,还包括:对于训练集和测试集的样本数据,使用tradaboost算法,分别计算各样本数据的输出结果的错误率;根据所计算的错误率,重新调整样本权重,所述重新调整样本权重包括提高或降低权重系数。
[0107]
在本示例中,例如使用子模型a、子模型b、子模型c同时对源域训练集中的样本数据进行样本筛选,预测源域训练集(dev)、目标域测试集(test)和验证集(val)的概率以及在目标域测试集(test)上的分类结果。
[0108]
例如,筛选规则包括筛选三个模型在目标域测试集(test)上的预测概率相同的样本,或者预测概率在特定差异范围内的样本。
[0109]
进一步地,分别计算三个子模型在验证集(val)上的auc值,以用作筛选指标,并用于后续子模型加权融合的权重系数。
[0110]
优选地,对所有类结果进行升序排列,并去除两端的(目标域测试集中的)样本。
[0111]
由此,通过上述方法在所述源域数据集中进行迁移样本筛选,以形成迁移样本训练集。
[0112]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0113]
接下来,在步骤s104中,将所形成的迁移样本训练集与目标域训练集合并,以得到新目标域训练集。
[0114]
具体地,还包括根据目标域训练集的样本数量,确定迁移样本训练集的样本数量范围。
[0115]
如图3所示,还包括预设样本特定数量范围的步骤s301。
[0116]
在步骤s301中,预设样本特定数量范围,以用于判断迁移样本训练集的样本数量是否满足合并条件。
[0117]
具体地,在迁移样本训练集的样本数量未在所述预设样本特定数量范。围内的情况下,判断为不可合并。在该情况下,确定进一步对源域数据集中的样本进行二次筛选,直至迁移样本训练集的样本数量在所述预设样本特定数量范围内为止。
[0118]
进一步地,在迁移样本训练集的样本数量在所述预设样本特定数量范围内的情况下,判断为可合并。
[0119]
由此,将步骤s103中所形成的迁移样本训练集与目标域训练合并,以得到新目标域训练集。
[0120]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0121]
接下来,在步骤s105中,使用所述新目标域数据集,训练金融风险预测模型。
[0122]
在本示例中,构建金融风险预测模型,还包括定义正、负样本,标签为0,1,其中,1表示用户的逾期概率(和/或违约概率)为y以上的样本,0表示用户的逾期概率(和/或违约概率)为小于y的样本。
[0123]
通常,用户的逾期概率(和/或违约概率)越低,贷款回收本金的情况越好,资金的使用效率越好,资金的风险程度就越低,反之亦然。
[0124]
具体地,使用所选出的三个子模型进行加权融合,以构建融合模型作为金融风险预测模型。
[0125]
优选地,所述加权融合包括使用各子模型在验证集(val)上所计算的评价指标值作为权重系数。
[0126]
在本示例中,该评价指标值为auc值。但是不限于此,在其他示示例中,还可以是ks值和/或ros值,或者是auc值、ks值和ros值的平均值等。上述仅作为示例进行说明,不能理解成对本发明的限制。
[0127]
例如,以评价指标值为auc值为示例,则金融风险预测模型的计算式如下:
[0128]
h
t
(x)=w
auc1
×
h
t1
(x)+w
auc2
×
h
t2
(x)+w
auc3
×
h
t3
(x)
[0129]
其中,x为模型的输入值(即表示用户特征的值);h
t
(x)为模型的输出值(即用户风险预测值);h
t1
(x)、h
t2
(x)和h
t3
(x)分别为子模型a、子模型b和子模型c的计算式;t1、t2和t3分别为各子模型在目标域训练集上表现最好的迭代次数;w
auc1
、w
auc2
和w
auc3
分别为子模型a、子模型b、子模型c的权重系数。
[0130]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0131]
接下来,在步骤s106中,使用训练好的金融风险预测模型,计算目标用户在目标域上的用户风险预测值。
[0132]
具体地,获取目标用户的用户特征数据,使用训练好的金融风险预测模型,计算目标用户在目标域上的用户风险预测值。
[0133]
在本示例中,该用户风险预测值为逾期概率,且为一个0~1之间的数值。
[0134]
进一步地,根据预设风险阈值,将所计算的用户的风险预测值与所述预设风险阈值进行比较,以判断目标用户的风险情况。
[0135]
需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。
[0136]
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由计算机数据处理设备执行的程序(计算机程序)。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、rom、ram等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
[0137]
与现有技术相比,本发明使用tradaboost(transferadaboost)算法,通过样本筛选和迁移、重建目标域训练数据集等方式,有效避免了因样本数据而导致的高偏差和高方差的问题,还有效节约了数据资源;构建加权融合模型,以用于预测金融风险,显著提升了模型的预测效果,提高了模型精度和准确度,还优化了金融风险预测方法。
[0138]
实施例2
[0139]
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
[0140]
参照图4、图5和图6,本发明还提供了一种基于迁移样本筛选的金融风险预测装置400,包括:数据获取模块401,其用于获取历史样本数据,确定源域训练集和目标域训练集;第一训练模块402,基于所述目标域训练集训练多个子模型,并从训练好的多个子模型中选出至少两个子模型;样本筛选模块403,其用于使用所选出的至少两个子模型,根据样本筛选策略,在所述源域数据集中进行迁移样本筛选,以形成迁移样本训练集;合并模块404,用于将所形成的迁移样本训练集与目标域训练集合并,以得到新目标域训练集;第二训练模块405,用于使用所述新目标域数据集,训练金融风险预测模型;计算模块406,用于使用训练好的金融风险预测模型,计算目标用户在目标域上的用户风险预测值。
[0141]
优选地,还包括:通过最大互信息系数mic,从训练好的多个子模型中选取三个子模型。
[0142]
优选地,还包括:使用所述三个子模型进行加权融合,以构建融合模型作为金融风险预测模型;所述加权融合包括使用各子模型在验证集上所计算的评价指标值作为权重系数,该评价指标值为auc值。
[0143]
如图5所示,还包括提取模块501,所述提取模块501从源域数据集和目标域数据集中提取模型特征,该模型特征包括与金融风险相关的共性特征、解释性特征和区别特征;根据模型特征,从所述源域数据集中筛选样本数据,建立训练集和测试集,并从所述目标域数据集中筛选样本数据,建立目标域测试集。
[0144]
如图6所示,还包括设定模块601,所述设定模块601用于设定样本筛选策略,所述样本筛选策略包括设定筛选指标,其中,该筛选指标包括待去除的样本比例、初始权重系数、权重更新方式和次数、最大迭代次数、最小比对阈值和最大比对阈值;所述筛选规则包括判断是否达到最大迭代次数、是否更新权重系数、是否小于最小比对阈值、是否大于等于最大比对阈值中的至少两个。
[0145]
优选地,还包括:对于训练集的样本数据,将各子模型的输出结果与最小比对阈值和最大比对阈值进行比较,将小于最小比对阈值或者大于等于最大比对阈值的样本去除。
[0146]
优选地,还包括:对于训练集和测试集的样本数据,使用tradaboost算法,分别计
算各样本数据的输出结果的错误率;根据所计算的错误率,重新调整样本权重,所述重新调整样本权重包括提高或降低权重系数。
[0147]
优选地,还包括:设定第一资源配额阈值和第二资源配额阈值;获取大于等于第一资源配额阈值的样本数据作为源域数据集;获取小于第二资源配额阈值的样本数据作为目标域数据集。
[0148]
优选地,所述金融表现数据包括违约概率和/或逾期概率。
[0149]
需要说明的是,在实施例2中,省略了与实施例1相同的部分的说明。
[0150]
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0151]
与现有技术相比,本发明的金融风险预测装置使用tradaboost(transferadaboost)算法,进行样本筛选和迁移、重建目标域训练数据集,有效避免了因样本数据而导致的高偏差和高方差的问题,还有效节约了数据资源;构建加权融合模型,以用于预测金融风险,显著提升了模型的预测效果,提高了模型精度和准确度。
[0152]
实施例3
[0153]
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
[0154]
图7是根据本发明的一种电子设备的示例性实施例的结构框图。下面参照图7来描述根据本发明该实施例的的电子设备200。图7显示的电子设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0155]
如图7所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
[0156]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子设备的处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图1所示的步骤。
[0157]
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(rom)2203。
[0158]
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0159]
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0160]
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调
器等等)通信。这种通信可以通过输入/输出(i/o)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0161]
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法。
[0162]
如图8所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0163]
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0164]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0165]
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信
号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0166]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1