金融交易数据处理方法、欺诈行为的监测方法和装置与流程

文档序号:22740966发布日期:2020-10-31 09:24阅读:196来源:国知局
金融交易数据处理方法、欺诈行为的监测方法和装置与流程

本发明涉及计算机领域,尤其涉及一种金融交易数据处理方法、欺诈行为的监测方法和装置。



背景技术:

一般地,在提取公积金或贷款时需要对用户提交的材料进行人工审核。其中,人工审核的部分主要是审核提交材料的真实性及是否满足中心的政策条件:购房收据、房产证等是否真实;是否满足提取的条件;是否满足连续缴存的条件;申请贷款额度是否符合政策条件等。但是,通过人工审核无法确定用户出现欺诈行为(骗提或骗贷)的概率,无法有效降低风险,且人工审核的工作量较大会导致审核效率低。



技术实现要素:

有鉴于此,本发明实施例提供一种金融交易数据处理方法、欺诈行为的监测方法和装置,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题。

为实现上述目的,根据本发明实施例的一个方面,提供了一种金融交易数据处理方法。

本发明实施例的金融交易数据处理方法包括:

获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;

所述聚类模型以及所述第一预测模型的训练过程:将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一测试集对应一次训练过程,共经过k次训练过程;轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;

根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

可选地,所述将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数的步骤之后,所述方法还包括:

获取第四预设数量的第一有效样本;其中,所述第一有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据;

接收第五预设数量的第二指令,不同的所述第二指令指示了不同的第二预测模型的初始模型参数,基于所述第五预设数量的第二指令,将第二预测模型的训练过程循环计算所述第五预设数量次;

所述第二预测模型的训练过程:将所述第四预设数量的第一有效样本分成k份,轮流将其中k-1份作为第二训练集,剩下的1份作为第二测试集;轮流将所述第一预测模型所得的预测结果作为第二分类标签加入所述第一有效样本中,将所述第一有效样本输入第二预测模型中,确定每次迭代计算得到的所述第二预测模型的模型参数;轮流通过每个所述第二测试集验证每次训练过程得到的所述第二预测模型的预测准确率;

根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第二评价指标;将所述第五预设数量的循环过程中所述第二评价指标最高的初始模型参数和训练模型参数作为所述第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。

可选地,在获取第一预设数量的有效样本的步骤或获取第四预设数量的第一有效样本的步骤之前,所述方法还包括:

获取一个或多个用户的金融交易数据;

从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本;

筛选掉所述候选样本中身份特征不是有效数据的样本;

将筛选后的候选样本按照预设的清洗规则进行清洗处理,以得到有效样本。

可选地,所述预设的清洗规则包括:

1)若所述候选样本中有超过第六预设数量的特征数据为空,则删除所述候选样本;

2)若每个所述候选样本的第一特征为空或无效,则删除所述第一特征;

3)若每个所述候选样本的第二特征为相同值,则删除所述第二特征。

可选地,从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本,包括:

以用户为颗粒度且以用户的身份特征作为识别,基于spark框架从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。

可选地,在将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集的步骤或者将所述第四预设数量的第一有效样本分成k份,轮流将其中k-1份作为第二训练集,剩下的1份作为第二测试集的步骤之后,所述方法还包括:

将每一期测试集与整个k-1份训练集拼接;其中,所述测试集为第一测试集或第二测试集,所述训练集对应为第一训练集或第二训练集;

去除每一期所述测试集中每个有效样本的异常值。

可选地,所述去除每一期所述测试集中每个有效样本的异常值,包括:

确定拼接后的集合中不同有效样本的相同特征数据的分位点;

判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;

若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;

若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。

可选地,在将所述第一预设数量的有效样本划分为第一训练集和第一测试集的步骤之后,所述方法还包括:

将每个所述训练集中有效样本的特征数据进行标准化处理。

可选地,所述将每个所述训练集中有效样本的特征数据进行标准化处理,包括:

根据以下公式,将每个所述训练集中有效样本的特征数据进行标准化处理:

其中,x表示每个所述第一训练集或第二训练集中有效样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

可选地,所述有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。

可选地,所述聚类模型为kmeans聚类模型,所述第一预测模型和所述第二预测模型为xgboost模型。

为实现上述目的,根据本发明实施例的另一个方面,提供了一种欺诈行为的监测方法。

本发明实施例的欺诈行为的监测方法包括:

接收用户发送的提取或贷款的请求,根据所述请求获取所述用户在预设的特征库中的特征数据;所述请求携带有所述用户上报的金融交易数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

根据所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据,形成测试样本;其中,所述测试样本是从所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据中提取得到的至少一个维度的特征数据;

采用聚类模型将所述测试样本进行聚类,以得到所述测试样本的第三分类标签,将所述第三分类标签加入所述测试样本中;

将加入所述第三分类标签的测试样本输入到金融交易数据处理方法得到的第一预测模型,得到第一预测结果,所述第一预测结果用于表示所述用户出现欺诈行为的概率。

可选地,所述根据所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据,形成测试样本,包括:

从所述用户上报的金融交易数据提取第一特征数据;

将所述第一特征数据与所述用户在预设的特征库中的特征数据合并;

将合并后的特征数据经过筛选处理、清洗处理形成测试样本。

可选地,在所述根据所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据,形成测试样本步骤之后,所述方法包括:

对测试样本进行去异常值处理以及标准化处理。

可选地,所述方法还包括:

在同意所述用户的提取或贷款的请求后,按照预设周期获取所述用户的金融交易数据,形成第二测试样本;

将所述第一预测结果作为第四分类标签加入所述第二测试样本中;

将加入所述第四分类标签的测试样本输入至金融交易数据处理方法得到的第二预测模型中,得到第二预测结果,所述第二预测结果用于表示在同意所述用户的提取或贷款的请求后所述用户出现欺诈行为的概率。

可选地,所述聚类模型为kmeans聚类模型,所述第一预测模型和所述第二预测模型为xgboost模型。

为实现上述目的,根据本发明实施例的另一个方面,提供了一种金融交易数据处理装置。

本发明实施例的金融交易数据处理装置包括:

第一获取模块,获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

第一接收模块,用于接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;

第一划分模块,用于将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一测试集对应一次训练过程,共经过k次训练过程;

第一聚类模块,用于轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;

第一预测模块,用于轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;

第一确定模块,用于根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

为实现上述目的,根据本发明实施例的另一个方面,提供了一种欺诈行为的监测装置。

本发明实施例的欺诈行为的监测装置包括:

第三接收模块,用于接收用户发送的提取或贷款的请求,根据所述请求获取所述用户在预设的特征库中的特征数据;所述请求携带有所述用户上报的金融交易数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

合并模块,用于根据所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据,形成测试样本;其中,所述测试样本是从所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据中提取得到的至少一个维度的特征数据;

第三聚类模块,用于采用金融交易数据处理方法得到的聚类模型将所述测试样本进行聚类,以得到所述测试样本的第三分类标签,将所述第三分类标签加入所述测试样本中;

第三预测模块,用于将加入所述第三分类标签的测试样本输入到金融交易数据处理方法得到的第一预测模型,得到第一预测结果,所述第一预测结果用于表示所述用户出现欺诈行为的概率。

为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。

本发明实施例的电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。

为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质。

本发明实施例的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法。

上述发明中的一个实施例具有如下优点或有益效果:

通过本发明实施例的金融交易数据处理方法,可以得到用于预测用户出现欺诈行为概率的聚类模型以及第一预测模型,可以理解的是,通过训练得到的所述聚类模型以及所述第一预测模型确定用户出现欺诈行为的概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是本发明第一实施例的金融交易数据处理方法的流程示意图;

图2是本发明实施例的生成有效样本的流程示意图;

图3是本发明第一实施例的金融交易数据处理方法的流程示意图;

图4是本发明第二实施例的金融交易数据处理方法的流程示意图;

图5是本发明第三实施例的金融交易数据处理方法的流程示意图;

图6是本发明第一实施例的欺诈行为的监测方法的流程示意图;

图7是本发明实施例的金融交易数据处理方法以及欺诈行为的监测方法的流程示意图;

图8是本发明实施例的金融交易数据处理装置的模块示意图;

图9是本发明实施例的欺诈行为的监测装置的模块示意图;

图10是本发明实施例可以应用于其中的示例性系统架构图;

图11是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本发明实施例提供了一种金融交易数据处理方法,所述金融交易数据处理方法的执行主体可以为服务端。图1是本发明第一实施例的金融交易数据处理方法的流程示意图,如图1所示,所述金融交易数据处理方法具体可以包括如下步骤:

步骤11:获取第一预设数量的有效样本;

在步骤11中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;为了保证事前预测的准确性,所述有效样本可以根据未同意用户的提取或贷款的请求之前的金融交易数据获取的。所述第一预设数量的有效样本可以为相同用户或不同用户的金融交易数据所提取的特征数据,所述第一预设数量的具体取值可以根据实际需要确定,本发明实施例并不具体限定所述第一预设数量的具体取值。

参见表1,所述有效样本可以以表格形式存储在数据库,最终可以形成特征库,所述数据库可以为hive数据库,hive数据库是基于hadoop(hadoop是一种分布式系统基础架构)的一个数据仓库工具,用来进行数据提取、转化和加载。所述有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。所述身份特征维度包括:id(identity,账号)和个人基本信息两个子维度,id子维度至少包括:证件号码、中心编号、中心所在地以及当前所在公司统一社会信用代码等特征。个人基本信息子维度至少包括:是否外地务工、年龄、年龄占所在单位的分位数、性别、婚姻状况、学历、职业、行业以及近一年是否纳入黑名单等特征。所述履约能力维度至少包括:资金基础、健康状态和债务状态三个子维度。其中所述资金基础子维度包括:缴存开户日期、个人缴存比例、缴存基数、账户余额、个人月缴存额、单位缴存额以及当前缴存状态等特征。所述健康状态子维度至少包括:是否大病以及是否丧失劳动能力等特征。所述债务状态子维度至少包括:贷款余额、共同借款人还款系数、贷款风险等级、贷前审核等级等特征。所述履约意愿子维度至少包括:债务进度子维度,所述债务进度子维度包括:余额房价比、还款时间进度、已还本金、累计逾期数以及当前贷款状态等特征。所述行为轨迹维度至少包括:缴存轨迹、提取轨迹以及贷款轨迹三个子维度,所述缴存轨迹子维度至少包括:近6个月是否工作变动、近6个月缴纳地是否发生变动、同时存在缴存户数、当前断缴月数、近6个月是否连续缴存以及近6个月是否发生基数变动等特征。所述提取轨迹子维度至少包括:近三个月提取总额百分比、近三个月平均提取额百分比、近三月因购房影响现金流提取百分比以及近三个月因偿还贷款提取百分比等特征。所述贷款轨迹子维度至少包括:近6个月是否发生提前还款、近6个月还款成功次数、近6个月逾期次数以及一人多贷合同张数等特征。所述社会关系维度至少包括:公司和关系人两个子维度,其中公司子维度至少包括:所在公司缴纳人员规模、所在公司人员流动性、所在公司员工平均年龄以及所在公司员工缴纳均值等特征。所述关系人子维度至少包括:共同借款人年龄均值、共同借款人月缴存额总额以及共同借款人参贷关系异常等特征。所述贷款标的特征维度至少包括:中心贷款政策以及贷款合同信息等子维度,所述中心贷款政策子维度至少包括:首贷最高额度的特征,贷款合同信息子维度至少包括:贷款利率、是否异地购房、贷款总额、房屋总价值、户型以及贷款期限等特征。

参见图2,所述有效样本是将特征数据进行筛选处理和清洗处理得到的样本。可以理解的是,在步骤11之前,所述方法还包括:

步骤111:获取一个或多个用户的金融交易数据;

在步骤111中,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据。

步骤112:从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本;

在步骤112中,可以根据表1所示的特征库,从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。

进一步地,可以以用户为颗粒度且以用户的身份特征作为识别,基于spark框架从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。apachespark是专为大规模数据处理而设计的快速通用的计算引擎,spark是在scala语言中实现的。

步骤113:筛选掉所述候选样本中身份特征不是有效数据的样本;

在步骤113中,可以筛选掉所述候选样本中年龄和性别不是有效数据的样本;可以理解的是,年龄和性别必须为有效数据,如果不为有效数据,则删除候选样本。

步骤114:将筛选后的候选样本按照预设的清洗规则进行清洗处理,以得到有效样本。

在步骤114中,所述预设的清洗规则包括:

1)若所述候选样本中有超过第六预设数量的特征数据为空,则删除所述候选样本;

2)若每个所述候选样本的第一特征为空或无效,则删除所述第一特征;

3)若每个所述候选样本的第二特征为相同值,则删除所述第二特征。

为了保证模型训练的准确性,在所述第一预设数量的有效样本中有发生过欺诈行为的坏样本。所述坏样本指的是历史发生过骗提和/或骗贷的用户的数据样本。

表1特征库

步骤12:接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次,所述聚类模型以及所述第一预测模型的训练过程为步骤13至步骤16。

在步骤12中,可以根据实际需求确定所述第二预设数量的具体取值。需要说明的是,在聚类模型以及第一预测模型的训练过程中,可以设置多套初始模型参数,且会将每套初始模型参数均输入到模型进行训练,每套初始模型参数对应一次循环过程,总共经过第二预设数量次循环过程,一次循环过程包括k次训练过程,每次训练过程中包括k次迭代计算。

对应的,所述第一预测模型的初始模型参数至少包括:

1)每棵数最大的层数(max_depth);

2)学习效率(learning_rate),给每棵数的预测结果附上权重;

3)生成树的最大数量(n_estimators);

4)求解的底层模型,所述底层模型有‘gbdt’、‘linear’、‘dart’等,可以理解的是,需要确定采用什么底层模型求解;

5)一次正则项(reg_alpha);

6)二次正则项(reg_lambda);

7)生成每棵数之前数据抽样的比例(subsample);

8)生成每棵数之前特征抽样的比例(colsample_bytree);

9)每棵数中每次节点分裂的特征抽样比例(colsample_bylevel);

10)设定每个样本的权重(scale_pos_weight),比如坏样本特别少的情况下,则需要提高每个坏样本的损失函数权重。

步骤13:将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集;

在步骤13中,训练集用于表示在机器学习中训练模型的数据样本的集合。测试集用于表示在机器学习中验证模型准确性的数据样本的集合。所述第一训练集和所述第一测试集不重叠,而且在时间序列的问题中,通常将较新的数据作为第一测试集,这样可以模拟模型对于未来数据的适应性。

进一步地,可以采用随机方式将所述第一预设数量的有效样本分成k份,k≥3且k为整数。可以根据实际需要确定k的具体取值,k的取值可以为5或10等,k的取值优选为5。

可以理解的是,可以有k种划分方式将有效样本划分为第一训练集和第一测试集,每个所述第一训练集对应一次训练过程,共经过k次训练过程,每次训练过程迭代计算k次,即每次训练过程步骤13至步骤16循环执行k次。例如:将所述第一预设数量的有效样本以下5份:a1、a2、a3、a4和a5,第一训练集和第一测试集的分配方式有5种:1)a2、a3、a4和a5作为第一训练集,a1作为第一测试集;2)a1、a3、a4和a5作为第一训练集,a2作为第一测试集;3)a1、a2、a4和a5作为第一训练集,a3作为第一测试集;4)a1、a2、a3和a5作为第一训练集,a4作为第一测试集;5)a1、a2、a3和a4作为第一训练集,a5作为第一测试集;即步骤13至步骤16会循环执行5次,进而根据5次迭代计算结果确定最优的模型参数。

为了保证训练的准确性,在步骤13之后,还可以对第一测试集进行去异常值处理并对第一训练集进行标准化处理。具体流程为:首先将每一期第一测试集与整个k-1份第一训练集拼接;然后去除每一期所述第一测试集中每个有效样本的异常值,再将每个所述第一训练集中有效样本的特征数据进行标准化处理。

具体地,在对第一测试集进行去异常值处理时,可以首先确定拼接后的集合中不同有效样本的相同特征数据的分位点;然后判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。可以根据需要确定所述第一分位点和所述第二分位点的具体取值,例如:所述第一分位点为2%,所述第二分位点为98%。需要说明的是,本发明实施例并不具体限定所述第一分位点和所述第二分位点的具体取值。

具体地,在对第一训练集进行标准化处理时,可以根据以下公式,将每个所述第一训练集中有效样本的特征数据进行标准化处理:

其中,x表示每个所述第一训练集中有效样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

步骤14:轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;

在步骤14中,所述聚类模型的作用是将每个所述第一训练集聚类成第三预设数量的簇,可以根据实际需要确定所述第三预设数量的具体取值,例如:可以通过所述聚类模型按照年龄将所述第一训练集分类成老年、少年和中青年3簇。所述聚类模型可以为kmeans聚类模型、高斯混合模型、基于密度的聚类模型或凝聚层次聚类模型等,所述聚类模型优选为kmeans聚类模型,kmeans聚类模型是一种采用非监督学习算法的聚类模型,这样可以给所述第一预设数量的有效样本做了一个预分类,增加了一个衍生指标。

步骤15:轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;

在步骤15中,所述第一预测模型可以为xgboost模型,其中xgboost模型为一个优化的梯度增强库,根据的算法框架是gradientboosting(梯度提升)决策树模型。

参见图3,所述有效样本以特征表的形式保存,通过所述聚类模型得到的第一分类标签会加入所述有效样本对应的特征表中,并将加入所述第一分类标签的特征表输入位于下层的第一预测模型,确定每次迭代计算得到的所述第一预测模型的训练模型参数。

步骤16:轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;

在步骤16中,可以基于混淆矩阵(confusion-matrix),通过所述第一测试集验证所述聚类模型和所述第一预测模型的预测准确率。进一步地,可以将k次训练过程所得结果的均值作为第一预测模型的精度。

例如:将所述第一预设数量的有效样本随机分成5份,轮流用其中的4份训练,剩下1份验证,需要经过5次训练过程,每次训练过程需要迭代计算5次,并选取在5次训练过程所得结果的均值作为第一预测模型的精度。

步骤17:根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

在步骤17中,所述第一评价指标可以理解的为k次训练过程中准确率的平均值与k次训练过程中准确率的标准差的比值。

通过本发明实施例的金融交易数据处理方法,可以得到用于预测用户出现欺诈行为概率的聚类模型以及第一预测模型,可以理解的是,通过训练得到的所述聚类模型以及所述第一预测模型确定用户出现欺诈行为的概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

图4是本发明第二实施例的金融交易数据处理方法的流程示意图,所述金融交易数据处理方法的执行主体可以为服务端,如图4所示,所述金融交易数据处理方法具体可以包括如下步骤:

步骤401:获取第一预设数量的有效样本;

在步骤401中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;为了保证事前预测的准确性,所述有效样本可以根据未同意用户的提取或贷款的请求之前的金融交易数据获取的。所述第一预设数量的有效样本可以为相同用户或不同用户的金融交易数据所提取的特征数据,所述第一预设数量的具体取值可以根据实际需要确定,本发明实施例并不具体限定所述第一预设数量的具体取值。

参见表1,所述有效样本可以以表格形式进行存储,最终可以形成特征库。所述有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。所述身份特征维度包括:id(identity,账号)和个人基本信息两个子维度,id子维度至少包括:证件号码、中心编号、中心所在地以及当前所在公司统一社会信用代码等特征。个人基本信息子维度至少包括:是否外地务工、年龄、年龄占所在单位的分位数、性别、婚姻状况、学历、职业、行业以及近一年是否纳入黑名单等特征。所述履约能力维度至少包括:资金基础、健康状态和债务状态三个子维度。其中所述资金基础子维度包括:缴存开户日期、个人缴存比例、缴存基数、账户余额、个人月缴存额、单位缴存额以及当前缴存状态等特征。所述健康状态子维度至少包括:是否大病以及是否丧失劳动能力等特征。所述债务状态子维度至少包括:贷款余额、共同借款人还款系数、贷款风险等级、贷前审核等级等特征。所述履约意愿子维度至少包括:债务进度子维度,所述债务进度子维度包括:余额房价比、还款时间进度、已还本金、累计逾期数以及当前贷款状态等特征。所述行为轨迹维度至少包括:缴存轨迹、提取轨迹以及贷款轨迹三个子维度,所述缴存轨迹子维度至少包括:近6个月是否工作变动、近6个月缴纳地是否发生变动、同时存在缴存户数、当前断缴月数、近6个月是否连续缴存以及近6个月是否发生基数变动等特征。所述提取轨迹子维度至少包括:近三个月提取总额百分比、近三个月平均提取额百分比、近三月因购房影响现金流提取百分比以及近三个月因偿还贷款提取百分比等特征。所述贷款轨迹子维度至少包括:近6个月是否发生提前还款、近6个月还款成功次数、近6个月逾期次数以及一人多贷合同张数等特征。所述社会关系维度至少包括:公司和关系人两个子维度,其中公司子维度至少包括:所在公司缴纳人员规模、所在公司人员流动性、所在公司员工平均年龄以及所在公司员工缴纳均值等特征。所述关系人子维度至少包括:共同借款人年龄均值、共同借款人月缴存额总额以及共同借款人参贷关系异常等特征。所述贷款标的特征维度至少包括:中心贷款政策以及贷款合同信息等子维度,所述中心贷款政策子维度至少包括:首贷最高额度的特征,贷款合同信息子维度至少包括:贷款利率、是否异地购房、贷款总额、房屋总价值、户型以及贷款期限等特征。

参见图2,所述有效样本是将特征数据进行筛选处理和清洗处理得到的样本。可以理解的是,在步骤11之前,所述方法还包括:

步骤111:获取一个或多个用户的金融交易数据;

在步骤111中,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据。

步骤112:从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本;

在步骤112中,可以根据表1所示的特征库,从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。

进一步地,可以以用户为颗粒度且以用户的身份特征作为识别,基于spark框架从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。

步骤113:筛选掉所述候选样本中身份特征不是有效数据的样本;

在步骤113中,可以筛选掉所述候选样本中年龄和性别不是有效数据的样本;可以理解的是,年龄和性别必须为有效数据,如果不为有效数据,则删除候选样本。

步骤114:将筛选后的候选样本按照预设的清洗规则进行清洗处理,以得到有效样本。

在步骤114中,所述预设的清洗规则包括:

1)若所述候选样本中有超过第六预设数量的特征数据为空,则删除所述候选样本;

2)若每个所述候选样本的第一特征为空或无效,则删除所述第一特征;

3)若每个所述候选样本的第二特征为相同值,则删除所述第二特征。

为了保证模型训练的准确性,在所述第一预设数量的有效样本中有发生过欺诈行为的坏样本。所述坏样本指的是历史发生过骗提和/或骗贷的用户的数据样本。

步骤402:接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次,所述聚类模型以及所述第一预测模型的训练过程为步骤403至步骤406。

在步骤402中,可以根据实际需求确定所述第二预设数量的具体取值。需要说明的是,在聚类模型以及第一预测模型的训练过程中,可以设置多套初始模型参数,且会将每套初始模型参数均输入到模型进行训练,每套初始模型参数对应一次循环过程,总共经过第二预设数量次循环过程,一次循环过程包括k次训练过程,每次训练过程中包括k次迭代计算。

对应的,所述第一预测模型的初始模型参数至少包括:

1)每棵数最大的层数(max_depth);

2)学习效率(learning_rate),给每棵数的预测结果附上权重;

3)生成树的最大数量(n_estimators);

4)求解的底层模型,所述底层模型有‘gbdt’、‘linear’、‘dart’等,可以理解的是,需要确定采用什么底层模型求解;

5)一次正则项(reg_alpha);

6)二次正则项(reg_lambda);

7)生成每棵数之前数据抽样的比例(subsample);

8)生成每棵数之前特征抽样的比例(colsample_bytree);

9)每棵数中每次节点分裂的特征抽样比例(colsample_bylevel);

10)设定每个样本的权重(scale_pos_weight),比如坏样本特别少的情况下,则需要提高每个坏样本的损失函数权重。

步骤403:将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集;

在步骤403中,训练集用于表示在机器学习中训练模型的数据样本的集合。测试集用于表示在机器学习中验证模型准确性的数据样本的集合。所述第一训练集和所述第一测试集不重叠,而且在时间序列的问题中,通常将较新的数据作为第一测试集,这样可以模拟模型对于未来数据的适应性。

进一步地,可以采用随机方式将所述第一预设数量的有效样本分成k份,k≥3且k为整数。可以根据实际需要确定k的具体取值,k的取值可以为5或10等,k的取值优选为5。

可以理解的是,可以有k种划分方式将有效样本划分为第一训练集和第一测试集,每个所述第一训练集对应一次训练过程,共经过k次训练过程,每次训练过程迭代计算k次,即每次训练过程步骤403至步骤406循环执行k次。例如:将所述第一预设数量的有效样本以下5份:a1、a2、a3、a4和a5,第一训练集和第一测试集的分配方式有5种:1)a2、a3、a4和a5作为第一训练集,a1作为第一测试集;2)a1、a3、a4和a5作为第一训练集,a2作为第一测试集;3)a1、a2、a4和a5作为第一训练集,a3作为第一测试集;4)a1、a2、a3和a5作为第一训练集,a4作为第一测试集;5)a1、a2、a3和a4作为第一训练集,a5作为第一测试集;即步骤403至步骤406会循环执行5次,进而根据5次迭代计算结果确定最优的模型参数。

为了保证训练的准确性,在步骤403之后,还可以对第一测试集进行去异常值处理并对第一训练集进行标准化处理。具体流程为:首先将每一期第一测试集与整个k-1份第一训练集拼接;然后去除每一期所述第一测试集中每个有效样本的异常值,再将每个所述第一训练集中有效样本的特征数据进行标准化处理。

具体地,在对第一测试集进行去异常值处理时,可以首先确定拼接后的集合中不同有效样本的相同特征数据的分位点;然后判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。可以根据需要确定所述第一分位点和所述第二分位点的具体取值,例如:所述第一分位点为2%,所述第二分位点为98%。需要说明的是,本发明实施例并不具体限定所述第一分位点和所述第二分位点的具体取值。

具体地,在对第一训练集进行标准化处理时,可以根据以下公式,将每个所述第一训练集中有效样本的特征数据进行标准化处理:

其中,x表示每个所述第一训练集中有效样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

步骤404:轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;

在步骤404中,所述聚类模型的作用是将每个所述第一训练集聚类成第三预设数量的簇,可以根据实际需要确定所述第三预设数量的具体取值,例如:可以通过所述聚类模型按照年龄将所述第一训练集分类成老年、少年和中青年3簇。所述聚类模型可以为kmeans聚类模型、高斯混合模型、基于密度的聚类模型或凝聚层次聚类模型等,所述聚类模型优选为kmeans聚类模型,kmeans聚类模型是一种采用非监督学习算法的聚类模型,这样可以给所述第一预设数量的有效样本做了一个预分类,增加了一个衍生指标。

步骤405:轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;

在步骤405中,所述第一预测模型可以为xgboost模型,其中xgboost模型为一个优化的梯度增强库,根据的算法框架是gradientboosting(梯度提升)决策树模型。

参见图3,所述有效样本以特征表的形式保存,通过所述聚类模型得到的第一分类标签会加入所述有效样本对应的特征表中,并将加入所述第一分类标签的特征表输入位于下层的第一预测模型,确定每次迭代计算得到的所述第一预测模型的训练模型参数。

步骤406:轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;

在步骤406中,可以基于混淆矩阵(confusion-matrix),通过所述第一测试集验证所述聚类模型和所述第一预测模型的预测准确率。进一步地,可以将k次训练过程所得结果的均值作为第一预测模型的精度。

例如:将所述第一预设数量的有效样本随机分成5份,轮流用其中的4份训练,剩下1份验证,需要经过5次训练过程,每次训练过程需要迭代计算5次,并选取在5次训练过程所得结果的均值作为第一预测模型的精度。

步骤407:根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

在步骤407中,所述第一评价指标可以理解的为k次训练过程中准确率的平均值与k次训练过程中准确率的标准差的比值。

步骤408:获取第四预设数量的第一有效样本;

在步骤408中,所述第一有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据。为了保证事前预测的准确性,所述有效样本可以根据同意用户的提取或贷款的请求之前的金融交易数据获取的。所述第一有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。所述第三预设数量的具体取值可以根据实际需要确定,本发明实施例并不具体限定所述第三预设数量的具体取值。

需要说明的是,所述有效样本与所述第一有效样本的生成过程相同,即可以参见图2所示的流程完成所述第一有效样本的生成过程,所述第一有效样本是将特征数据进行筛选处理和清洗处理得到的样本,相似之处不再赘述。

为了保证模型训练的准确性,在所述第四预设数量的第一有效样本中有发生过欺诈行为的坏样本。所述坏样本指的是历史发生过骗提和/或骗贷的用户的数据样本。

步骤409:接收第五预设数量的第二指令,不同的所述第二指令指示了不同的第二预测模型的初始模型参数,基于所述第五预设数量的第二指令,将第二预测模型的训练过程循环计算所述第五预设数量次;所述第二预测模型的训练过程为步骤410至步骤412。

步骤410:将所述第四预设数量的第一有效样本分成k份,轮流将其中k-1份作为第二训练集,剩下的1份作为第二测试集;

在步骤410中,可以采用随机方式将所述第四预设数量的第一有效样本分成k份,k≥3且k为整数。可以根据实际需要确定k的具体取值,k的取值可以为5或10等,k的取值优选为5。可以理解的是,每个第二测试集对应一次训练过程,共需要经过k次训练过程,每次训练过程迭代计算k次,即每次训练过程步骤408至步骤409循环执行k次。

为了保证训练的准确性,在步骤410之后,还可以对第二测试集进行去异常值处理并对第二训练集进行标准化处理,具体处理流程可以参见第一测试集的去异常值处理过程以及第一训练集的标准化处理过程,相似之处不再赘述。

步骤411:轮流将所述第一预测模型所得的预测结果作为第二分类标签加入对应的第一有效样本中,将所述第一有效样本输入第二预测模型中,确定每次迭代计算得到的所述第二预测模型的训练模型参数;

在步骤411中,所述第二预测模型可以为xgboost模型,其中xgboost模型为一个优化的梯度增强库,根据的算法框架是gradientboosting(梯度提升)决策树模型。对应的,所述第二预测模型的模型参数与所述第一预测模型的模型参数相似,相似之处不再赘述。

步骤412:轮流通过每个所述第二测试集验证每次训练过程得到的所述第二预测模型的预测准确率;

在步骤412中,可以基于混淆矩阵(confusion-matrix),通过所述第二测试集验证所述聚类模型和所述第二预测模型的预测准确率。

步骤413:根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第二评价指标;将所述第五预设数量的循环过程中所述第二评价指标最高的初始模型参数和训练模型参数作为所述第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。

在步骤413中,所述第二评价指标可以理解的为k次训练过程中准确率的平均值与k次训练过程中准确率的标准差的比值。

参见图3,所述有效样本以特征表的形式保存,通过所述聚类模型得到的第一分类标签会加入所述有效样本对应的特征表中,并将加入所述第一分类标签的特征表输入位于下层的第一预测模型,确定所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型可以确定用户出现欺诈行为的概率。然后将第一预测模型所得的预测结果作为第二分类标签加入第一有效样本中,对第二预测模型进行训练,得到第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。

通过本发明实施例的金融交易数据处理方法,可以得到用于预测用户出现欺诈行为概率的聚类模型以及第一预测模型,可以理解的是,通过训练得到的所述聚类模型以及所述第一预测模型确定用户出现欺诈行为的概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

图5是本发明第三实施例的金融交易数据处理方法的流程示意图,所述金融交易数据处理方法的执行主体可以为服务端,如图5所示,所述金融交易数据处理方法具体可以包括如下步骤:

步骤501:获取第一预设数量的有效样本;

在步骤501中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

步骤502:接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次,所述聚类模型以及所述第一预测模型的训练过程为步骤403至步骤406。

需要说明的是,步骤502的实施原理与步骤12和步骤402的实施原理相似,相似之处不再赘述。

步骤503:将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集;

需要说明的是,步骤503的实施原理与步骤13和步骤403的实施原理相似,相似之处不再赘述。

步骤504:将每一期所述第一测试集与整个所述k-1份第一训练集拼接。

步骤505:去除每一期所述第一测试集中每个有效样本的异常值。

在步骤505中,可以首先确定拼接后的集合中不同有效样本的相同特征数据的分位点;然后判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。可以根据需要确定所述第一分位点和所述第二分位点的具体取值,例如:所述第一分位点为2%,所述第二分位点为98%。需要说明的是,本发明实施例并不具体限定所述第一分位点和所述第二分位点的具体取值。

步骤506:将每个所述第一训练集中有效样本的特征数据进行标准化处理。

在步骤506中,在对第一训练集进行标准化处理时,可以根据以下公式,将每个所述第一训练集中有效样本的特征数据进行标准化处理:

其中,x表示每个所述第一训练集中有效样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

步骤507:轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;

在步骤507中,所述聚类模型的作用是将每个所述第一训练集聚类成第三预设数量的簇,可以根据实际需要确定所述第三预设数量的具体取值,例如:可以通过所述聚类模型按照年龄将所述第一训练集分类成老年、少年和中青年3簇。所述聚类模型可以为kmeans聚类模型、高斯混合模型、基于密度的聚类模型或凝聚层次聚类模型等,所述聚类模型优选为kmeans聚类模型,kmeans聚类模型是一种采用非监督学习算法的聚类模型,这样可以给所述第一预设数量的有效样本做了一个预分类,增加了一个衍生指标。

步骤508:轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;

在步骤508中,所述第一预测模型可以为xgboost模型,其中xgboost模型为一个优化的梯度增强库,根据的算法框架是gradientboosting(梯度提升)决策树模型。

参见图3,所述有效样本以特征表的形式保存,通过所述聚类模型得到的第一分类标签会加入所述有效样本对应的特征表中,并将加入所述第一分类标签的特征表输入位于下层的第一预测模型,确定每次迭代计算得到的所述第一预测模型的训练模型参数。

步骤509:轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率。

在步骤509中,可以基于混淆矩阵(confusion-matrix),通过所述第一测试集验证所述聚类模型和所述第一预测模型的预测准确率。

步骤510:根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

步骤511:获取第四预设数量的第一有效样本;

在步骤511中,所述第一有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据。为了保证事前预测的准确性,所述有效样本可以根据同意用户的提取或贷款的请求之前的金融交易数据获取的。所述第一有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。所述第三预设数量的具体取值可以根据实际需要确定,本发明实施例并不具体限定所述第三预设数量的具体取值。

需要说明的是,所述有效样本与所述第一有效样本的生成过程相同,即可以参见图2所示的流程完成所述第一有效样本的生成过程,所述第一有效样本是将特征数据进行筛选处理和清洗处理得到的样本,相似之处不再赘述。

为了保证模型训练的准确性,在所述第四预设数量的第一有效样本中有发生过欺诈行为的坏样本。所述坏样本指的是历史发生过骗提和/或骗贷的用户的数据样本。

步骤512:接收第五预设数量的第二指令,不同的所述第二指令指示了不同的第二预测模型的初始模型参数,基于所述第五预设数量的第二指令,将第二预测模型的训练过程循环计算所述第五预设数量次;所述第二预测模型的训练过程为步骤513至步骤515。

步骤513:将所述第四预设数量的第一有效样本分成k份,轮流将其中k-1份作为第二训练集,剩下的1份作为第二测试集,其中每个所述第二测试集对应一次训练过程,共经过k次训练过程;

在步骤513中,可以采用随机方式将所述第四预设数量的第一有效样本分成k份,k≥3且k为整数。可以根据实际需要确定k的具体取值,k的取值可以为5或10等,k的取值优选为5。

为了保证训练的准确性,在步骤513之后,还可以对第二测试集进行去异常值处理并对第二训练集进行标准化处理,具体处理流程可以参见第一测试集的去异常值处理过程以及第一训练集的标准化处理过程,相似之处不再赘述。

步骤514:轮流将所述第一预测模型所得的预测结果作为第二分类标签加入对应的第一有效样本中,将所述第一有效样本输入第二预测模型中,确定每次迭代计算得到的所述第二预测模型的模型参数;

在步骤514中,所述第二预测模型可以为xgboost模型,其中xgboost模型为一个优化的梯度增强库,根据的算法框架是gradientboosting(梯度提升)决策树模型。对应的,所述第二预测模型的模型参数与所述第一预测模型的模型参数相似,相似之处不再赘述。

步骤515:轮流通过每个所述第二测试集验证每次训练过程得到的所述第二预测模型的预测准确率;

在步骤515中,可以基于混淆矩阵(confusion-matrix),通过所述第二测试集验证所述聚类模型和所述第二预测模型的预测准确率。

步骤516:根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第二评价指标;将所述第五预设数量的循环过程中所述第二评价指标最高的初始模型参数和训练模型参数作为所述第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。

在步骤516中,所述第二评价指标可以理解的为k次训练过程中准确率的平均值与k次训练过程中准确率的标准差的比值。

参见图3,所述有效样本以特征表的形式保存,通过所述聚类模型得到的第一分类标签会加入所述有效样本对应的特征表中,并将加入所述第一分类标签的特征表输入位于下层的第一预测模型,确定所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型可以确定用户出现欺诈行为的概率。然后将第一预测模型所得的预测结果作为第二分类标签加入第一有效样本中,对第二预测模型进行训练,得到第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。

通过本发明实施例的金融交易数据处理方法,可以得到用于预测用户出现欺诈行为概率的聚类模型以及第一预测模型,可以理解的是,通过训练得到的所述聚类模型以及所述第一预测模型确定用户出现欺诈行为的概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

基于以上金融交易数据处理方法,本发明实施例还提供了一种欺诈行为的监测方法,该欺诈行为的监测方法的执行主体可以为服务端或客户端,该欺诈行为的监测方法采用的模型是通过上述的金融交易数据处理方法得到的,可以用于公积金贷款或商业贷款等场景下预测欺诈行为,例如:可以在提交贷款或提取请求时预测欺诈行为或者在同意用户的贷款或提取请求后对用户的欺诈行为进行监控。图6是本发明第一实施例的欺诈行为的监测方法的流程示意图,如图6所示,所述欺诈行为的监测方法具体可以包括如下步骤:

步骤601:接收用户发送的提取或贷款的请求,根据所述请求获取所述用户在预设的特征库中的特征数据。

在步骤601中,所述请求携带有所述用户上报的金融交易数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据。

步骤602:根据所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据,形成测试样本;其中,所述测试样本是从所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据中提取得到的至少一个维度的特征数据;

在步骤602中,首先从所述用户上报的金融交易数据提取第一特征数据;然后将所述第一特征数据与所述用户在预设的特征库中的特征数据合并;再将合并后的特征数据经过筛选处理、清洗处理、去异常值处理以及标准化处理,形成测试样本。

需要说明的是,将合并后的特征数据进行筛选处理、清洗处理形成测试样本。为了提高监测的准确性,还可以对所述测试样本进行去异常值处理以及标准化处理。需要说明的是,应用监测过程中的筛选处理、清洗处理、去异常值处理以及标准化处理的处理流程与训练过程的处理流程相似。

在对合并后的特征数据进行筛选处理时,可以筛选掉身份特征不是有效数据的样本;例如:可以筛选掉所述候选样本中年龄和性别不是有效数据的样本。在对特征数据进行清洗处理时,可以按照预设的清洗规则进行清洗处理。

在所述测试样本进行去异常值处理时,可以首先确定拼接后的集合中不同有效样本的相同特征数据的分位点;然后判断测试样本中的特征数据的分位点是否低于第一分位点或高于第二分位点;若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。可以根据需要确定所述第一分位点和所述第二分位点的具体取值,例如:所述第一分位点为2%,所述第二分位点为98%。需要说明的是,本发明实施例并不具体限定所述第一分位点和所述第二分位点的具体取值。在对测试样本进行标准化处理时,可以根据以下公式,将测试样本的特征数据进行标准化处理:

其中,x表示测试样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

步骤603:采用金融交易数据处理方法得到的聚类模型将所述测试样本进行聚类,以得到所述测试样本的第三分类标签,将所述第三分类标签加入所述测试样本中;

步骤604:将加入所述第三分类标签的测试样本输入到金融交易数据处理方法得到的第一预测模型,得到第一预测结果,所述第一预测结果用于表示所述用户出现欺诈行为的概率。

在步骤604之后,可以将第一预测结果发送至应用层,并根据所述用户出现欺诈行为的概率,判断是否接受所述用户的请求;若所述用户出现欺诈行为的概率在预设范围内,则接受所述用户的请求;否则,则拒绝所述用户的请求,然后对用户提交的金融交易数据进行人工审核,若人工审核通过用户的提取或贷款的请求,可以通过上述训练方法得到的第二预测模型对用户的后期金融交易行为进行监控。

在步骤604之后,在同意所述用户的提取或贷款的请求后,按照预设周期获取所述用户的金融交易数据,形成第二测试样本;将所述第一预测结果作为第四分类标签加入所述第二测试样本中;将加入所述第四分类标签的测试样本输入至所述第二预测模型中,得到第二预测结果,所述第二预测结果用于表示在同意所述用户的提取或贷款的请求后所述用户出现欺诈行为的概率。

通过本发明实施例的欺诈行为的监测方法,可以用于预测用户出现欺诈行为概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

为了便于理解本发明实施例的金融交易数据处理方法和欺诈行为的监测方法,接下来结合图7以公积金场景为例进行示例性说明。住房公积金属专款专用,只能是租房、维修、购买住房等居住用途,只有满足政策条件和材料真实才能提取使用。所以有些缴存户提供假的异地购房的材料来套取公积金或者通过假离婚来再次申请首套房的公积金贷款。

参见图7,本发明实施例还提供了一种系统,所述系统包括:数据分析层、接口层以及应用层。所述数据分析层用于训练模型,所述接口层用于在模型发布后对欺诈行为进行监测,所述应用层用于将预测结果显示给审核人员,以便于审核人员审核。

1.数据分析层

金融交易数据的源数据是全国公积金中心缴存人的个人信息、缴存、提取、贷款等数据。剔除所述金融交易数据中身份证件无效记录、缴存状态异常记录、性别信息为空记录。时间维度的选定主要是根据源数据的数据质量和可得性。其中可得性是需要根据能够获得的坏样本的事件发生时间记录来确定的,这样可以避免未来函数的问题。其中,未来函数就是可能会引用到未来数据的函数,如果在训练中使用到未来的量,可能会使训练时的预测效果非常好,但是实际应用时预测的准确性低。例如:可以选择2019年到2020年第一季度止的金融交易数据作为源数据对模型进行训练。

其中,数据分析层的处理流程包括如下步骤:

步骤701:特征库设计、获取历史有效坏样本;

在步骤701,特征库设计是指在金融交易数据中所要获取的特征数据的种类,参见表1。

步骤702:特征库开发;

在步骤702中,特征库开发可以理解为按照预设的特征库从金融交易数据提取特征数据。从金融交易数据提取特征数据时,可以根据设计好的特征库,首先过滤掉身份证件无效记录、缴存状态异常记录、性别信息为空记录的异常的样本,以缴存个人为颗粒度,以身份证件作为唯一识别,在spark框架下进行特征开发。参见表1所示,所述有效样本包括六大维度:身份特征、履约能力、履约意愿、公积金行为轨迹、社会关系及标的特征,一共57个特征,所述特征库的特征数据可以以特征表形式进行存储。

步骤703:数据批处理;

在步骤703中,可以按照第一预设周期定期从缴存个人的金融交易数据中获取特征数据,并将特征数据以表格的形式存入数据库中,例如:可以按月度更新进行批处理,写入hive数据库。

步骤704:特征工程;

在步骤704中,所述特征工程用于对特征数据进行筛选处理和清洗处理形成有效样本,然后对有效样本进行去异常值处理和标准化处理。

在进行筛选处理时,首先按照坏样本的发生时间匹配出更早期的坏样本标签,其他样本则为未发生过的骗取事件的好样本,在每个时间节点下,以数据库能够获取到的最新数据为准。年龄和性别必须为有效数据,如果不为有效数据,则删除样本;

在进行清洗处理时,可以根据以下规则对数据进行清洗填充:

1)某条记录指标为空的数量超过1/3,删除该条记录

2)某一指标所有样本的数据全部为空或者无效,删除该指标

3)根据单指标初步分析,如果大量样本全为相同值,删除该指标

在对特征数据进行筛选处理和清洗处理后,按照随机取样,按照预设比例将样本分成测试集和训练集。例如:可以按照1:4的比例将样本分成测试集和训练集。

在进行异常值处理时,首将先每一期测试集和整个原始训练集拼接,然后在训练集中按逐个指标统计,将超过2%或98%分位点的数值由2%,98%分位点替代。需要保证的是,每一期测试集都不会和比其时间靠后的测试集样本合并在一起统计(避免未来函数)。

在进行标准化处理时,可以用以下公式对训练集中逐个指标进行标准化。测试集的标准化方法与训练集相同,但样本拼接按照去异常值中的方法进行处理。

其中,x表示测试集中每个样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

步骤704:模型选择;

参见图3,本发明实施例采取的模型结构可以为stacking,stacking为一种集成学习模型,首先使用kmeans模型聚类,将样本分成3簇,打上kmeans分类标签,将kmeans分类标签作为新的特征,输入到第二层的xgboost模型,通过第二层的xgboost模型可以得到事前预测得到结果。并将事前预测得到结果作为新的标签再加入到样本中,对第三层的xgboost模型进行训练。

步骤705:模型训练及验证;

本发明实施例采用的交叉验证方法是5折交叉验证,将样本随机分成5份,轮流用其中的4份训练,剩下1份验证,5次结果的均值作为模型精度的估计。评估准确率使用confusion-matrix(混淆矩阵),选取在5次中预测准确率最高的模型参数。

步骤706:模型训练完成后,完成模型发布以及api开发。

2.接口层

在所述聚类模型、所述第一预测模型和所述第二预测模型训练完成后,可以将聚类模型、第一预测模型和所述第二预测模型发布至接口层,模型接口由flask框架提供。

其中,接口层的处理流程具体包括如下步骤:

步骤707:接收用户发送的提取或贷款的请求,根据所述请求获取所述用户在预设的特征库中的特征数据;

步骤707中,所述请求携带有所述用户上报的金融交易数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

步骤708:数据提取、合并;

在步骤708中,从所述用户上报的金融交易数据提取特征数据;将特征数据与所述用户在预设的特征库中的特征数据合并;

步骤709:特征工程;

步骤710:采用事前识别模型对欺诈行为进行监测,并将模型审核结果发送给应用层;

在步骤710中,事前识别模型用于表示第一层的kmeans模型和第二层的xgboost模型。

步骤711:在同意用户的提取或贷款的请求后,采用事后预警模型对欺诈行为进行进一步监测。

在步骤711中,事后预警模型为第三层的xgboost模型。

3.应用层

在应用层,用户上交金融交易数据是最新的状态,所以首先提供给审核人员一个信息录入页面,根据用户材料中的信息进行填报;然后在接口层中,转化为模型需要的特征,并将其跟特征数据库中的数据进行合并,生成模型所需的完整的样本数据。

步骤712:接收接口层发送的模型审核结果,根据模型审核结果判断是否接受所述用户的请求;若所述用户出现欺诈行为的概率在预设范围内,则接受所述用户的请求;否则,则拒绝所述用户的请求,然后对用户提交的金融交易数据进行人工审核,若人工审核通过用户的提取或贷款的请求,可以通过上述训练方法得到的事后预警模型对用户的后期金融交易行为进行监控。

图8是本发明实施例的金融交易数据处理装置的模块示意图,参见图8,所述金融交易数据处理装置800具体可以包括:

第一获取模块801,获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

第一接收模块802,用于接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;

第一划分模块803,用于将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一训练集对应一次训练过程,共经过k次训练过程;

第一聚类模块804,用于轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;

第一预测模块805,用于轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;

第一确定模块806,用于根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

可选地,所述金融交易数据处理装置还包括:

第二获取模块,用于获取第四预设数量的第一有效样本;其中,所述第一有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据;

第二接收模块,用于接收第五预设数量的第二指令,不同的所述第二指令指示了不同的第二预测模型的初始模型参数,基于所述第五预设数量的第二指令,将第二预测模型的训练过程循环计算所述第五预设数量次;

第二划分模块,用于将所述第四预设数量的第一有效样本分成k份,轮流将其中k-1份作为第二训练集,剩下的1份作为第二测试集,每个所述第二测试集对应一次训练过程,共经过k次训练过程;

第二聚类模块,用于轮流将所述第一预测模型所得的预测结果作为第二分类标签加入所述第一有效样本中;

第二预测模块,用于轮流将所述第一有效样本输入第二预测模型中,确定每次迭代计算得到的所述第二预测模型的模型参数;轮流通过每个所述第二测试集验证每次训练过程得到的所述第二预测模型的预测准确率;

第二确定模块,用于根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第二评价指标;将所述第五预设数量的循环过程中所述第二评价指标最高的初始模型参数和训练模型参数作为所述第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。

可选地,所述金融交易数据处理装置还包括:

第三获取模块,用于获取一个或多个用户的金融交易数据;

提取模块,用于从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本;

筛选模块,用于筛选掉所述候选样本中身份特征不是有效数据的样本;

清洗模块,用于将筛选后的候选样本按照预设的清洗规则进行清洗处理,以得到有效样本。

可选地,所述预设的清洗规则包括:

1)若所述候选样本中有超过第六预设数量的特征数据为空,则删除所述候选样本;

2)若每个所述候选样本的第一特征为空或无效,则删除所述第一特征;

3)若每个所述候选样本的第二特征为相同值,则删除所述第二特征。

可选地,所述提取模块进一步用于:

以用户为颗粒度且以用户的身份特征作为识别,基于spark框架从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。

可选地,所述金融交易数据处理装置还包括:

拼接模块,用于将每一期测试集与整个k-1份训练集拼接;其中,所述测试集为第一测试集或第二测试集,所述训练集为第一训练集或第二训练集;

去异常值模块,用于去除每一期所述测试集中每个有效样本的异常值。

可选地,去异常值模块进一步用于:

确定拼接后的集合中不同有效样本的相同特征数据的分位点;

判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;

若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;

若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。

可选地,所述金融交易数据处理装置还包括:

标准化模块,用于将每个所述训练集中有效样本的特征数据进行标准化处理。

可选地,所述标准化模块进一步用于:

根据以下公式,将每个所述训练集中有效样本的特征数据进行标准化处理:

其中,x表示每个所述第一训练集或第二训练集中有效样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。

可选地,所述有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。

可选地,所述聚类模型为kmeans聚类模型,所述第一预测模型和所述第二预测模型为xgboost模型。

通过本发明实施例的金融交易数据处理装置,可以得到用于预测用户出现欺诈行为概率的模型,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

图9是本发明实施例的欺诈行为的监测装置的模块示意图,参见图9,欺诈行为的监测装置900可以包括:

第三接收模块901,用于接收用户发送的提取或贷款的请求,根据所述请求获取所述用户在预设的特征库中的特征数据;所述请求携带有所述用户上报的金融交易数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;

合并模块902,用于根据所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据,形成测试样本;其中,所述测试样本是从所述用户上报的金融交易数据以及所述用户在预设的特征库中的特征数据中提取得到的至少一个维度的特征数据;

第三聚类模块903,用于采用金融交易数据处理方法得到的聚类模型将所述测试样本进行聚类,以得到所述测试样本的第三分类标签,将所述第三分类标签加入所述测试样本中;

第三预测模块904,用于将加入所述第三分类标签的测试样本输入到金融交易数据处理方法得到的第一预测模型,得到第一预测结果,所述第一预测结果用于表示所述用户出现欺诈行为的概率。

可选地,所述合并模块进一步用于:

从所述用户上报的金融交易数据提取第一特征数据;

将所述第一特征数据与所述用户在预设的特征库中的特征数据合并;

将合并后的特征数据经过筛选处理、清洗处理形成测试样本。

可选地,所述欺诈行为的监测装置还包括:

处理模块,用于对测试样本进行去异常值处理以及标准化处理。

可选地,所述欺诈行为的监测装置还包括:

第三获取模块,用于在同意所述用户的提取或贷款的请求后,按照预设周期获取所述用户的金融交易数据,形成第二测试样本;

加入模块,用于将所述第一预测结果作为第四分类标签加入所述第二测试样本中;

第四预测模块,用于将加入所述第四分类标签的测试样本输入至金融交易数据处理方法得到的第二预测模型中,得到第二预测结果,所述第二预测结果用于表示在同意所述用户的提取或贷款的请求后所述用户出现欺诈行为的概率。

可选地,所述聚类模型为kmeans聚类模型,所述第一预测模型和所述第二预测模型为xgboost模型。

通过本发明实施例的欺诈行为的监测装置,可以用于预测用户出现欺诈行为概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

图10示出了可以应用本发明实施例的金融交易数据处理方法或金融交易数据处理装置以及欺诈行为的监测方法或欺诈行为的监测装置的示例性系统架构1000。

如图10所示,系统架构1000可以包括终端设备1001、1002、1003,网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互,以接收或发送消息等。终端设备1001、1002、1003上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1001、1002、1003可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1005可以是提供各种服务的服务器,例如对用户利用终端设备1001、1002、1003所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是,本发明实施例所提供的欺诈行为的监测方法一般由服务器1005执行,相应地,欺诈行为的监测装置一般设置于服务器1005中。

应该理解,图10中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图11,其示出了适于用来实现本发明实施例的终端设备的计算机系统1100的结构示意图。图11示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示,计算机系统1100包括中央处理单元(cpu)1101,其可以根据存储在只读存储器(rom)1102中的程序或者从存储部分1108加载到随机访问存储器(ram)1103中的程序而执行各种适当的动作和处理。在ram1103中,还存储有系统1100操作所需的各种程序和数据。cpu1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。

以下部件连接至i/o接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(cpu)1101执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;所述聚类模型以及所述第一预测模型的训练过程:将所述第一预设数量的有效样本分成k份,轮流将其中k-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一测试集对应一次训练过程,共经过k次训练过程;轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;根据每次循环过程中k次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。

通过本发明实施例的金融交易数据处理方法,可以得到用于预测用户出现欺诈行为概率的模型,通过训练得到的所述聚类模型和所述第一预测模型可以确定用户出现欺诈行为的概率,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题,可以提高审核的效率以及准确性。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1