本发明涉及金融服务领域,尤其涉及一种金融诈骗识别方法和系统。
背景技术:
FDS系统(Fraud detection system,金融诈骗识别系统)在互联网金融交易过程中具有重要的作用,其通过对用户的金融交易行为进行大数据分析来判断用户当前的行为是否属于异常行为,从而判定当前的金融交易是否存在金融诈骗。
目前,FDS系统的开发面对着这诸多挑战,其中,正常用户或诈骗者总是不定时的改变自己的消费行为(Concept drift)和支持即时侦测(Supports real time detection)为较为重要的技术难点。现有的FDS系统中使用的分类器,为了尽量降低Concept drift带来的影响,在对大量的用户行为进行分析时,包括正常行为和诈骗行为,需要耗费大量时间,导致难以满足即时侦测的要求,而由于金融诈骗的违法行为往往较为短暂,因此即时侦测又是检验高效FDS系统实用性的重要标准之一。
因此,寻找一种既能降低Concept drift影响又能满足即时侦测要求的FDS方法成为本领域技术人员的重要研究课题。
技术实现要素:
本发明实施例提供了一种金融诈骗识别方法和系统,能够满足即时侦测的要求的同时降低Concept drift的影响,提高FDS的诈骗识别准确率。
本发明实施例提供的一种金融诈骗识别方法,包括:
获取目标用户的当前交易行为数据;
将所述当前交易行为数据输入底层分类器,得到所述底层分类器输出的判定结果;
其中,所述底层分类器通过以下步骤训练得到:
获取预设的上层分类器的分类器状态;
将获取到的所述分类器状态设置为所述底层分类器的初始化状态;
获取目标用户的历史交易行为数据;
根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征和第一时间特征;
将生成的所述第一聚集特征和第一时间特征确定为第一训练样本的输入;
将所述目标用户的历史交易行为数据的行为判定结果确定为所述第一训练样本的输出,所述行为判定结果为交易行为数据对应的交易行为是否为诈骗行为的判定结果;
将所述第一训练样本的输入和输出投入所述底层分类器进行训练,得到完成训练的底层分类器。
可选地,所述上层分类器通过以下步骤预先训练得到:
搭建初始的上层分类器;
获取作为样本数据的各个用户的交易行为数据;
根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征和第二时间特征;
将生成的所述第二聚集特征和第二时间特征确定为第二训练样本的输入;
将所述各个用户的交易行为数据的行为判定结果确定为所述第二训练样本的输出;
将所述第二训练样本的输入和输出投入所述上层分类器进行训练,得到完成训练的上层分类器。
可选地,在得到完成训练的底层分类器之后,还包括:
获取预设的分类器测试样本;
将所述分类器测试样本投入所述底层分类器,得到所述底层分类器输出的测试判定结果;
对所述测试判定结果进行ROC曲线评价;
若ROC曲线评价不通过,则返回执行获取作为样本数据的各个用户的交易行为数据的步骤。
可选地,根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征包括:
从所述目标用户的历史交易行为数据中提取基于用户行为表现的预设第一维度的第一原始特征;
根据所述预设第一维度与预设第一分类的映射关系对所述第一原始特征进行整理,得到所述预设第一分类对应的各个第一聚集特征;
根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一时间特征包括:
从所述目标用户的历史交易行为数据中提取基于用户行为表现的各个第一时间变量特征;
根据预设的第一聚集时长对所述各个第一时间变量特征进行整理,得到与所述第一聚集时长对应的各个时间段的第一时间特征。
可选地,根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征包括:
从所述目标用户的历史交易行为数据中提取基于用户基本状态的预设第二维度的第二原始特征;
根据所述预设第二维度与预设第二分类的映射关系对所述第二原始特征进行整理,得到所述预设第二分类对应的各个第二聚集特征;
根据所述各个用户的交易行为数据生成基于用户基本状态的第二时间特征包括:
从所述目标用户的历史交易行为数据中提取基于用户基本状态的各个第二时间变量特征;
根据预设的第二聚集时长对所述各个第二时间变量特征进行整理,得到与所述第二聚集时长对应的各个时间段的第二时间特征。
本发明实施例提供的一种金融诈骗识别系统,包括:
当前数据获取模块,用于获取目标用户的当前交易行为数据;
行为判定模块,用于将所述当前交易行为数据输入底层分类器,得到所述底层分类器输出的判定结果;
其中,所述底层分类器通过以下模块训练得到:
分类器状态获取模块,用于获取预设的上层分类器的分类器状态;
初始状态设置模块,用于将获取到的所述分类器状态设置为所述底层分类器的初始化状态;
历史数据获取模块,用于获取目标用户的历史交易行为数据;
第一特征生成模块,用于根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征和第一时间特征;
第一样本输入确定模块,用于将生成的所述第一聚集特征和第一时间特征确定为第一训练样本的输入;
第一样本输出确定模块,用于将所述目标用户的历史交易行为数据的行为判定结果确定为所述第一训练样本的输出,所述行为判定结果为交易行为数据对应的交易行为是否为诈骗行为的判定结果;
底层分类器训练模块,用于将所述第一训练样本的输入和输出投入所述底层分类器进行训练,得到完成训练的底层分类器。
可选地,所述上层分类器通过以下模块预先训练得到:
上层分类器搭建模块,用于搭建初始的上层分类器;
样本行为数据获取模块,用于获取作为样本数据的各个用户的交易行为数据;
第二特征生成模块,用于根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征和第二时间特征;
第二样本输入确定模块,用于将生成的所述第二聚集特征和第二时间特征确定为第二训练样本的输入;
第二样本输出确定模块,用于将所述各个用户的交易行为数据的行为判定结果确定为所述第二训练样本的输出;
上层分类器训练模块,用于将所述第二训练样本的输入和输出投入所述上层分类器进行训练,得到完成训练的上层分类器。
可选地,所述金融诈骗识别系统还包括:
测试样本获取模块,用于获取预设的分类器测试样本;
测试判定模块,用于将所述分类器测试样本投入所述底层分类器,得到所述底层分类器输出的测试判定结果;
判定结果评价模块,用于对所述测试判定结果进行ROC曲线评价;
触发模块,用于若所述判定结果评价模块的评价结果为不通过,则返回触发所述样本行为数据获取模块。
可选地,所述第一特征生成模块包括:
第一聚集特征生成子模块,用于根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征;
第一时间特征生成子模块,用于根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一时间特征;
所述第一聚集特征生成子模块包括:
第一原始特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户行为表现的预设第一维度的第一原始特征;
第一聚集特征整理单元,用于根据所述预设第一维度与预设第一分类的映射关系对所述第一原始特征进行整理,得到所述预设第一分类对应的各个第一聚集特征;
所述第一时间特征生成子模块包括:
第一变量特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户行为表现的各个第一时间变量特征;
第一时间特征整理单元,用于根据预设的第一聚集时长对所述各个第一时间变量特征进行整理,得到与所述第一聚集时长对应的各个时间段的第一时间特征。
可选地,所述第二特征生成模块包括:
第二聚集特征生成子模块,用于根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征;
第二时间特征生成子模块,用于根据所述各个用户的交易行为数据生成基于用户基本状态的第二时间特征;
所述第二聚集特征生成子模块包括:
第二原始特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户基本状态的预设第二维度的第二原始特征;
第二聚集特征整理单元,用于根据所述预设第二维度与预设第二分类的映射关系对所述第二原始特征进行整理,得到所述预设第二分类对应的各个第二聚集特征;
所述第二时间特征生成子模块包括:
第二变量特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户基本状态的各个第二时间变量特征;
第二时间特征整理单元,用于根据预设的第二聚集时长对所述各个第二时间变量特征进行整理,得到与所述第二聚集时长对应的各个时间段的第二时间特征。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,首先,获取目标用户的当前交易行为数据;然后,将所述当前交易行为数据输入底层分类器,得到所述底层分类器输出的判定结果;其中,所述底层分类器通过以下步骤训练得到:获取预设的上层分类器的分类器状态;将获取到的所述分类器状态设置为所述底层分类器的初始化状态;获取目标用户的历史交易行为数据;根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征和第一时间特征;将生成的所述第一聚集特征和第一时间特征确定为第一训练样本的输入;将所述目标用户的历史交易行为数据的行为判定结果确定为所述第一训练样本的输出,所述行为判定结果为交易行为数据对应的交易行为是否为诈骗行为的判定结果;将所述第一训练样本的输入和输出投入所述底层分类器进行训练,得到完成训练的底层分类器。在本发明实施例中,通过上层分类器提供的分类器状态作为底层分类器的初始化状态,再针对地采用目标用户的历史交易行为数据对底层分类器进行训练,训练后对目标用户的当前交易行为数据进行识别判断,得到判定结果。对于底层分类器,可以避免对大量的用户行为进行分析,大大减少了分析耗时,提高了识别判定的效率,满足即时侦测的要求;同时,由针对目标用户的历史交易行为进行定制训练,最大程度地降低了Concept drift的影响,提高了FDS的诈骗识别准确率。
附图说明
图1为本发明实施例中一种金融诈骗识别方法一个实施例流程图;
图2为本发明实施例中底层分类器的训练步骤流程示意图;
图3为本发明实施例中上层分类器的训练步骤流程示意图;
图4为本发明实施例中一个应用场景下由上层分类器和底层分类器组成的FDS系统的构架图;
图5为本发明实施例中一种金融诈骗识别方法的对底层分类器进行ROC曲线评价的流程示意图;
图6为本发明实施例中一个应用场景下基于von Mises分布的用户消费时间分析示例示意图;
图7为本发明实施例中一种金融诈骗识别系统一个实施例示意图。
具体实施方式
本发明实施例提供了一种金融诈骗识别方法和系统,用于解决现有FDS在降低Concept drift影响同时难以满足即时侦测要求的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种金融诈骗识别方法一个实施例包括:
101、获取目标用户的当前交易行为数据;
102、将所述当前交易行为数据输入底层分类器,得到所述底层分类器输出的判定结果。
本实施例中,当目标用户发生交易行为时,可以获取到目标用户的当前交易行为数据。本发明的目的是,通过该金融诈骗识别方法准确地识别出该目标用户当前的交易行为是正常行为还是诈骗行为。
对于上述步骤102,在获取目标用户的当前交易行为数据之后,可以将所述当前交易行为数据输入底层分类器,得到所述底层分类器输出的判定结果。可以理解的是,为了使得底层分类器满足FDS系统即时侦测的要求,该底层分类器应该尽可能地简易以及小型化。在当前交易行为数据输入底层分类器后,底层分类器可以快速地得到判定结果并输出。若当前交易行为数据被底层分类器判定为正常行为,则可以输出“1”;反之,若当前交易行为数据被底层分类器判定为诈骗行为,则可以输出“0”。
其中,如图2所示,所述底层分类器可以通过以下步骤训练得到:
201、获取预设的上层分类器的分类器状态;
202、将获取到的所述分类器状态设置为所述底层分类器的初始化状态;
203、获取目标用户的历史交易行为数据;
204、根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征和第一时间特征;
205、将生成的所述第一聚集特征和第一时间特征确定为第一训练样本的输入;
206、将所述目标用户的历史交易行为数据的行为判定结果确定为所述第一训练样本的输出,所述行为判定结果为交易行为数据对应的交易行为是否为诈骗行为的判定结果;
207、将所述第一训练样本的输入和输出投入所述底层分类器进行训练,得到完成训练的底层分类器。
对于上述步骤201和202,由于底层分类器的简易和小型化容易导致底层分类器难以通过较少的交易数据来准确识别出当前交易行为是否为诈骗行为,导致不能降低Concept drift的影响。因此,本实施例中,通过预设的上层分类器为底层分类器承担庞大的交易数据分析任务。该上层分类器预先完成了对大量的用户行为数据进行分析训练,然后提供一个统一的分类器状态作为该底层分类器的初始化状态,从而为底层分类器降低Concept drift的影响,提高底层分类器识别诈骗行为的准确性。
对于上述步骤203,针对目标用户定制底层分类器时,可以获取目标用户的历史交易行为数据。该历史交易行为数据为目标用户的个人行为信息,例如包括该目标用户的首次交易数据、首次注册数据、常用的IP地址等等。
对于上述步骤204,在获取目标用户的历史交易行为数据之后,可以根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征和第一时间特征。上述的用户行为表现,是指目标用户的个人行为表现,这些行为表现体现的是用户的个人特性,而非全体用户或者大多数用户的共性特征。例如,目标用户常用的网络交易的IP地址,由于每个IP地址对于用户来说是独有的,因此该IP地址可以反应用户的个人特征,属于基于用户行为表现的特征。本实施例中,与“用户行为表现”相对的,是“用户基本状态”,上述的用户基本状态是指目标用户对应的用户群体的基本状态,这些基本状态体现的是用户群体的共性特征。例如,绝大多数用户会在白天进行购物、餐饮消费的时间段为早午晚的用餐时间段、部分职业的用户会常常连续订购多张飞机票,等等。这些共性特征可以反映一个用户群体的基本状态。
上述的第一聚集特征是指基于用户行为表现的聚集特征,上述的第一时间特征是指基于用户行为表现的时间特征。本实施例中关于聚集特征和时间特征的生成方法,将在后续内容中进行描述。
对于上述步骤205、206和207,将第一聚集特征和第一时间特征确定为第一训练样本的输入,将历史交易行为数据的行为判定结果确定为所述第一训练样本的输出,然后将第一训练样本的输入和输出投入底层分类器进行训练,完成训练后,即可得到针对目标用户定制化的底层分类器。可以理解的是,对于该底层分类器,若目标用户的历史交易行为数据越多、数据量越庞大,则底层分类器的学习效果越好,其对目标用户的行为判定越准确。
进一步地,如图3所示,上述的上层分类器可以通过以下步骤预先训练得到:
301、搭建初始的上层分类器;
302、获取作为样本数据的各个用户的交易行为数据;
303、根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征和第二时间特征;
304、将生成的所述第二聚集特征和第二时间特征确定为第二训练样本的输入;
305、将所述各个用户的交易行为数据的行为判定结果确定为所述第二训练样本的输出;
306、将所述第二训练样本的输入和输出投入所述上层分类器进行训练,得到完成训练的上层分类器。
对于上述步骤301,该基于用户横向整体状态(或能力)的上层分类器可以采用基于TensorFlow的人工神经网络深度学习算法进行搭建。
对于上述步骤302,对于上层分类器进行训练时,由于上层分类器需要为底层分类器承担大量的用户行为数据分析工作,从而获取到用户群体的共性特征。因此,用于训练上层分类器的样本应当包含各个用户的交易行为数据,而不是针对某个特定用户的交易行为数据。另外,可以理解的是,各个用户的交易行为数据中应当包含正样本和负样本,即既包含有正常行为的交易行为数据,也包含有诈骗行为的交易行为数据,以提高上层分类器的准确性。本实施例中,对于正负样本偏差(Skewed class distribution)可以从以下几种策略中进行选取:
(1).欠采样法–保持正样本数量不变,随机依次减少负样本数量,使正负样本比为1:1,1:2,1:3,1:4…,并训练模型。通过测试选择最佳的正负样本比。
(2).代价敏感学习法–通过设定不同的代价变量取值(如FN(falsely consider the real bad guy as the good one,未能侦测)=0.01FP(falsely kill the good guy,错误预警),FN=0.1FP,FN=10FP,FN=100FP等)来构建不同的代价矩阵,并训练相应模型。通过测试选择最佳的代价矩阵。
(3).欠采样-代价敏感学习结合法–针对每一类通过欠采样法修改正负样本比的训练数据,都进行一次代价敏感学习,并训练模型。通过测试选择最佳的正负样本比-代价矩阵组合。
然后,可以通过(1),(2),(3)每种策略N次不同样本训练测试结果的均值来选取最佳的样本策略,尽量降低正负样本偏差所带来的影响。
对于上述步骤303,在获取作为样本数据的各个用户的交易行为数据之后,可以根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征和第二时间特征。其中,上述的“用户基本状态”已在上述步骤204中描述,此处不再赘述。可知,上述的第二聚集特征是指基于用户基本状态的聚集特征,上述的第二时间特征是指基于用户基本状态的时间特征。本实施例中关于聚集特征和时间特征的生成方法,将在后续内容中进行描述。
对于上述步骤304、305和306,将第二聚集特征和第二时间特征确定为第二训练样本的输入,将交易行为数据的行为判定结果确定为所述第二训练样本的输出,然后将第二训练样本的输入和输出投入上层分类器进行训练,完成训练后,即可得到各个用户或群体用户行为的上层分类器。可以理解的是,对于该上层分类器,若各个用户的交易行为数据越多、数据量越庞大,则上层分类器的学习效果越好,上层分类器的识别能力也越强大。在上层分类器训练完成之后,可以将上层分类器的分类器状态设置为底层分类器状态,以降低底层分类器的Concept drift的影响,提升底层分类器的识别能力。
图4示出了由上层分类器和底层分类器组成的FDS系统的构架图。如图4所示,本发明通过原始高纬度训练数据衍生出能够反映用户消费行为动态变化的聚集特征和时间特征,通过各个用户i具体在时间t实时消费的新特征来训练通过整体数据训练的上层分类器,从而得到针对特定用户在时间t的底层分类器,实现即时高效的互联网金融FDS。
因此,为了确保底层分类器训练完成,还可以对底层分类器进行ROC曲线评价,如图5所示,包括:
501、获取预设的分类器测试样本;
502、将所述分类器测试样本投入所述底层分类器,得到所述底层分类器输出的测试判定结果;
503、对所述测试判定结果进行ROC曲线评价;
504、若ROC曲线评价不通过,则返回执行步骤302,重新训练上层分类器和底层分类器,直至ROC曲线评价通过后,整个FDS系统训练完成。
在本实施例的FDS系统中,针对用户交易行为数据进行特征工程处理,即聚集特征和时间特征的确定。
聚集特征
用户的聚集特征将用户过去一段时间内的消费记录(交易行为数据)通过用户ID、消费金额、消费地点等原数据始特征有机的整合在一起,例如,用户k聚集特征1为:过去24小时内在A城市的消费金额总量;用户k聚集特征2为:过去24小时内在A城市的消费次数。一般的,可以定义满足条件子集Condi且聚集时长为τ的消费子集为:
其中tj表示第j笔消费的时间,Dk表示用户k的消费记录全集,SELECT为筛选函数。于是,满足不同条件的聚集特征即可通过复杂度为O(1)的计算符来获得,例如次数
其中count为计数函数;例如消费金额
再例如消费金额占T时间内总消费金额的比例
表一示例了由6维原始特征所衍生出来的5类聚集特征。其中θ1表示用户0在消费记录Trc#_i(i=1,2,3…)过去24小时内的交易数量;θ2表示用户0在消费记录Trc#_i过去24小时内的交易额;θ3表示用户0在消费记录Trc#_i过去24小时内同一种消费类型的交易数量;θ4表示用户0在消费记录Trc#_i过去24小时内同一消费地点的交易数量;θ5表示用户0在消费记录Trc#_i过去24小时内同一种消费类型且同一消费地点的交易数量。
表一
而上述的第一聚集特征是指基于用户行为表现的聚集特征,上述的第二聚集特征是指基于用户基本状态的聚集特征,由上述内容可知,对于第一聚集特征和第二聚集特征的确定过程均类似,不同之处在于,衍生得到第一聚集特征所需的原始特征和衍生得到第二聚集特征所需的原始特征不相同。由于基于用户行为表现与基于用户基本状态的不同,衍生得到第一聚集特征所需的原始特征更倾向于用户的个人特性,例如用户的IP地址、用户的MAC地址、用户的登陆地等;而衍生得到第二聚集特征所需的原始特征更倾向于用户群体的共性特征,例如授信额度(当前剩余授信额度/当前授信额度)、额度调整频率((最近一次调整额度日期-首次授信日期)/额度调整次数)、贷款状态(目前活跃的贷款笔数/贷款笔数)等。
因此,根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征具体可以包括:从所述目标用户的历史交易行为数据中提取基于用户行为表现的预设第一维度的第一原始特征;根据所述预设第一维度与预设第一分类的映射关系对所述第一原始特征进行整理,得到所述预设第一分类对应的各个第一聚集特征;而,根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征具体可以包括:从所述目标用户的历史交易行为数据中提取基于用户基本状态的预设第二维度的第二原始特征;根据所述预设第二维度与预设第二分类的映射关系对所述第二原始特征进行整理,得到所述预设第二分类对应的各个第二聚集特征。
时间特征
在FDS系统内,除了聚集特征能够反映的用户消费习惯外,还有另外一个层面的用户消费习惯–用户消费时间。一般的,用户通常会在每天相似的小时内(Day/Hour),或每周相似的天数内(Week/Day),或每月相似的周内(Month/Week),或每年相似的月份内(Year/Month)进行消费。这里的相似时间段并不能够通过传统的算术平均数来表示,因为算术平均数未能反映时间的周期性特征,例如,对于发生在1:00,3:00,20:00,21:00,23:00这5次消费来说,算数平均消费时间为13:36,然而,并没有一次消费记录发生在接近13:36。本实施例可以通过von Mises(冯·米塞斯)分布将用户消费时间变量转化为一种周期变量,从而通过预定义的显著水平α来构造用户消费时间的置信区间。因此,基于布尔特性的时间特征便可生成:0表示新的消费记录时间在置信区间内;1表示新的消费记录没有在置信区间内。
对于时间特征分析,具体的,根据给定的时间变量子集I={t1,t2,...tn},von Mises分布定义为:
其中μvm和σvm分别表示周期均值和周期标准差:
图6示出了基于von Mises分布的用户消费时间分析示例(Day/Hour)。如图6所示,基于von Mises分布的用户时间特征分析示例(Day/Hour)中,黑色直实线指向表示消费时间;黑直实线长短表示消费次数;实线601表示算数平均消费;实线602表示周期平均消费;椭圆形虚线区域61表示拟合的von Mises概率分布;扇形区域62表示显著水平为α的消费时间置信区间。
本实施例从实际数据维度出发,可以通过基于Grid Search的思想衍生出高效的FDS聚集特征;同时,根据对比由不同聚集时长τ(例如24小时,48小时,72小时等等)衍生出聚集特征的FDS表现来确定最能反映用户消费习惯的τ。进一步地,为了使底层分类器对concept drift更敏感,可以将根据用户实际消费数据找出一年中不同时段的最佳τ,从而最大限度的降低FP和FN。针对每一个用户提取其不同时间段(年、月、周、日)内的消费时间特征作为底层分类器的训练数据,从消费时间的维度上衡量用户消费习惯。本实施例通过不同时间段的消费时间特征以及聚集特征,可以进一步使得简易的底层分类器更有效地映射concept drift。
对于时间特征,上述的第一时间特征是指基于用户行为表现的时间特征,上述的第二时间特征是指基于用户基本状态的时间特征。由上述内容可知,对于第一时间特征和第二时间特征的确定过程均类似,不同之处在于,由于基于用户行为表现与基于用户基本状态的不同,整理得到第一时间特征所需的时间变量特征更倾向于用户的个人特性,例如用户首次交易成功的时间、首次注册成功的时间、第二次交易成功的时间、首次注册成功的时间等;而整理得到第二时间特征所需的时间变量特征更倾向于用户的个人特性,用户群体的共性特征,例如月消费时段(一个月内用户倾向于在那几天进行消费)。
因此,根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一时间特征具体可以包括:从所述目标用户的历史交易行为数据中提取基于用户行为表现的各个第一时间变量特征;根据预设的第一聚集时长对所述各个第一时间变量特征进行整理,得到与所述第一聚集时长对应的各个时间段的第一时间特征。而,根据所述各个用户的交易行为数据生成基于用户基本状态的第二时间特征具体可以包括:从所述目标用户的历史交易行为数据中提取基于用户基本状态的各个第二时间变量特征;根据预设的第二聚集时长对所述各个第二时间变量特征进行整理,得到与所述第二聚集时长对应的各个时间段的第二时间特征。
在本实施例中,通过上层分类器提供的分类器状态作为底层分类器的初始化状态,再针对地采用目标用户的历史交易行为数据对底层分类器进行训练,训练后对目标用户的当前交易行为数据进行识别判断,得到判定结果。对于底层分类器,可以避免对大量的用户行为进行分析,大大减少了分析耗时,提高了识别判定的效率,满足即时侦测的要求;同时,由针对目标用户的历史交易行为进行定制训练,最大程度地降低了Concept drift的影响,提高了FDS的诈骗识别准确率。
另外,本发明实施例中,提出了一种结合聚集/时间特征训练和上层分类器/底层分类器的高效FDS。通过Data feature reduction由原始特征衍生的聚集特征和时间特征能够很好的拟合Concept drift,通过结合数据平衡法和算法平衡法纠正的Skewed class distribution来训练基于数据整体的后台上层分类器;针对每一个用户特定的历史交易行为数据设定基于后台上层分类器的前台底层分类器。前台底层分类器由用户个体的交易行为数据训练得来,因此可以满足特定用户快速准确的消费分类定位,从而实现即时侦测的高效FDS。
上面主要描述了一种金融诈骗识别方法,下面将对一种金融诈骗识别系统进行详细描述。
图7示出了本发明实施例中一种金融诈骗识别系统一个实施例示意图。
本实施例中,一种金融诈骗识别系统包括:
当前数据获取模块701,用于获取目标用户的当前交易行为数据;
行为判定模块702,用于将所述当前交易行为数据输入底层分类器,得到所述底层分类器输出的判定结果;
其中,所述底层分类器通过以下模块训练得到:
分类器状态获取模块,用于获取预设的上层分类器的分类器状态;
初始状态设置模块,用于将获取到的所述分类器状态设置为所述底层分类器的初始化状态;
历史数据获取模块,用于获取目标用户的历史交易行为数据;
第一特征生成模块,用于根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征和第一时间特征;
第一样本输入确定模块,用于将生成的所述第一聚集特征和第一时间特征确定为第一训练样本的输入;
第一样本输出确定模块,用于将所述目标用户的历史交易行为数据的行为判定结果确定为所述第一训练样本的输出,所述行为判定结果为交易行为数据对应的交易行为是否为诈骗行为的判定结果;
底层分类器训练模块,用于将所述第一训练样本的输入和输出投入所述底层分类器进行训练,得到完成训练的底层分类器。
进一步地,所述上层分类器可以通过以下模块预先训练得到:
上层分类器搭建模块,用于搭建初始的上层分类器;
样本行为数据获取模块,用于获取作为样本数据的各个用户的交易行为数据;
第二特征生成模块,用于根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征和第二时间特征;
第二样本输入确定模块,用于将生成的所述第二聚集特征和第二时间特征确定为第二训练样本的输入;
第二样本输出确定模块,用于将所述各个用户的交易行为数据的行为判定结果确定为所述第二训练样本的输出;
上层分类器训练模块,用于将所述第二训练样本的输入和输出投入所述上层分类器进行训练,得到完成训练的上层分类器。
进一步地,所述金融诈骗识别系统还可以包括:
测试样本获取模块,用于获取预设的分类器测试样本;
测试判定模块,用于将所述分类器测试样本投入所述底层分类器,得到所述底层分类器输出的测试判定结果;
判定结果评价模块,用于对所述测试判定结果进行ROC曲线评价;
触发模块,用于若所述判定结果评价模块的评价结果为不通过,则返回触发所述样本行为数据获取模块。
进一步地,所述第一特征生成模块可以包括:
第一聚集特征生成子模块,用于根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一聚集特征;
第一时间特征生成子模块,用于根据所述目标用户的历史交易行为数据生成基于用户行为表现的第一时间特征;
所述第一聚集特征生成子模块可以包括:
第一原始特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户行为表现的预设第一维度的第一原始特征;
第一聚集特征整理单元,用于根据所述预设第一维度与预设第一分类的映射关系对所述第一原始特征进行整理,得到所述预设第一分类对应的各个第一聚集特征;
所述第一时间特征生成子模块可以包括:
第一变量特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户行为表现的各个第一时间变量特征;
第一时间特征整理单元,用于根据预设的第一聚集时长对所述各个第一时间变量特征进行整理,得到与所述第一聚集时长对应的各个时间段的第一时间特征。
进一步地,所述第二特征生成模块可以包括:
第二聚集特征生成子模块,用于根据所述各个用户的交易行为数据生成基于用户基本状态的第二聚集特征;
第二时间特征生成子模块,用于根据所述各个用户的交易行为数据生成基于用户基本状态的第二时间特征;
所述第二聚集特征生成子模块可以包括:
第二原始特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户基本状态的预设第二维度的第二原始特征;
第二聚集特征整理单元,用于根据所述预设第二维度与预设第二分类的映射关系对所述第二原始特征进行整理,得到所述预设第二分类对应的各个第二聚集特征;
所述第二时间特征生成子模块可以包括:
第二变量特征提取单元,用于从所述目标用户的历史交易行为数据中提取基于用户基本状态的各个第二时间变量特征;
第二时间特征整理单元,用于根据预设的第二聚集时长对所述各个第二时间变量特征进行整理,得到与所述第二聚集时长对应的各个时间段的第二时间特征。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。