本申请涉及对异常目标进行识别的领域,具体而言,涉及异常商户识别方法、异常商户识别系统、计算机可读存储介质以及计算机程序产品。
背景技术:
1、当前,在现有技术下中通常会采用负面样本数据提炼数据特征再将数据特征结合到侦测模型中对可疑交易进行侦测。此类方法在诸如欺诈侦测方面已有较为广泛的应用。由于通常情况下可以较为准确的掌握欺诈负面样本数据,此类方法在欺诈侦测方面的应用效果较为理想。
2、但是对涉嫌开展非法业务的商户之类的异常商户的检测不同于欺诈侦测。首先,涉嫌开展非法业务的商户的标签来源并不全面,无论从商户端还是持卡人端都较难获取到准确的涉嫌开展非法业务或不涉嫌开展非法业务的标签数据。因此,无法保证对已有的全量商户准确地打上“涉嫌开展非法业务”、“非涉嫌开展非法业务”的二分类标签。使用现有技术对涉嫌开展非法业务的商户进行侦测时通常表现为模型训练时效果较好,但在外推验证时往往存在过拟合等问题。其次,非法交易平台也会通过技术手段规避监控,使用现有技术来构建涉嫌开展非法业务的商户侦测模型需要定期进行迭代,参数也需要及时进行调整,否则模型的衰减速度较快。应用现有技术构建涉嫌开展非法业务的侦测模型,通常对建模人员有较高的业务经验要求,且一般而言这种技术的效果并不理想。
3、有鉴于此,需要提出一种针对诸如涉嫌开展非法业务的商户之类的异常商户进行有效识别的机制。
技术实现思路
1、本申请的实施例提供了一种异常商户识别方法、异常商户识别系统、计算机可读存储介质以及计算机程序产品,用于高效准确地识别异常商户。
2、根据本申请的一方面,提供一种异常商户识别方法。所述异常商户识别方法包括如下步骤:接收关于多个商户的交易数据;基于所述交易数据确定所述多个商户中任意两者之间的相似度,从而构建关于所述多个商户的相似度矩阵;根据所述相似度矩阵对所述多个商户进行聚类;以及根据所述聚类的结果确定所述多个商户中的异常商户。
3、在本申请的一些实施例中,可选地,所述多个商户中包括已识别的异常商户,并且根据所述聚类的结果确定所述多个商户中的异常商户包括:将与所述已识别的异常商户归为同一个聚类的商户作为异常商户。
4、在本申请的一些实施例中,可选地,根据所述聚类的结果确定所述多个商户中的异常商户包括:确定归为同一个聚类的商户之间的相似度的均值;以及将所述均值高于预定值的聚类中的各个商户作为异常商户。
5、在本申请的一些实施例中,可选地,所述方法还包括:在构建关于所述多个商户的相似度矩阵前,剔除所述多个商户中交易量高于第一预设量且未被识别为异常商户的商户。
6、在本申请的一些实施例中,可选地,所述方法还包括:在构建关于所述多个商户的相似度矩阵前,剔除所述多个商户中交易量低于第二预设量的商户。
7、在本申请的一些实施例中,可选地,基于所述多个商户之间的相似度并根据以下算法中的一种构建所述相似度矩阵:ε-neighborhood算法、k邻近算法以及全连接图算法,其中基于所述多个商户中任意两者的交易数据的欧式距离确定两者之间的相似度。
8、在本申请的一些实施例中,可选地,基于所述交易数据确定所述多个商户中任意两者之间的相似度包括:根据所述交易数据确定两个商户中都发生过交易的主体;根据所述交易数据确定所述主体在所述两个商户中的交易量之和;根据所述交易数据分别确定所述两个商户的第一交易量、第二交易量;以及基于所述交易量之和、所述第一交易量以及所述第二交易量确定所述两个商户之间的相似度。
9、在本申请的一些实施例中,可选地,其中基于所述交易量之和、所述第一交易量以及所述第二交易量确定所述两个商户之间的相似度包括:以所述主体在所述两个商户中的交易量之和与所述第一交易量、所述第二交易量的平均值的比值作为所述两个商户之间的相似度;或者以所述主体在所述两个商户中的交易量之和与所述第一交易量、所述第二交易量中较少一者的比值作为所述两个商户之间的相似度。
10、在本申请的一些实施例中,可选地,根据所述相似度矩阵并根据以下算法中的一种对所述多个商户进行聚类:mincut算法、ratiocut 算法、ncut算法。
11、根据本申请的另一方面,提供一种异常商户识别系统,所述系统包括:存储器,存储有指令;与所述存储器相连的处理器,当所述指令被所述处理器执行时,使得所述异常商户识别系统执行以下操作:接收关于多个商户的交易数据;基于所述交易数据确定所述多个商户中任意两者之间的相似度,从而构建关于所述多个商户的相似度矩阵;根据所述相似度矩阵对所述多个商户进行聚类;以及根据所述聚类的结果确定所述多个商户中的异常商户。
12、根据本申请的另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如上文所述的任意一种方法。
13、根据本申请的另一方面,提供一种计算机程序产品。所述计算机程序产品体现在计算机可读存储介质上,并且被配置成当在处理器上被执行时执行如上文所述的任意一种方法。
1.一种异常商户识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其中所述多个商户中包括已识别的异常商户,并且根据所述聚类的结果确定所述多个商户中的异常商户包括:
3.根据权利要求1所述的方法,其中根据所述聚类的结果确定所述多个商户中的异常商户包括:
4.根据权利要求1所述的方法,还包括:
5.根据权利要求1所述的方法,还包括:
6.根据权利要求1所述的方法,其中,基于所述多个商户之间的相似度并根据以下算法中的一种构建所述相似度矩阵:ε-neighborhood算法、k邻近算法以及全连接图算法,其中基于所述多个商户中任意两者的交易数据的欧式距离确定两者之间的相似度。
7.根据权利要求1所述的方法,其中,基于所述交易数据确定所述多个商户中任意两者之间的相似度包括:
8.根据权利要求1所述的方法,其中基于所述交易量之和、所述第一交易量以及所述第二交易量确定所述两个商户之间的相似度包括:
9.根据权利要求1所述的方法,其中,根据所述相似度矩阵并根据以下算法中的一种对所述多个商户进行聚类:mincut算法、ratiocut算法、ncut算法。
10.一种异常商户识别系统,其特征在于,所述系统包括:
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令由处理器执行时,使得所述处理器执行如权利要求1-9中任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品体现在计算机可读存储介质上并配置成当在处理器上被执行时执行权利要求1-9中的任一项所述的方法。