本说明书一个或多个实施例涉及网络通信领域,尤其涉及一种边数据增加方法及装置、介质、设备。
背景技术:
1、在可疑交易稽核过程中,图计算被广泛应用。图计算也可以用于进行可疑团伙的挖掘。图计算用到的图谱中包括节点和边两种数据,节点一般包括客户、银行卡等类型,边一般包含客户间的交易记录、多客户使用同一账号等记录。图谱中包括的点和边的数据越丰富,就能挖掘出越丰富的团伙关系。
技术实现思路
1、本说明书一个或多个实施例描述了一种边数据增加方法及装置、介质、设备,能够丰富图谱数据。
2、根据第一方面,本发明实施例提供的边数据增加方法,包括:
3、将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
4、根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
5、对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
6、将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
7、针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
8、根据第二方面,本发明实施例提供的边数据增加装置,包括:
9、地址拆分模块,用于将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息;其中,所述地址信息和客户一一对应;
10、矩阵生成模块,用于根据对应相同所述地域信息的各个地址信息,生成第一矩阵;其中,所述第一矩阵中的第i行第j列的元素表示对应相同所述地域信息的各个地址信息中的第j个地址信息中是否包含该地域信息对应的字符串集合中的第i个字符串;所述第一矩阵的列数为对应相同所述地域信息的各个地址信息的数量,所述第一矩阵的行数为所述字符串集合中字符串的数量;
11、降维分类模块,用于对所述第一矩阵进行降维,得到第二矩阵,并根据所述第二矩阵,将对应相同所述地域信息的各个地址信息进行分类,同一类的地址信息具有相似性;
12、相似计算模块,用于将同一类的各个地址信息中的每两个地址信息进行相似度计算,并选取出相似度大于预设阈值的地址信息对;
13、边增加模块,用于针对选取出的每一个地址信息对,确定该地址信息对所对应的两个客户在所述图谱中对应的两个节点,在所确定的该两个节点之间增加一个关系边。
14、根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。
15、根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的所述的方法。
16、本说明书实施例提供的边数据增加方法及装置、介质、设备,各自或者组合后具有如下有益效果:
17、(1)对客户地址进行拆分,得到地域信息和地址信息,根据对应同一地域信息的地址信息生成第一矩阵,对第一矩阵进行降维,得到第二矩阵,然后利用第二矩阵进行分类,进而将全量客户问题缩小为对应同一地域信息中的同一类的客户计算问题,极大的降低了计算时间和计算量,提高了计算效率。再计算同一类中的每两个地址信息之间的相似性,将相似性较高的两个客户对应的两个节点之间增加一个边,实现边数据的增加,使得海量客户的地址相似度计算能在实际生产环境中使用。可见,本发明实施例通过地址相似度确定需要增加的关系边,从而丰富图计算所使用的边数据。
18、(2)在一个实施例中,利用最小哈希算法对所述第一矩阵进行降维,得第二矩阵,最小哈希算法是一种快速判断两个对象是否相似的技术,能够将高维集合的数据对象映射到更小的哈希值集合,同时保留对象间的相似度,可见利用最小哈希算法降维不会对后续的相似度计算产生影响。
19、(3)在一个实施例中,利用局部敏感哈希函数进行分桶,进而利用分桶情况对地址信息进行分类。基于局部敏感哈希的特性,只要有一次多个地址信息被分到同一桶序号中,那么该多个地址信息在很大概率上具有高相似度,因而基于分桶情况进行分类,因此全量客户计算问题可以缩小为同地域信息同一类的客户计算问题,进一步提高计算效率。
1.一种边数据增加方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将图谱的全量客户中的每一个客户地址进行拆分,得到该客户地址的地域信息和地址信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述字符串集合的生成方法包括:
4.根据权利要求3所述的方法,其特征在于,所述将对应相同所述地域信息的各个地址信息对应的各个字符串形成所述字符串集合,包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述第一矩阵进行降维,得第二矩阵,包括:
6.根据权利要求1所述的方法,其特征在于,所述将对应相同所述地域信息的各个地址信息进行分类,包括:
7.根据权利要求1所述的方法,其特征在于,所述将同一类的各个地址信息中的每两个地址信息进行相似度计算,包括:将同一类的各个地址信息中的每两个地址信息进行雅可比相似度计算。
8.一种边数据增加装置,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1~7任一项所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1~7任一项所述的方法。