本技术涉及计算机,具体而言,涉及一种目标团体挖掘方法、目标团体挖掘装置、计算机可读存储介质及电子设备。
背景技术:
1、为了实现一些非正常目的,一些用户会在互联网中进行一些不被大众认可的网络活动。为了使得非正常目的产生的效果最大化,这些用户会通过多个账号来完成上述活动,例如,用户注册多个账号共同抢优惠券。
2、然而,上述活动会对正常的生产生活以及互联网业务运营产生负面影响,因此,识别出参与上述活动的用户/账号并对其进行处理是必要的。在相关技术中,通常会基于相同的设备ip、相同的手机号或者相同的设备型号等条件,从海量账号中关联出可疑账号,并将这些可疑账号确定为,用于实现非正常目的的团体。
3、但是,相关技术的团体识别方式,容易被这些团体通过特殊技术手段(如,使用随机生成的ip、手机号或设备型号等)规避。因此,可以理解的是,相关技术的团体识别方式中存在识别精度不高的问题。
4、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有方案的信息。
技术实现思路
1、本技术的目的在于提供一种目标团体挖掘方法、目标团体挖掘装置、计算机可读存储介质及电子设备,可以以目标用户标识为单位,获取与其对应的、包含了各行为场景的子数据集的行为数据集。基于这样的行为数据集,先确定同一行为场景下的、目标用户标识之间的局部行为相似度,可以得到精细化的相似度表征。进而,再基于局部行为相似度确定兼顾全局性和精细度的全局行为相似度,以全局行为相似度为依据从待分析用户标识集中关联出的目标团体是更为准确的。基于上述方式识别目标团体可以规避漏识别、错识别等问题,并且,上述方式是利用行为相似度进行目标团体识别的,这样可以增加目标团体的反识别技术研发难度,相较于相关技术直接通过字段值的一致性进行团体识别的方案,本技术具备更高的团体识别精度。
2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
3、根据本技术的一方面,提供一种目标团体挖掘方法,该方法包括:
4、获取对应于待分析用户标识集中各目标用户标识的行为数据集,行为数据集中包含对应于各行为场景的子数据集;
5、基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度;
6、基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度;
7、基于各全局行为相似度从待分析用户标识集中关联出目标团体。
8、在本技术的一种示例性实施例中,行为场景包括以下至少一种:注册场景、登录场景、签到场景、交易场景;子数据集包括以下字段:用户标识、联系方式、地址、时间戳。
9、在本技术的一种示例性实施例中,还包括:
10、获取综合用户标识集中各用户标识的行为数据集;
11、基于时空同步判定规则限定的特定字段,将各行为数据集中的数据抽象为数据组,以得到对应于各用户标识的数据组集合;其中,数据组集合中各数据组包含特定字段的值;
12、若存在满足相似判定标准的两个目标数据组集合,则将两个目标数据组集合分别对应的用户标识确定为目标用户标识。
13、在本技术的一种示例性实施例中,还包括:
14、若两个数据组集合中分别存在处于同一时间区间的目标数据,且两个目标数据之间至少一个特定字段的值相同,则将两个数据组集合确定为两个目标数据组集合。
15、在本技术的一种示例性实施例中,基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度,包括:
16、针对每两个目标用户标识在同一行为场景下的子数据集进行相似判定;
17、基于相似判定结果统计得到分子,并将每两个目标用户标识在同一行为场景下的子数据集并集确定为分母;
18、基于分子和分母生成局部行为相似度。
19、在本技术的一种示例性实施例中,基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度,包括:
20、对每两个目标用户标识在各行为场景下的局部行为相似度进行求和,得到每两个目标用户标识对应的全局行为相似度。
21、在本技术的一种示例性实施例中,基于各全局行为相似度从待分析用户标识集中关联出目标团体,包括:
22、根据各全局行为相似度,对表征待分析用户标识集的节点关系网进行剪枝,得到目标关系网;
23、基于连通图算法确定目标关系网中的连通子图集合;
24、将连通子图集合中各连通子图内的子图用户标识关联为目标团体,得到分别对应于各连通子图的目标团体。
25、在本技术的一种示例性实施例中,根据各全局行为相似度,对表征待分析用户标识集的节点关系网进行剪枝,得到目标关系网,包括:
26、从各全局行为相似度中确定大于预设相似度的目标相似度;
27、根据各目标相似度与节点关系网中的边之间的关系,对节点关系网进行剪枝,得到目标关系网;其中,目标关系网中各边与各目标相似度一一对应。
28、在本技术的一种示例性实施例中,还包括:
29、确定各连通子图内的子图用户标识的综合数据集;其中,综合数据集包括相应子图用户标识的行为数据集和设备数据集;
30、基于各综合数据集,统计分别对应于各连通子图的描述信息;
31、根据各描述信息与各连通子图之间的关系,对各描述信息与各目标团体进行对应输出。
32、根据本技术的一方面,提供一种目标团体挖掘装置,该装置包括:
33、数据获取单元,用于获取对应于待分析用户标识集中各目标用户标识的行为数据集,行为数据集中包含对应于各行为场景的子数据集;
34、局部相似度确定单元,用于基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度;
35、全局相似度确定单元,用于基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度;
36、目标团体识别单元,用于基于各全局行为相似度从待分析用户标识集中关联出目标团体。
37、在本技术的一种示例性实施例中,行为场景包括以下至少一种:注册场景、登录场景、签到场景、交易场景;子数据集包括以下字段:用户标识、联系方式、地址、时间戳。
38、在本技术的一种示例性实施例中,还包括:
39、数据获取单元,还用于获取综合用户标识集中各用户标识的行为数据集;
40、数据组确定单元,用于基于时空同步判定规则限定的特定字段,将各行为数据集中的数据抽象为数据组,以得到对应于各用户标识的数据组集合;其中,数据组集合中各数据组包含特定字段的值;
41、目标用户标识确定单元,用于在存在满足相似判定标准的两个目标数据组集合时,将两个目标数据组集合分别对应的用户标识确定为目标用户标识。
42、在本技术的一种示例性实施例中,其中:
43、数据组确定单元,还用于在两个数据组集合中分别存在处于同一时间区间的目标数据,且两个目标数据之间至少一个特定字段的值相同时,将两个数据组集合确定为两个目标数据组集合。
44、在本技术的一种示例性实施例中,局部相似度确定单元基于各行为场景的子数据集,确定每两个目标用户标识在同一行为场景下的局部行为相似度,包括:
45、针对每两个目标用户标识在同一行为场景下的子数据集进行相似判定;
46、基于相似判定结果统计得到分子,并将每两个目标用户标识在同一行为场景下的子数据集并集确定为分母;
47、基于分子和分母生成局部行为相似度。
48、在本技术的一种示例性实施例中,全局相似度确定单元基于各局部行为相似度确定每两个目标用户标识之间全局行为相似度,包括:
49、对每两个目标用户标识在各行为场景下的局部行为相似度进行求和,得到每两个目标用户标识对应的全局行为相似度。
50、在本技术的一种示例性实施例中,目标团体识别单元基于各全局行为相似度从待分析用户标识集中关联出目标团体,包括:
51、根据各全局行为相似度,对表征待分析用户标识集的节点关系网进行剪枝,得到目标关系网;
52、基于连通图算法确定目标关系网中的连通子图集合;
53、将连通子图集合中各连通子图内的子图用户标识关联为目标团体,得到分别对应于各连通子图的目标团体。
54、在本技术的一种示例性实施例中,目标团体识别单元根据各全局行为相似度,对表征待分析用户标识集的节点关系网进行剪枝,得到目标关系网,包括:
55、从各全局行为相似度中确定大于预设相似度的目标相似度;
56、根据各目标相似度与节点关系网中的边之间的关系,对节点关系网进行剪枝,得到目标关系网;其中,目标关系网中各边与各目标相似度一一对应。
57、在本技术的一种示例性实施例中,还包括:
58、数据获取单元,还用于确定各连通子图内的子图用户标识的综合数据集;其中,综合数据集包括相应子图用户标识的行为数据集和设备数据集;
59、描述信息生成单元,用于基于各综合数据集,统计分别对应于各连通子图的描述信息;
60、输出单元,用于根据各描述信息与各连通子图之间的关系,对各描述信息与各目标团体进行对应输出。
61、根据本技术的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的方法。
62、根据本技术的一方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的方法。
63、本技术示例性实施例可以具有以下部分或全部有益效果:
64、在本技术的一示例实施方式所提供的目标团体挖掘方法中,可以以目标用户标识为单位,获取与其对应的、包含了各行为场景的子数据集的行为数据集。基于这样的行为数据集,先确定同一行为场景下的、目标用户标识之间的局部行为相似度,可以得到精细化的相似度表征。进而,再基于局部行为相似度确定兼顾全局性和精细度的全局行为相似度,以全局行为相似度为依据从待分析用户标识集中关联出的目标团体是更为准确的。基于上述方式识别目标团体可以规避漏识别、错识别等问题,并且,上述方式是利用行为相似度进行目标团体识别的,这样可以增加目标团体的反识别技术研发难度,相较于相关技术直接通过字段值的一致性进行团体识别的方案,本技术具备更高的团体识别精度。
65、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。