用户标识匹配方法和装置的制造方法
【技术领域】
[0001]本申请涉及计算机技术领域,具体涉及用户画像技术领域,尤其涉及用户标识匹配方法和装置。
【背景技术】
[0002]随着互联网的蓬勃发展,通过用户画像数据精准分析每个用户的属性以及关系的需求越来越明确。用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。通过用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个用户画像数据。用户画像使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。
[0003]目前,一些大型互联网企业通常拥有多条产品线,每条产品线都有各自的用户信息。为了更准确地提取用户画像数据,需要将多个产品线中的用户标识进行匹配,以确定各个产品线用户标识是不是属于同一个用户。现有的用户标识匹配的方法通常是单独基于用户标识所关联的IPdnternet Protocol,网络协议)地址来对用户标识进行匹配,或者单独根据用户标识所关联的定位信息来对用户标识进行匹配。
[0004]然而,由于各个通信运营商的IP地址分配机制不同,且通常是随机分配,因此单独基于IP地址来对用户标识进行匹配的方案的可靠性较低。同时,由于用户在访问互联网服务时通常会选择屏蔽不必要的定位请求,因此用户的定位信息通常存在缺失,从而难以根据部分缺失的定位信息准确地对用户标识进行匹配。
【发明内容】
[0005]本申请的目的在于提出一种用户标识匹配方法和装置,来解决以上【背景技术】部分提到的技术问题。
[0006]第一方面,本申请提供了一种用户标识匹配方法,所述方法包括:对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标;根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度;根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。
[0007]在一些实施例中,所述对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,包括:获取所述用户操作信息集合中记录的各个IP地址所关联的定位点坐标集合;针对每个所述IP地址,对所述IP地址所关联的定位点坐标集合进行聚类分析,得到所对应的至少一个聚类,作为所述IP所分布的定位区域;针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。
[0008]在一些实施例中,所述针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重,包括:将所分布的定位区域个数大于预设数量阈值或者定位区域中的定位点坐标与中心点坐标的距离平均值大于预设距离阈值的IP地址删除;针对剩余的每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。
[0009]在一些实施例中,所述确定所述IP地址所分布的各个定位区域的权重,包括:根据所述IP地址所分布的各个定位区域中的定位点坐标的个数和范围,确定各个定位区域的初始权重;将用户标识所关联的IP地址所分布的各个定位区域的中心点坐标作为用户标识对应的中心点坐标,对所述用户操作信息集合中记录的用户标识对应的中心点坐标根据地理布局进行网格化,生成至少两个网格;获取所述用户操作信息集合中记录的每个用户标识对应的在每个所述网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格与每个用户标识对应的频次,并获取每个网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格对应的总用户频次;基于所述频次,通过TF-1DF算法计算各个定位区域的权重。
[0010]在一些实施例中,所述方法还包括:计算所述待匹配用户标识与各个其它用户标识之间的IP地址相似度;以及所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识。
[0011]在一些实施例中,所述根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:获取所述待匹配用户标识和每个其它用户标识对应的特征信息,所述特征信息包括:所述待匹配用户标识和其它用户标识之间的IP地址相似度、定位信息相似度;基于所述待匹配用户标识和各个其它用户标识对应的特征信息,通过预先训练的排序模型,获取待匹配用户标识和各个其它用户标识匹配的概率;确定对应的所述概率大于预定的阈值的其它用户标识与所述待匹配用户标识匹配。
[0012]在一些实施例中,所述用户操作信息集合中的用户操作数据信息还包括:终端型号信息、操作系统信息;以及所述特征信息还包括以下信息中的至少一个:所述待匹配用户标识和其它用户标识之间的相同IP地址数量、对应的中心点坐标重合数量,所述待匹配用户标识和其它用户标识所关联的终端型号信息、操作系统信息。
[0013]在一些实施例中,所述用户操作信息集合中记录的用户标识包括第一用户标识和第二用户标识,所述待匹配用户标识和所述各个其它用户标识分别属于第一用户标识和第二用户标识。
[0014]在一些实施例中,在获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度之后,所述方法还包括:按照与所述待匹配用户标识之间的定位信息相似度从大到小的顺序,在所述用户操作信息集合中记录的第二用户标识中依次选取预定数量个第二用户标识,得到候选第二用户标识集合;以及所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识。
[0015]在一些实施例中,在根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识之前,所述方法还包括:针对所述候选第二用户标识集合中的每个第二用户标识,获取所述第二用户标识与各个第一用户标识之间的定位信息相似度;按照与所述第二用户标识之间的定位信息相似度从大到小的顺序依次选取预定数量个第一用户标识,得到候选第一用户标识集合;如果所述待匹配用户标识不在所述候选第一用户标识集合中,则将所述第二用户标识从所述候选第二用户标识集合中删除。
[0016]第二方面,本申请提供了一种用户标识匹配装置,所述装置包括:定位信息获取单元,用于对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标;定位信息相似度获取单元,用于根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度;匹配单元,用于根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。
[0017]在一些实施例中,所述定位信息获取单元包括:坐标集合获取子单元,用于获取所述用户操作信息集合中记录的各个IP地址所关联的定位点坐标集合;聚类子单元,用于针对每个所述IP地址,对所述IP地址所关联的定位点坐标集合进行聚类分析,得到所对应的至少一个聚类,作为所述IP所分布的定位区域;权重确定子单元,用于针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。
[0018]在一些实施例中,所述权重确定子单元包括:泛化IP清除模块,用于将所分布的定位区域个数大于预设数量阈值或者定位区域中的定位点坐标与中心点坐标的距离平均值大于预设距离阈值的IP地址删除;权重确定模块,用于针对剩余的每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。
[0019]在一些实施例中,所述权重确定子单元包括:初始权重确定模块,用于根据所述IP地址所分布的各个定位区域中的定位点坐标的个数和范围,确定各个定位区域的初始权重;网格化模块,用于将用户标识所关联的IP地址所分布的各个定位区域的中心点坐标作为用户标识对应的中心点坐标,对所述用户操作信息集合中记录的用户标识对应的中心点坐标根据地理布局进行网格化,生成至少两个网格;频次获取模块,用于获取所述用户操作信息集合中记录的每个用户标识对应的在每个所述网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格与每个用户标识对应的频次,并获取每个网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格对应的总用户频次;权重计算模块,用于基于所述频次,通过TF-1DF算法计算各个聚类的权重。
[0020]在一些实施例中,所述装置还包括:IP相似度计算单元,用于计算所述待匹配用户标识与各个其它用户标识之间的IP地址相似度;以及所述匹配单元还用于根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识。
[0021]在一些实施例中,所述匹配单元包括:特征信息获取子单元,用于获取所述待匹配用户标识和每个其它用户标识对应的特征信息,所述特征信息包括:所述待匹配用户标识和其它用户标识之间的IP地址相似度、定位信息相似度;排序子单元,用于基于所述待匹配用户标识和各个其它用户标识对应的特征信息,通过预先训练的排序模型,获取待匹配用户标识和各个其它用户标识匹配的概率;匹配子单元,用于确定对应的所述概率大于预定的阈值的其它用户标识与所述待匹配用户标识匹配。
[0022]在一些实施例中,所述用户操作信息集合中的用户操作数据信息还包括:终端型号信息、操作系统信息;以及所述特征信息还包括以下信息中的至少一个:所述待匹配用户标识和其它用户标识之间的相同IP地址数量、对应的中心点坐标重合数量,所述待匹配用户标识和其它用户标识所关联的终端型号信息、操作系统信息。
[0023]在一些实施例中,所述用户操作信息集合中记录的用户标识包括第一用户标识和第二用户标识,所述待匹配用户标识和所述各个其它用户标识分别属于第一用户标识和第二用户标识。
[0024]在一些实施例中,所述装置还包括:第一选取单元,用于在所述定位信息相似度获取单元获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识