一种两个不同平台下同一用户识别方法及系统的制作方法
【技术领域】
[0001] 本申请涉及同一用户识别领域,特别涉及一种两个不同平台下同一用户识别方法 及系统。
【背景技术】
[0002] 随着技术的发展,人们对匹配不同微博网站之间同一个人的账号越来越关注。
[0003] 经分析可知,同一用户的个人信息(用户名、昵称、性别、所在地和年龄)即使在不 同的平台下仍然表现出明显的相似性,这样,可以充分利用用户的个人信息,来探索识别不 同平台下的同一用户的方法。
[0004] 因此,如何有效的识别两个不同平台下的同一用户是本领域技术人员目前需要解 决的技术问题。
【发明内容】
[0005] 本申请所要解决的技术问题是提供一种两个不同平台下同一用户识别方法及系 统,能够有效的识别两个不同平台下的同一用户。
[0006] 其具体方案如下:
[0007] -种两个不同平台下同一用户识别方法,该方法包括:
[0008] 采集两个不同平台下的个人资料信息;
[0009] 对所述采集的个人资料信息进行标注;
[0010] 对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别 进行特征抽取后分别作为训练样本和测试样本;
[0011] 利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述 两个不同平台下的待测用户是否为同一用户。
[0012] 上述的方法,优选的,所述两个不同平台分别为新浪微博和腾讯微博,所述采集两 个不同平台下的个人资料信息,包括:
[0013] 构建用户队列;
[0014] 挑选一个微博用户作为种子用户,加入到所述用户队列中;
[0015] 从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信 息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所 述关注用户和粉丝用户加入到所述用户队列中;
[0016] 重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
[0017] 上述的方法,优选的,所述对采集的个人资料信息进行标注,包括:
[0018] 对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类,对两个不同 平台下不相匹配的个人资料信息标注为非同一用户或者负类。
[0019] 上述的方法,优选的,所述对已经标注的个人资料信息和待测的两个不同平台下 用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本,包括:
[0020] 对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果 作为训练样本;
[0021] 对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作 为测试样本。
[0022] 上述的方法,优选的,所述利用k_近邻算法对所述待测的两个不同平台下的用户 进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户,包括:
[0023] 计算待测样本集与训练样本集之间的余弦相似度;
[0024] 按照距离递增次序排序;
[0025] 选取与当前待测样本距离最小的k个训练样本;
[0026] 确定前k个训练样本所在类别的出现频率;
[0027] 返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
[0028] -种两个不同平台下同一用户识别系统,该系统包括:
[0029] 采集单元,用于采集两个不同平台下的个人资料信息;
[0030] 标注单元,用于对所述采集的个人资料信息进行标注;
[0031] 特征抽取单元,用于对已经标注的个人资料信息和待测的两个不同平台下用户的 个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
[0032] 类别识别单元,用于利用k_近邻算法对所述待测的两个不同平台下的用户进行 类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
[0033] 上述的系统,优选的,所述两个不同平台分别为新浪微博和腾讯微博,所述采集单 元包括:
[0034] 构建单元,用于构建用户队列;
[0035] 挑选单元,用于挑选一个微博用户作为种子用户,加入到所述用户队列中;
[0036] 抓取单元,用于从所述用户队列中取出一个用户,通过新浪微博提供的API抓取 用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉 丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
[0037] 重复单元,用于重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达 到设定数值。
[0038] 上述的系统,优选的,所述标注单元包括:
[0039] 第一标注子单元,用于对两个不同平台下相匹配的个人资料信息标注为同一用户 或者正类;
[0040] 第二标注子单元,用于对两个不同平台下不相匹配的个人资料信息标注为非同一 用户或者负类。
[0041] 上述的系统,优选的,所述特征抽取单元包括:
[0042] 第一特征抽取子单元,用于对所述标注的两个不同平台下的用户个人资料信息进 行特征抽取,并将抽取结果作为训练样本;
[0043] 第二特征抽取子单元,用于对未标注的两个不同平台下的用户个人资料信息进行 特征抽取,并将抽取结果作为测试样本。
[0044] 上述的系统,优选的,所述类别识别单元包括:
[0045] 计算单元,用于计算待测样本集与训练样本集之间的余弦相似度;
[0046] 排序单元,用于按照距离递增次序排序;
[0047] 选取单元,用于选取与当前待测样本距离最小的k个训练样本;
[0048] 确定单元,用于确定前k个训练样本所在类别的出现频率;
[0049] 返回单元,用于返回前k个训练样本出现频率最高的类别作为当前待测样本的预 测标签。
[0050] 本申请提供的两个不同平台下同一用户识别方法中,首先,采集两个不同平台下 的个人资料信息;然后,对所述采集的个人资料信息进行标注;并对已经标注的个人资料 信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样 本和测试样本;最后,利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识 另IJ,确定所述两个不同平台下的待测用户是否为同一用户。能够有效的识别两个不同平台 下的同一用户,且在训练样本数量有限的情况下,达到较高的准确率。这将有利于企业制定 精准的广告投放,有助于研宄同一用户使用不同社交网络的使用动机分析及其相关分析以 此来帮助社交网络运营更好的开发社交网络产品。
【附图说明】
[0051] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。
[0052] 图1是本申请的一种两个不同平台下同一用户识别方法实施例的流程图;
[0053] 图2是本申请的一种两个不同平台下同一用户识别方法另一实施例的流程图;
[0054] 图3是本申请的一种两个不同平台下同一用户识别系统实施例的结构示意图;
[0055] 图4是本申请的一种两个不同平台下同一用户识别系统另一实施例的结构示意 图。
【具体实施方式】
[0056] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本申请保护的范围。
[0057] 参考图1,示出了本申请两个不同平台下同一用户识别方法