一种相似用户识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据挖掘技术领域,特别是涉及一种相似用户识别方法及装置。
【背景技术】
[0002]随着信息技术的发展,互联网、移动互联网、物联网能够收集到越来越多的用户信息,如何将这些信息采集、存储并分析,进而发现不同用户之间的相似性正在成为研究热点。然而,现有技术中对相似用户识别的方法存在着计算复杂度高、效率低、准确度低的缺点。
[0003]鉴于此,本发明提供了一种相似用户识别方法及装置,以使得对用户进行相似度分析的过程效率更高、识别准确度更高。
【发明内容】
[0004]本发明的目的是提供一种相似用户识别方法及装置,以解决现有技术中对相似用户进行识别的过程效率低以及准确度低的问题。
[0005]为解决上述技术问题,本发明提供一种相似用户识别方法,包括:
[0006]采集当前用户的用户信息以及状态信息;
[0007]通过所述用户信息以及所述状态信息,根据预先定义的特性因子以及权重数值的对应关系,分别确定所述当前用户的各特性因子对应的当前权重数值,所述特性因子为满足预设数据规则的标签信息;
[0008]将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较,确定所述当前用户与所述目标用户的相似度。
[0009]可选地,所述分别确定所述当前用户的各特性因子对应的当前权重数值包括:
[0010]根据预设规则对预设周期内的数值进行筛选,选取的数值作为所述当前用户的各特性因子对应的当前权重数值。
[0011]可选地,所述采集当前用户的用户信息以及状态信息包括:
[0012]通过数据适配器周期性采集可穿戴设备、机器爬虫程序或人工手动输入的当前用户的用户信息以及状态信息。
[0013]可选地,在采集当前用户的用户信息以及状态信息之后还包括:
[0014]将所述用户信息以及所述状态信息转换为预设格式的数据;
[0015]将所述预设格式的数据缓存至第一消息队列中,按照先进先出的规则将缓存数据发送至指定的第一计算单元;
[0016]计算所述第一消息队列的缓存数据量,动态调整所述第一计算单元的数量;并根据所述第一计算单元反馈的计算结果,动态调整从所述第一消息队列中获取数据的数量;
[0017]将所述预设格式的数据存储于预先建立的数据库中。
[0018]可选地,所述通过所述用户信息以及所述状态信息,根据预先定义的特性因子以及权重数值的对应关系,分别确定所述当前用户的各特性因子对应的当前权重数值包括:
[0019]将所述用户信息以及所述状态信息缓存至第二消息队列中,按照先进先出的规则将缓存数据发送至指定的第二计算单元;
[0020]计算所述第二消息队列中的缓存数据量,动态调整所述第二计算单元的数量;并根据所述第二计算单元反馈的计算结果,动态调整从所述第二消息队列中获取数据的数量;
[0021]根据预先定义的特性因子以及权重数值的对应关系,分别确定所述当前用户的各特性因子对应的当前权重数值。
[0022]可选地,所述将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较,确定所述当前用户与所述目标用户的相似度包括:
[0023]将所述当前用户的各当前权重数值以及所述目标用户的各权重数值缓存至第三消息队列中,按照先进先出的规则将缓存数据发送至指定的第三计算单元;
[0024]计算所述第三消息队列中的缓存数据量,动态调整所述第三计算单元的数量;并根据所述第三计算单元反馈的计算结果,动态调整从所述第三消息队列中获取数据的数量;
[0025]将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较,确定所述当前用户与所述目标用户的相似度。
[0026]本发明还提供了一种相似用户识别装置,包括:
[0027]采集模块,用于采集当前用户的用户信息以及状态信息;
[0028]确定模块,用于通过所述用户信息以及所述状态信息,根据预先定义的特性因子以及权重数值的对应关系,分别确定所述当前用户的各特性因子对应的当前权重数值,所述特性因子为满足预设数据规则的标签信息;
[0029]识别模块,用于将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较,确定所述当前用户与所述目标用户的相似度。
[0030]可选地,所述采集模块还包括:
[0031]转换单元,用于将所述用户信息以及所述状态信息转换为预设格式的数据;
[0032]第一消息队列单元,用于将所述预设格式的数据缓存至第一消息队列中,按照先进先出的规则将缓存数据发送至指定的第一计算单元;
[0033]第一弹性计算单元,用于计算所述第一消息队列的缓存数据量,动态调整所述第一计算单元的数量;并根据所述第一计算单元反馈的计算结果,动态调整从所述第一消息队列中获取数据的数量;
[0034]存储单元,用于将所述预设格式的数据存储于预先建立的数据库中。
[0035]可选地,所述确定模块包括:
[0036]第二消息队列单元,用于将所述用户信息以及所述状态信息缓存至第二消息队列中,按照先进先出的规则将缓存数据发送至指定的第二计算单元;
[0037]第二弹性计算单元,用于计算所述第二消息队列中的缓存数据量,动态调整所述第二计算单元的数量;并根据所述第二计算单元反馈的计算结果,动态调整从所述第二消息队列中获取数据的数量;
[0038]确定单元,用于根据预先定义的特性因子以及权重数值的对应关系,分别确定所述当前用户的各特性因子对应的当前权重数值。
[0039]可选地,所述识别模块包括:
[0040]第三消息队列单元,用于将所述当前用户的各当前权重数值以及所述目标用户的各权重数值缓存至第三消息队列中,按照先进先出的规则将缓存数据发送至指定的第三计算单元;
[0041]第三弹性计算单元,用于计算所述第三消息队列中的缓存数据量,动态调整所述第三计算单元的数量;并根据所述第三计算单元反馈的计算结果,动态调整从所述第三消息队列中获取数据的数量;
[0042]识别单元,用于将所述当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较,确定所述当前用户与所述目标用户的相似度。
[0043]本发明所提供的相似用户识别方法及装置,通过采集当前用户的用户信息以及状态信息;根据预先定义的特性因子以及权重数值的对应关系,分别确定当前用户的各特性因子对应的当前权重数值;将当前用户的各当前权重数值分别与预先设定的目标用户的各权重数值进行比较,从而确定当前用户与目标用户的相似度。可见,本发明提供了一种通过特性因子的权重关系对当前用户以及目标用户进行比较,得到二者相似度的方法及装置,与现有技术相比,本申请所提供的方法及装置效率较高、识别准确度较高。
【附图说明】
[0044]图1为本发明所提供的相似用户识别方法的一种【具体实施方式】的流程图;
[0045]图2为将采集到的数据存储至数据库的过程流程图;
[0046]图3为确定当前用户的各特性因子对应的当前权重数值的过程流程图;
[0047]图4为确定当前用户与目标用户的相似度的过程流程图;
[0048]图5为消息队列缓存数据的工作流程图;
[0049]图6为弹性计算单元的工作流程图;
[0050]图7为本发明实施例提供的相似用户识别装置的结构框图。
【具体实施方式】
[0051]为了使本技术领域的人员更好地理解本发明方案,下面结合附图和【具体实施方式】对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]本发明所提供的相似用户识别方法的一种【具体实施方式】的流程图如图1所示,该方法包括:
[0053]步骤S101:采集当前用户的用户信息以及状态信息;
[0054]具体地,可以通过数据适配器周期性采集可穿戴设备、机器爬虫程序或人工手动输入的当前用户的用户信息以及状态信息。通过数据适配器进行采集,可兼容关系数据库、非关系数据库或XML等各种数据源,能够解决现有技术中对异构数据处理能力差的问题。
[0055]步骤S102:通过所述用户信息以