数据挖掘的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别是涉及一种数据挖掘的方法数据挖掘的方法和装 置。
【背景技术】
[0002] 如何扩大互联网应用服务的使用人群以及增强现有用户的行为活跃度,对于互联 网应用服务提供商来说至关重要。用户的行为活跃度一般通过用户行为频率来考量,用户 行为可以理解为用户与应用服务之间的交互操作,例如,用户在社交网站上的用户行为包 括转载、发帖、看帖、评论等等。
[0003] 目前,许多互联网应用服务尝试通过提供额外奖励的方式来吸引用户登陆并参与 互动,然而该策略主要依靠外在刺激来维持用户活跃度,不仅开销较大,而且实际效果也非 常有限。另一种广泛采用的策略是运用推荐系统为用户推荐好友、社区、新闻等,以增强用 户粘性,但是随着该策略使用的普及,其效果也越来越低。
[0004] 因此,挖掘出真正可提升用户活跃度的因素是亟需解决的问题。
[0005] 在以往研究中,用户活跃度影响因素的挖掘一般先通过人工挑选少量的特征,计 算这些特征与目标变量的Pearson相关系数或格兰杰因果关系,最后挑选评分较高的特 征。这种方法在样本量及特征数量均较少时较适用,而在用户活跃度影响因素挖掘问题中, 用户行为数据集庞大,且潜在影响用户活跃度的可能因素非常多,通过人工挑选出可能是 用户活跃度的影响因素的特征显示行不通。
【发明内容】
[0006] 基于此,有必要提供可从海量数据中自动挖掘出准确的用户行为频率提升因素的 一种数据挖掘的方法和装置。
[0007] -种数据挖掘的方法,包括以下步骤:
[0008] 获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列 的行为节点,所述行为节点由行为与行为执行时间组成;
[0009] 搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所 述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节 点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;
[0010] 获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为 行为频率提升因素。
[0011] -种数据挖掘的装置,其特征在于,包括:
[0012] 行为序列获取模块,用于获取各个用户的行为序列,所述行为序列中包含多条按 照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;
[0013] 提升点搜索模块,用于搜索所述行为序列中对应的提升值满足预设的长期提升条 件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述 行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频 率的比值;
[0014] 提升因素获取模块,用于获取发生时间满足行为频率提升点相关的时间条件的对 应用户发生的事件作为行为频率提升因素。
[0015] 上述数据挖掘的方法和装置,可以在数据量庞大的行为序列中挖掘出其后的行为 发生频率与其前的行为发生频率的比值满足预设的长期提升条件的行为节点,并将这些行 为节点作为行为序列的行为频率提升点;若在行为序列中某一行为节点后的行为发生频率 在一定程度上高出该行为节点前的行为发生频率,则说明在该行为节点的行为执行时刻之 前可能发生了影响行为频率提升的因素;上述方法和装置进一步基于行为频率提升点获取 导致行为频率提升的行为频率提升因素,从而可挖掘出准确的用户行为频率提升因素。
【附图说明】
[0016] 图1为一个实施例中可运行本申请文件中的数据挖掘的方法的设备的内部结构 不意图;
[0017] 图2为一个实施例中的数据挖掘的方法的流程示意图;
[0018] 图3为一个实施例中图2中的步骤S204的流程示意图;
[0019] 图4A为第i年的所有行为集中发生于第i年起始行为执行时间的情况下的平均 活跃度曲线图;
[0020] 图4B为第i年的所有行为集中发生于第i年最晚行为执行时间的情况下的平均 活跃度曲线示意图;
[0021] 图5为一个实施例中图2中的步骤S206的流程示意图;
[0022] 图6为一个实施例中图5中的步骤S504的流程示意图;
[0023] 图7为一个实施例中挖掘行为频率提升组合因素的过程的流程示意图;
[0024] 图8为一个实施例中的用户行为序列示意图;
[0025] 图9为一个实施例中的数据挖掘的装置的结构示意图;
[0026] 图10为一个实施例中提升点搜索模块的结构示意图;
[0027] 图11为另一实施例中的数据挖掘的装置的结构示意图;
[0028] 图12为一个实施例中提升因素获取模块的结构示意图;
[0029] 图13为一个实施例中置信度计算单元的结构示意图;
[0030] 图14A为一个实施例中的数据挖掘的装置的结构示意图;
[0031] 图14B为一个实施例中组合提升因素获取模块的结构示意图。
【具体实施方式】
[0032] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0033] 可以理解,本发明所使用的术语"第一"、"第二"等可在本文中用于描述各种对象, 但这些对象不受这些术语限制。这些术语仅用于将第一个对象与另一个对象区分。举例来 说,在不脱离本发明的范围的情况下,可以将本申请文件中的第一预设时间称为第二预设 时间,而将原第二预设时间称为第一预设时间,等等。
[0034] 图1为一个实施例中可运行本申请文件中的数据挖掘的方法的设备的内部结构 示意图。如图1所示,该设备可包括通过系统总线连接的处理器、存储介质、内存和网络接 口。其中,该设备的存储介质存储有操作系统、数据库等,另外该设备的存储介质中还存储 了用于实现本申请文件中的数据挖掘的方法的软件指令,该设备的处理器执行这些指令以 实现本申请文件中的数据挖掘的方法。
[0035] 如图2所示,一种数据挖掘的方法,包括以下步骤:
[0036] 步骤S202,获取各个用户的行为序列,行为序列中包含多条按照行为执行时间顺 序排列的行为节点,其中的行为节点由行为与行为执行时间组成。
[0037] 行为序列用于记录用户的行为,用户的行为可包括用户与应用服务交互过程中进 行的所有操作,例如,在社交网站上进行的转载、发帖、看帖、评论等操作。一条行为序列用 于按照行为执行时间的先后顺序记录一个用户的行为。
[0038] 例如,一条行为序列可表示为{〈八1,七1>,〈八 2,七2>,~,〈八1,七1>,~,〈八",1>},其中, ΑρΑ;;,…,六。表示η个行为,"·,1:η为这η个行为的行为执行时间。
[0039] 在一个实施例中,步骤S202可从用户事件数据库中提取用户的行为序列。用户事 件数据库中存储相对于各个用户发生的事件,相对于用户发生的事件(可简称为用户发生 的事件)包括用户自己的行为、他人对用户实施的行为、用户属性的改变等。
[0040] 步骤S204,搜索行为序列中对应的提升值满足预设的长期提升条件的行为节点作 为行为序列中的行为频率提升点,行为节点对应的提升值为行为序列中该行为节点后的行 为发生频率与行为序列中该行为节点前的行为发生频率的比值。
[0041] 例如,预设的长期提升条件可被设置为大于预设的第一提升阈值等,当行为执行 时间的提升值大于预设第一提升阈值,则该行为执行时间被列为行为频率提升点。
[0042] 行为序列中行为节点后的行为发生频率为:该行为序列中该行为节点后的行为节 点的数量/该行为序列中的最晚行为执行时间与该行为节点的行为执行时间所间隔的时 长;相应的,行为序列中行为执行时间点前的行为发生频率为:该行为序列中该行为节点 前的行为节点的数量/该行为序列中的起始行为执行时间与该行为节点的行为执行时间 所间隔的时长;上述的"/"表示"除以"运算。
[0043] 其中,行为序列中的起始行为执行时间为行为序列中第一个行为节点的行为执行 时间,最晚行为执行时间则为行为序列中最后一个行为节点的行为执行时间。
[0044] 以上述的行为序列为例,第i个行为节点对应的提升值Ii可计算为:
[0045]
[0046] 步骤S206,获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的 事件作为行为频率提升因素。
[0047] 上述数据挖掘的方法,可以在数据量庞大的行为序列中挖掘出其后的行为发生频 率与其前的行为发生频率的比值满足预设的长期提升条件的行为节点,并将这些行为节点 作为行为序列的行为频率提升点;若在行为序列中某一行为节点后的行为发生频率在一定 程度上高出该行为节点前的行为发生频率,则说明在该行为节点的行为执行时刻之前可能 发生了影响行为频率提升的因素;上述方法和装置进一步基于行为频率提升点获取导致行 为频率提升的行为频率提升因素,从而可挖掘出准确的用户行为频率提升因素。
[0048] 如图3所示,在一个实施例中,步骤S204包括以下步骤:
[0049] 步骤S302,将行为序列划分为多个区段。
[0050] 在一个实施例中,可按照行为序列中的行为执行时间所属的自然时间区段划分行 为序列。例如,将行为执行时间属于同一年的行为节点划分为一个区段,在后续的进一步 细分时,可将包括同一年的行为节点的一个区段中属于同一月的行为节点划分为一个子区 段,以及进一步的按照周、天等逐层划分。
[0051] 在另一个实施例中,可按照行为序列中的行为数量划分区段,例如,将行为序列进 行N等分,N可为大于等于2的自然数,例如2等分、3等分等,即将连续排列的个行 为节点划分为一个区段,剩余的行为节点划分为一个区段。
[0052] 在其中实施例中,可随机将行为序列划分为多个区段。
[0053] 步骤S304,计算每个区段包括的行为节点对应的提升值的下界和上界。
[0054] 在一个实施例中,一个区段包括的行为节点对应的提升值的下界可计算为:该区 段包括的所有行为节点的行为执行时间均等于该区段的起始行为执行时间的假设情况下, 该区段包括的最后一个行为节点对应的提升值;
[0055] -个区段包括的行为节点对应的提升值的上界可计算为:该区段包括的所有行为 节点的行为执行时间均等于该区段的最晚行为执行时间的假设情况下,该区段包括的第一 个行为节点对应的提升值。
[0056] 以将行为序列中行为执行时间属于同一年的行为节点划分为一