有趣项集获取方法和装置的制造方法_2

文档序号:8922775阅读:来源:国知局
、两个项目同时出现的频率、一个项目出现而另一个项目 不出现的频率、在一个项目出现的条件下另一个项目出现的频率等等,根据获取到的各种 频率,能够挖掘出隐藏在该至少一个项目中的关联规则。在本发明实施例中,可以选取多个 目标用户作为样本,对于每个目标用户,在该目标用户执行操作行为的过程中,统计该目标 用户本次操作行为的至少一个操作对象,该目标用户本次的操作行为构成一个事务,该至 少一个操作对象即为该事务中的至少一个项目,该事务包括该至少一个项目,则可以认为 在该事务中该至少一个项目同时出现。通过统计多个目标用户执行的操作行为,得到多个 事务,该多个事务构成该事务集。
[0059] 仍以用户选择物品的行为为例,对于每个目标用户,在目标用户选择物品完成时, 统计该目标用户本次选择的至少一个物品,构成一个事务,该事务包括该至少一个物品。通 过不断地对多个目标用户的选择物品的行为进行统计,可以得到多个事务,将该多个事务 构成该事务集,通过对该事务集进行分析,可以挖掘出隐藏在该至少一个物品中的关联规 贝U,确定具有关联关系的物品。那么,物品提供商即可将具有关联关系的物品放置在同一位 置或者相邻位置,以主动为用户推荐具有关联关系的物品,节省用户选择物品的时间。
[0060] 为了区分不同的事务,为每个事务设置一个事务标识TID,当两个事务的TID相同 时,表明两个事务相同。例如,该事务集可以如下表1所示。
[0061] 表 1
[0063] 该事务集中包括5个事务"134"、"235"、"1235"、"25",扫描该事务集,可以确定该 事务集中的项目为" 1"、" 2 "、" 3 "、" 4 "、" 5 "。
[0064] 202、获取该事务集包含的事务数目以及每个项目在该事务集中出现的次数。
[0065] 具体地,计算该事务集中每个事务的出现次数,计算每个事务的出现次数之和,作 为该事务集包含的事务数目。对于每个项目,获取包括该项目的每个事务的出现次数,将包 括该项目的每个事务的出现次数之和作为每个项目在该事务集中出现的次数。
[0066] 参见表1,假设在该事务集中这4个事务的出现次数均为1,则该事务集包含的事 务数目为4,对于每个项目,包括该项目的每个事务标识TID以及该项目在该事务集中出现 的次数如下表2所示。
[0067]表 2
[0069] 203、将每个项目所构成的项集分别作为第一候选项集,对于每个第一候选项集, 执行步骤204。
[0070] 参见表1,5个项目"1"、"2"、"3"、"4"、"5"所构成的项集分别为{1}、{2}、{3}、 ⑷、{5}。
[0071] 204、根据该事务数目和每个项目在该事务集中出现的次数,计算支持度和余弦相 似度。
[0072] 在本发明实施例中,将每个项目所构成的项集分别作为第一候选项集,从该第一 候选项集中获取有趣项集。实际上,还可以根据该第一候选项集进行迭代,每次迭代过程 中,将当前候选项集的直接超集或者超集作为下一次迭代时的候选项集,通过迭代的方式 从当前候选项集中获取多个有趣项集。而在每次迭代过程中,需要计算当前候选项集的支 持度和余弦相似度,具体包括以下步骤(1)和(2 ):
[0073] (1)获取该事务集包含的事务数目,并获取该候选项集中的每个项目在该事务集 中同时出现的次数,根据该事务数目以及该候选项集中每个项目在该事务集中同时出现的 次数,计算该候选项集的支持度。
[0074] 本发明实施例以将每个项目所构成的项集作为第一候选项集为例,则根据该事务 数目以及每个项目在该事务集中出现的次数,计算每个项目的支持度,即为该第一候选项 集的支持度。具体地,计算每个项目在该事务集中出现的次数与该事务数目之间的商,作为 每个项目所构成的第一候选项集的支持度。参见表1和表2,每个项目的支持度如下表3所 /_J、1 o
[0075]表 3
[0077]^而对于在第一候选项集之后得到的、包括至少两个项目的候选项集来说,当任一 事务中包括该候选项集中的所有项目时,确定该候选项集中每个项目在该事务集中同时出 现一次,则对于每个事务,判断该事务是否包括该候选项集中的所有项目,如果是,将该事 务作为该候选项集对应的事务,以统计该候选项集对应的事务的出现次数之和,作为该候 选项集中每个项目在该事务集中同时出现的次数,并计算该候选项集中每个项目在该事务 集中同时出现的次数与该事务数目之间的商,作为该候选项集的支持度。
[0078] 参见表1和表3,假设基于该第一候选项集得到{1,2}、{1,3}、{1,4}、{1,5}四个 第二候选项集,则四个第二候选项集的支持度如下表4所示。
[0079] 表 4
[0081] 进一步地,本发明实施例以将该候选项集中每个项目在该事务集中同时出现的次 数与该事务数目的比例作为该候选项集的支持度为例,也即是计算该候选项集的"相对支 持度",而实际上,还可以将该候选项集中每个项目在该事务集中同时出现的次数直接作为 该候选项集的支持度,也即是计算该候选项集的"绝对支持度",本发明实施例对此不做限 定。
[0082] (2)根据该候选项集的支持度以及该候选项集中每个项目的支持度,计算该候选 项集的余弦相似度。
[0083] 可选地,根据该候选项集的支持度以及该候选项集中每个项目的支持度,应用以 下公式计算该候选项集的余弦相似度:
[0085] 其中,X为该候选项集,XHii,i2, . . .,iK},K为该候选项集的宽度,K彡2, k=l,2,...K,cos(X)为该候选项集的余弦相似度,supp(X)为该候选项集的支持度, supp({ik})为该候选项集中项目ik的支持度。
[0086] 对于一个项集X=Ui,i2, . . .,ik},X关于项ik的条件支持度为:
[0087]
,该条件支持度与条件概率的定义类似。结合该条件支持 度和该余弦相似度,可以得出:
表明项集X的余弦相似度可以 看作项集X在项集X的每个项目的条件下的支持度的几何平均值,因此,在关联规则挖掘过 程中,余弦相似度可以用于衡量项集X的"紧密程度"。
[0088]参见表3和表4,以X={{1},⑵}为例,
[0090] 应用该余弦相似度的公式可以得出上述第一候选项集和第二候选项集的余弦相 似度,如下表5所示。
[0091]表 5
[0093] 205、判断该第一候选项集的余弦相似度是否大于第一预设阈值,并判断该第一候 选项集的支持度是否大于第二预设阈值,执行步骤206、208、209或210。
[0094] 其中,该第一预设阈值和该第二预设阈值可以预先根据该事务集的事务数目设 定,还可以在更新该事务集时对该第一预设阈值和该第二预设阈值进行调整,本发明实施 例对此不做限定。
[0095] 在本发明实施例中,当该第一候选项集的余弦相似度大于该第一预设阈值时,可 以认为该第一候选项集"紧密",当该第一候选项集的支持度大于该第二预设阈值时,可以 认为该第一候选项集"频繁"。通过应用该第一预设阈值和该第二预设阈值,对该第一候选 项集进行过滤,可以获取到"频繁"且"紧密"的项集。在本发明实施例中,可以认为"频繁" 且"紧密"的项集的每个项目之间具有关联关系,且该关联关系具有实际的应用价值。
[0096] 206、当该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的 支持度大于该第二预设阈值时,将该第一候选项集作为有趣项集。
[0097] 在本发明实施例中,以D指代该待分析的事务集,以min_cos指代该第一预设阈 值,以min_supp指代该第二预设阈值,则D中关于min_cos和min_supp的有趣模式集合被 定义为:
[0098]F(D,min_supp,min_cos) ={XGI/supp(X) ^min_supp,cos(X) >min_cos}〇
[0099] 相应的,集合F(D,min_supp,min_cos)中的元素就是有趣项集。基于有趣项集的 定义,当该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持度 大于该第二预设阈值时,将该第一候选项集作为有趣项集。
[0100] 参见表3和表5,当该第一预设阈值为0. 7,该第二预设阈值为0. 4时,可以确定第 一候选项集{1}、12}、{3}、{5}的余弦相似度大于该0. 7且支持度大于0. 4,将第一候选项 集{1}、{2}、{3}、{5}作为有趣项集。而第一候选项集{4}的支持度小于0.4,则过滤该第 一候选项集{4}。
[0101] 207、将该第一候选项集的直接超集作为该第二候选项集,对于每个第二候选项 集,执行步骤204。
[0102] 在本发明实施例中,支持度具有如下的反单调性:对于任意的项集X和Y,满足 XgY,贝Usupp(X)彡supp(Y);其中,supp(X)为项集X的支持度,supp(Y)为项集Y的支 持度,在此不再证明。
[0103] 余弦相似度具有如下的条件反单调性:
[0104] 对于任意的项集X和Y,满足
,当 8即卩({;[})〈8即卩({;['})时,(30800>(308(¥);
[0105] 其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i}) 为i的支持度,supp(U'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集 Y的余弦相似度。
[0106] 以下将证明余弦相似度具有条件反单调性。
[0107] 假设项集XHii,i2, . . .,iK},该项集X的宽度为K,K彡1,该项集的超集 Y=XU{iK+1,iK+2,…,iK+J,项集Y的宽度为K+L(L彡 0),且VlSlSL,lSkSK,均
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1