时序聚类的分布式处理方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机领域的数据处理技术,尤其涉及一种时序聚类的分布式处理方 法及系统。
【背景技术】
[0002] 随着互联网技术的迅猛发展,基于互联网提供的各类服务层出不穷,伴随产生的 信息量也呈爆炸式增长,如何快速地从海量数据中挖掘出有价值的信息变得日益重要。在 送些数据中有送样一类数据,它按照时间先后顺序详细记录下了用户的操作过程,数据中 隐藏着用户的行为特征、偏好等信息,送些信息对于完善服务、提升用户体验、辅助决策、优 化运营策略有极大的帮助,但送些信息无法直接得到,必须通过对数据深入挖掘才能获取。
[0003] 上述具有时序特征的数据挖掘,可W通过时序聚类来实现,上述信息可抽象成时 序聚类的原始数据,通过时序聚类处理,得到送些信息的内在规律,比如发现用户在购买物 件A和物件B之间的关联性的强弱等。具体如基于用户行为轨迹分析、用户偏好分析W及 用户分群等。现有方法对上述具有时序特点的数据进行时序聚类时,通常采用k-means聚 类。所述k-means聚类又称为k-means算法;k-means算法是硬聚类算法,是典型的基于原 型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用 函数求极值的方法得到迭代运算的调整规则。K-means算法W欧式距离作为相似度测度,每 次迭代都需要重新计算任意两点(类)之间的距离,从而所有的数据必须由同一台设备处 理。
[0004] k-means聚类的操作至少包括聚类迭代和距离计算两种;现有的算法根据聚类和 距离计算的先后顺序包括W下两种:
[0005] 第一、先计算距离后聚类,采用送种算法时间复杂度为0(n~2),对计算及的内存需 求也为〇(η~2)。
[0006] 第二、一边聚类一边计算距离,可W将内存需求0(1),但是时间复杂度为〇(η~4)。
[0007] 故现有的时序聚类算法对计算机处理能力要求高或者处理效率低。
【发明内容】
[0008] 有鉴于此,本发明实施例期望提供一种时序聚类的分布式处理方法及系统,能够 降低对计算机处理能力的要求或提高处理效率。
[0009] 为达到上述目的,本发明的技术方案是送样实现的:
[0010] 本发明第一方面提供一种时序聚类的分布式处理方法,所述方法包括:
[0011] 依据至少两个原始数据形成对应于所述原始数据的Ν个状态转移矩阵;每一个所 述原始数据包括一个标识信息、对应该标志信息的Μ操作行为及表征每个所述操作行为的 时序的信息;所述Ν为所述标识信息的总个数;所述Ν为不小于2的整数;所述Μ为不小于 2的整数;一个所述状态转移矩阵用于表征的一个所述标识信息对应的任意两个所述操作 行为之间的转换状况;
[0012] 计算任意两个所述状态转移矩阵之间的距离;
[0013] 依据所述距离及基于密度的聚类算法分布式计算时序聚类结果。
[0014] 优选地,
[0015] 所计算任意两个所述状态转移矩阵之间的距离还包括:
[0016] 对所述N个状态转移矩阵做归一化处理,形成N个归一化状态转移矩阵;
[0017] 计算所述任意两个所述归一化状态转移矩阵之间的距离。
[001引优选地,
[0019] 所述依据所述距离采用基于密度的聚类算法分布式计算时序聚类结果包括:
[0020] 依据所述距离分布式计算出一个或多个核必点、每一个所述核必点的直接密度可 达的点W及间接密度可达的点。
[00川优选地,
[0022] 所述计算任意两个所述状态转移矩阵之间的距离为:
[0023] 采用欧式距离范数计算所述任意两个状态转移矩阵之间的距离。
[0024] 优选地,
[00巧]所述基于密度的聚类算法为OPTICS聚类算法。
[0026] 本发明第二方面提供一种时序聚类的分布式处理系统,所述系统包括:
[0027] 形成单元,用于依据至少两个原始数据形成对应于所述原始数据的N个状态转移 矩阵;每一个所述原始数据包括一个标识信息、对应该标志信息的Μ操作行为及表征每个 所述操作行为的时序的信息;所述Ν为所述标识信息的总个数;所述Ν为不小于2的整数; 所述Μ为不小于2的整数;一个所述状态转移矩阵用于表征的一个所述标识信息对应的任 意两个所述操作行为之间的转换状况;
[0028] 处理单元,用于计算任意两个所述状态转移矩阵之间的距离;
[0029] 计算单元,用于依据所述距离及基于密度的聚类算法分布式计算时序聚类结果。
[0030] 优选地,
[0031] 所述处理单元还包括:
[0032] 归一化处理模块,用于对所述Ν个状态转移矩阵做归一化处理,形成Ν个归一化状 态转移矩阵;
[0033] 计算模块,用于计算所述任意两个所述归一化状态转移矩阵之间的距离。
[0034] 优选地,
[0035] 所述计算单元,具体用于依据所述距离分布式计算出一个或多个核必点、每一个 所述核必点的直接密度可达的点W及间接密度可达的点。
[0036] 优选地,
[0037] 所述处理单元,具体采用欧式距离范数计算所述任意两个状态转移矩阵之间的距 离。
[0038] 优选地,
[0039] 所述基于密度的聚类算法为OPTICS聚类算法。
[0040] 本发明实施例中所述的时序聚类的分布式处理方法及系统,根据基于密度的聚类 算法的特点,采用基于密度的聚类算法替代现有的K-means算法对具有时序相关性的原始 数据进行时序聚类,且采用分布式执行所述时序聚类的操作,从而提升了计算效率,相对于 集中处理,降低了对单一计算机的处理能力的要求。
【附图说明】
[0041] 图1为本发明实施例所述的时序聚类的分布式处理方法的流程示意图;
[0042] 图2为本发明实施例所述的距离计算的流程示意图;
[0043] 图3为本发明实施例所述的时序聚类的分布式处理方法的结构示意图之一;
[0044] 图4为本发明实施例所述的处理单元的结构示意图之一;
[0045] 图5为本发明实施例所述的时序聚类的分布式处理方法的结构示意图之二。
【具体实施方式】
[0046] W下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
[0047] 实施例一:
[0048] 如图1所示,本实施例提供一种时序聚类的分布式处理方法,所述方法包括:
[0049] 步骤S110 ;依据至少两个原始数据形成对应于所述原始数据的N个状态转移矩 阵;每一个所述原始数据包括一个标识信息、对应该标志信息的Μ操作行为及表征每个所 述操作行为的时序的信息;所述Ν为所述标识信息的总个数;所述Ν为不小于2的整数;所 述Μ为不小于2的整数;一个所述状态转移矩阵用于表征的一个所述标识信息对应的任意 两个所述操作行为之间的转换状况;
[0050] 步骤S120 ;计算任意两个所述状态转移矩阵之间的距离;
[0051] 步骤S130 ;依据所述距离及基于密度的聚类算法分布式计算时序聚类结果。
[0052] 所述标识信息任意两个原始数据的区分信息,具体如序列号或名称。在具体的实 现过程中,所述标识信息可W为用户ID,如用户A进行网购时形成的原始数据;该原始数据 包括用户A用于网购的用户ID,网购时进行的操作,如浏览、预定W及订购等操作行为。为 了区分各操作行为之间的先后顺序,还对应有表征每一个操作行为的时序相关信息。
[0053] 表征所述时序相关信息可W为具体的时间,如用户浏览商品的具体时间,如6月 30号12:15,下单订购的时间为6月30号13:15等。所述时序相关信息还可W是用户A在 执行各个操作的时间形成的排序序号;如浏览在预定之前,则浏览对应的时序先于所述预 定的时序。
[0054] 此外,还可W通过一个标识信息对应的多个操作行为之间按照