一种基于签到数据的用户行为轨迹聚类方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别是涉及一种基于签到数据的用户行为轨迹聚类方 法。
【背景技术】
[0002] 随着我国国民经济的高速发展和城市化进程的加快,交通拥堵已经成为影响城市 可持续发展的一个全局性问题。为了解决交通拥堵,国家对城市道路交通基础设施和交通 管理相当重视,投入了大量的人力、物力、财力,经过多年建设,城市交通基础设施已取得了 很大的成就。但是,随着汽车保有量的激增,交通基础设施的建设已经满足不了交通发展的 需要,城市道路拥堵和交通安全已成为迫切需要解决的难题。交通信息服务系统作为智能 交通的重要组成部分,可以通过提供快捷、有效的道路交通流信息,方便公众出行,缓解交 通阻塞,提高道路通过能力,减少交通事故,降低能源消耗和减轻环境污染,满足城市和谐 与持续发展的需要。
[0003] 公众出行交通信息服务系统的本质包括以下几个方面:第一,在路网条件下,通过 先进的技术手段采集交通信息;第二,对采集到的动态交通信息进行处理并为公众出行提 供准确、及时的道路交通流信息。资料表明,已经建成的交通信息服务系统有电台、可变情 报板、网站、手机短信等多种渠道,交通信息的内容也比较丰富和准确,但对于交通管理者 和出行者来说,目前的交通信息服务水平远远没有达到交通参与者的需求。为了进一步提 高出行者的出行效率,降低交通拥堵,学术界和工业界近期提出了构建基于智能手机的交 通信息服务平台的思想,希望通过对采集到的数据(如手机用户签到历史数据)进行分析, 准确刻画公众出行的行为特征,从而为用户提供合适的出行线路,其关键技术之一在于设 计合适的基于用户行为轨迹的聚类算法。
[0004] 在没有先验知识的情况下,将物理或抽象对象的集合分成由类似对象组成的多个 类的过程称为聚类。传统的聚类分析计算方法主要有:划分方法(如K-MEANS、K-MED0IDS、 CLARANS等算法);层次方法(如BIRCH、CURE、CHAMELEON等算法);基于密度的方法(如 DBSCAN、OPTICS、DENCLUE等算法);基于网格的方法(如STING、CLIQUE、WAVE-CLUSTER等算 法)。以上算法主要用来聚类时间无关的数值类型的数据。而时空轨迹聚类分析方法主要用 于处理移动对象的时空轨迹数据,通过从时空轨迹数据中提取相似性与异常,发现其中有 意义的模式,目的是将具有相似行为的时空对象划分到一起,而将具有相异行为的时空对 象划分开来,其关键是根据时空轨迹数据的特点,设计与定义不同轨迹间的相似性度量方 法。根据所涉及的不同时间区间,可将现有的时空轨迹相似性度量方法划分为以下几种:时 间全区间相似(主要采用轨迹间欧式距离、最小外包矩形距离等相似性度量方法);全区间 变换对应相似(主要有DTW方法);多子区间对应相似(主要有最长公共子序列距离、编辑距 离等方法);单子区间对应相似(主要有子轨迹聚类、时间聚焦聚类、移动微聚类、移动聚类 等方法);单点对应相似(主要有历史最近距离等方法);无时间区间对应相似(主要有单向距 离、特征提取等方法)。这6类方法对于相似时间区间的要求是逐渐放松的,从要求时间全 区间相似,到局部时间区间相似,最后到无时间区间对应相似,反映了时空轨迹相似性度量 方法的发展过程。分析表明,GPS日志可以持续跟踪用户的行为轨迹,而在基于位置服务的 社交网络中,用户仅在到达某位置后才签到,没有对用户的行为轨迹进行全程持续的跟踪, 且用户签到具有一定的随意性和重复性。同时,用户在不同位置上签到次数差异较大,少数 用户完成了大多数签到,一些位置很少被签到,数据呈现出稀疏性。除此之外,用户的时空 行为随时间在不断变化,签到日期越接近当前,越能反映用户当前的行为轨迹。基于上述签 到数据的特点,需要我们设计合适的用户行为轨迹聚类方法,以构建基于智能手机的交通 信息服务系统。
【发明内容】
[0005] 本发明所要解决的技术问题是:针对手机签到数据的特点以及构建基于智能手机 的交通信息服务系统在用户行为轨迹聚类方面存在的问题,如何创新地设计一种合适的基 于签到数据的用户行为轨迹聚类方法。
[0006] 为了解决上述问题,本发明公开了一种基于签到数据的用户行为轨迹聚类方法, 其技术方案包括以下步骤: 步骤1:获取用户签到数据,包括用户ID、签到位置、签到时间以及签到日期等; 步骤2 :对用户签到数据进行预处理,包括无用数据过滤、类型转换和格式统一; 步骤3 :签到数据反映了用户的时空行为方式,带有时间标记的签到位置序列构成了 用户行为轨迹,在综合考虑了用户签到日期的边际效应和签到次数差异的影响的基础上, 计算用户在签到位置上的签到值; 步骤4 :任意选择k个用户作为初始聚类中心;对于剩下的其它用户,采用余弦相似性 方法计算用户与k个初始聚类中心的相似性,然后划分到与其最相似的聚类; 步骤5 :在每个簇内,采用余弦相似性方法计算每个用户与其余用户的相似度之和,选 择相似度和最大的用户作为该簇新的聚类中心;当k个新的聚类中心确定后,对于剩下的 其它用户,采用余弦相似性方法计算用户与k个新的聚类中心的相似性,然后划分到与其 最相似的聚类; 步骤6 :重复步骤5,直到满足预设聚类精度的要求。
[0007] 所述的基于签到数据的用户行为轨迹聚类方法,所述步骤3还包括: 步骤21 :把签到日期的每一天都分成T个时间区间,cu,t,p=l表示用户u曾经在 时间区间t、位置p处签到,c^p=0表示用户u在时间区间t、位置p处没有签到,其 中teT,peL,L为用户签到位置的集合;在综合考虑用户签到日期的边际效应 和签到次数差异的影响的基础上,将用户u在时间区间t、位置p处的签到值定义为
t为用户u在时间区间t签到的总次数,Nu,t,p
为用户u在时间区间t、位置p处签到的次数, 时间区间t、位置p、签到日期为d的边际效应函数,其中d。为当前日期,Η为预先设定的阈 值,Η等于所有签到日期中与当前日期差值的绝对值的最大值。
[0008] 所述的基于签到数据的用户行为轨迹聚类方法,所述步骤4还包括:
的基础上,用户u和用户ν在时间区间t、位置ρ处的签到值。
[0009] 所述的基于签到数据的用户行为轨迹聚类方法,所述步骤6还包括: 步骤41 :聚类精度,是指采用余弦相似性方法计算当前轮与上一轮对应聚类中心的相 似性,然后求和;如果相似度和大于预设的阈值,则聚类迭代过程终止。
[0010] 与现有技术相比,本发明具有以下优点: (1)本发明采用了一种基于签到数据的用户行为轨迹聚类方法,与K均值聚类算法比 较,我们考虑了时间维度,将K均值聚类算法中点状对象的相似性度量扩展到线状对象即 用户行为轨迹的比较。同时,在定义用户之间的余弦相似性时,我们把签到时间、日期因素 弓丨入到传统的"用户-签到位置"矩阵,变成了"用户-签到时间(日期)_签到位置"立方体。 除此之外,在更新聚类中心时,我们选择了相似度和最大的用户作为该簇新的聚类中心。
[0011] (2)为了体现用户在不