基于密度聚类的自适应轨迹预测方法
【专利摘要】本发明公开了基于密度聚类的自适应轨迹预测方法,包括轨迹建模阶段和轨迹更新阶段,轨迹建模阶段通过对新产生的移动报告进行栅格化处理得到移动点并划分为6个移动点子集,采用基于限定区域数据抽样的密度聚类算法对6个移动点子集聚类形成新轨迹簇,根据轨迹点的相似度将相同时间段内的新旧轨迹簇合并,更新合并后的轨迹簇的轨迹点以及影响区域,将这些轨迹点按照时间顺序组合便得到完整的用户移动轨迹,轨迹更新阶段对于轨迹建模阶段产生的用户移动轨迹进行修正。本发明基于密度聚类的自适应轨迹预测方法,能够应用于移动通信场景下的用户移动轨迹预测,并且当新的用户移动轨迹到来时不需要对全部轨迹数据进行重新建模。
【专利说明】基于密度聚类的自适应轨迹预测方法
【技术领域】
[0001] 本发明属于计算机科学与技术的数据挖掘【技术领域】,涉及一种基于密度聚类的自 适应轨迹预测方法。
【背景技术】
[0002] 随着移动便携设备的广泛普及、无线通信技术和全球定位技术的快速发展,使得 人们已经能够获得大量的用户实时位置数据,如利用车载GPS导航系统可以实时地获得汽 车当前的地理位置以及行驶方向等信息;对于携带移动设备的用户,通过基站定位的方式 能大概估计出用户的活动区域。将获得的位置信息在连续时间点上"串联"起来就形成了 某个用户在一段时间内的移动轨迹。大量的用户位置数据和移动轨迹背后蕴藏着丰富的空 间结构信息和用户的行为规律,通过对这些信息的分析与挖掘,可以为用户提供多种增值 服务和工具,如智能交通中的电子地图和路径诱导服务、社交网络中的好友推荐以及个性 化服务等。
[0003] 近年来,移动网络中基于位置信息的服务也越来越受到国内外研究学者的关注, 轨迹预测技术是其中最受关注的热点问题之一。在用户移动轨迹预测的研究中,基于位置 的行为分析取得了比较好的研究成果。Gonzalez等人通过分析10万个移动用户的移动轨 迹数据,发现人们的轨迹在时空上呈现出一定的规律性,Blumm等人利用三个月100万手 机用户的话单数据,通过度量每个用户轨迹熵值的方法,论证得出了任何对于人类行为模 式进行预测的准确率不会超过93%的结论,这些工作证明了用户移动轨迹的规律性和可预 测性。研究学者将数据挖掘方法应用到用户轨迹预测问题的研究中,提出了 一系列的算法 和技术,这些方法利用不同的相似度度量函数将用户轨迹数据进行聚类分析,进而得出用 户的行为模式。Cadez和Gaffney等人通过建立轨迹的多元混合模型来对用户轨迹的所属 模式进行概率估计,并利用EM算法来估计混合模型的参数,该算法可以获得用户全局的行 为模式,但不能方便地获得用户局部的轨迹模式。Han J W等人首次提出用户"区域轨迹" 的发现问题,区域轨迹在一定程度上反映了用户特定的兴趣,为了分析用户的区域轨迹,利 用划分-聚类的思想提出了 TRACLUS算法,该算法主要包含两个阶段:在划分阶段,算法首 先将用户一次完整的移动轨迹划分为多个子轨迹序列,在聚类阶段使用基于密度的聚类方 法将相似子轨迹进行合并,进而获得用户行为的"区域模式"。随后,再将"区域模式"和划 分-聚类的思想应用于解决轨迹分类和异常轨迹检测的问题,提出了 TraClass轨迹特征识 别框架和TRA0D轨迹异常点检测算法。Agrawal在以上研究的基础上提出了对位置数据进 行增量式聚类分析的算法框架TCMM,该框架包含微聚类和再聚类两个阶段,微聚类阶段算 法根据特定的相似度度量方法和相似度阈值对新的轨迹数据和已存在的轨迹簇进行聚类, 再聚类阶段对上一阶段产生的微簇进行重新合并聚类,再聚类操作在算法执行中不是必须 的,只有在用户需要查询当前的轨迹聚类结果时进行。
[0004] 上述方法的实施大都依赖完整、连续、静态的用户轨迹数据,而移动通信数据具有 数据量庞大、信息分布离散、数据格式复杂等特点,现有的针对连续轨迹数据的研究方法难 以直接应用到移动通信场景中,并且当有新的用户移动轨迹数据到来时,需要对全部轨迹 数据进行重新建模,导致算法效率低。
【发明内容】
[0005] 本发明的目的是提供一种基于密度聚类的自适应轨迹预测方法,能够应用于移动 通信场景下的用户移动轨迹预测,并且当新的用户移动轨迹到来时不需要对全部轨迹数据 进行重新建模。
[0006] 本发明所采用的技术方案是,基于密度聚类的自适应轨迹预测方法,包括轨迹建 模阶段和轨迹更新阶段,轨迹建模阶段具体按照以下步骤实施:
[0007] 步骤1,采集用户第i天的移动报告%,其中,i>0 ;
[0008] 步骤2,采用基于倒排索引的MR定位算法对移动报告%进行转化,得到用户一天 的移动点集Si ;
[0009] 步骤 3,将移动点集 Si 按照时间段 0am-6am、6am-9am、9am-12am、12am_14pm、 14pm-18pm、18pm-24pm划分为六个移动点子集;
[0010] 步骤4,采用基于限定区域数据抽样的密度聚类算法密度聚类算法分别对六个移 动点子集中的移动点进行聚类,得到包含有六个轨迹簇子集的轨迹簇集合;
[0011] 步骤5,计算轨迹簇集合Ti中每一个轨迹簇的轨迹点及其轨迹点的影响区域;
[0012] 步骤6,计算轨迹簇集合1\中每一个轨迹点的预测概率,并且将每一个轨迹点按照 时间顺序组合得到用户轨迹预测模型TMi;
[0013] 步骤7,对用户i+1天的移动报告Mi+1执行步骤1?步骤4,得到轨迹簇集合T i+1, 其中,i+1彡7 ;
[0014] 步骤8,按照步骤3中的时间段顺序依次计算在相同的时间段内轨迹簇集合凡中 的每一个轨迹簇与轨迹簇集合T i+1中所有轨迹簇之间的相似度值,如果计算出来的相似度 值不小于第一轨迹点相似度阈值,则将两个轨迹簇合并至轨迹簇集合中,并且将轨迹簇 集合T i+1中已经被合并的轨迹簇删除,执行步骤9 ;如果计算出来的相似度值小于相似度阈 值,则不将两个轨迹簇合并;
[0015] 步骤9,判断合并操作后的轨迹簇集合1\中是否存在无效轨迹簇,如果合并操作后 的轨迹簇集合中存在无效轨迹簇,则将合并操作后的轨迹簇集合中的无效轨迹簇删 除,执行步骤10 ;如果合并操作后的轨迹簇集合1\中不存在无效轨迹簇,则将轨迹簇集合 Ti+1中未进行合并操作的轨迹簇加入合并操作后的轨迹簇集合中,并计算加入操作之后 的轨迹簇集合中每一个轨迹簇的轨迹点及其轨迹点的影响区域,以及每一个轨迹点的预测 概率,并且将轨迹簇集合中的轨迹点按照时间顺序组合得到用户轨迹预测模型TM i+1 ;
[0016] 步骤10,将轨迹簇集合Ti+1中未进行合并操作的轨迹簇加入删除了无效轨迹簇的 轨迹簇集合中,得到轨迹簇集合判断轨迹簇集合^中是否存在无效轨迹簇,如果轨迹 簇集合h中存在无效轨迹簇,则将轨迹簇集合&中无效轨迹簇删除,执行步骤11 ;如果轨 迹簇集合1^中不存在无效轨迹簇,则计算轨迹簇集合中每一个轨迹簇的轨迹点及其轨迹 点的影响区域,以及每一个轨迹点的预测概率,并且将轨迹簇集合h中的轨迹点按照时间 顺序组合得到用户轨迹预测模型TM i+1 ;
[0017]步骤11,计算删除了无效轨迹簇的轨迹簇集合&中的每一个轨迹簇的轨迹点及其 轨迹点的影响区域,以及每一个轨迹点的预测概率,并且将轨迹簇集合ti中的轨迹点按照 时间顺序组合得到用户轨迹预测模型TMi+1 ;
[0018] 步骤12,对于用户i+n天的移动报告执行步骤7?步骤11,得到用户轨迹预测模 型 TMi+n ;
[0019] 轨迹更新阶段具体按照以下步骤实施:
[0020] 步骤13,依次计算用户轨迹预测模型TMi+n中各时间段内任意一个轨迹点与其他 所有轨迹点之间的相似度值,如果两个轨迹点的相似度值不小于第二轨迹点相似度阈值, 则将轨迹簇集合t i+n中两个轨迹点对应的轨迹簇合并,并且使合并的两个轨迹簇的轨迹点 保留次数均增长1,执行步骤14 ;如果两个轨迹点的相似度值小于第二轨迹点相似度阈值, 则将两个轨迹点的保留次数均增长1,执行步骤14 ;
[0021] 步骤14,采用缩减因子0对轨迹簇集合ti+n中所有轨迹簇的大小进行缩减,并依 次计算缩减后的轨迹簇集合t i+n中每一个轨迹点的栅格坐标及其影响区域,计算缩减后的 轨迹簇集合ti+n中各个时间段内的每一个轨迹点的预测概率,并将轨迹点按照时间顺序组 合得到用户移动轨迹预测模型TM' i+n。
[0022] 本发明的特点还在于,
[0023] 步骤9具体按照以下步骤实施:
[0024] 步骤9. 1,计算合并操作后的轨迹簇集合1\中每一个时间段内的轨迹点个数,如果 某个时间段内轨迹簇中的轨迹点个数不小于轨迹点删除阈值,则执行步骤9. 2 ;如果某个 时间段内轨迹簇中的轨迹点个数小于轨迹点删除阈值,则将轨迹簇集合Ti+1中未进行合并 操作的轨迹簇加入合并操作完成之后的轨迹簇集合中,并计算加入操作之后的轨迹簇集 合中每一个轨迹簇的轨迹点及其轨迹点的影响区域,以及每一个轨迹点的预测概率,并且 将轨迹簇集合中的轨迹点按照时间顺序组合得到用户轨迹预测模型TM i+1 ;
[0025] 步骤9. 2,依次计算合并操作后的轨迹簇集合中每一个轨迹点的预测概率,将预 测概率小于轨迹点预测概率下限阈值且保留次数大于轨迹点保留次数的轨迹点及其相应 的轨迹簇删除。
[0026] 步骤5、步骤10、步骤11和步骤14中的轨迹点是指轨迹簇中全部移动点位置坐标 的加权平均点,轨迹点的影响区域是以轨迹点为中心的圆形区域;轨迹点及其影响区域用 0grid_x, grid_y, m, k表示,其中grid_x, grid_y为轨迹点所在的栅格坐标,由以下方法计 算得出,
[0027]
【权利要求】
1.基于密度聚类的自适应轨迹预测方法,其特征在于,包括轨迹建模阶段和轨迹更新 阶段,所述轨迹建模阶段具体按照以下步骤实施: 步骤1,采集用户第i天的移动报告Mi,其中,i > 0 ; 步骤2,采用基于倒排索引的MR定位算法对移动报告%进行转化,得到用户一天的移 动点集Si ; 步骤 3,将移动点集 Si 按照时间段 0am-6am、6am-9am、9am-12am、12am-14pm、 14pm-18pm、18pm-24pm划分为六个移动点子集; 步骤4,采用基于限定区域数据抽样的密度聚类算法分别对六个移动点子集中的移动 点进行聚类,得到包含有六个轨迹簇子集的轨迹簇集合凡; 步骤5,计算轨迹簇集合?\中每一个轨迹簇的轨迹点及其轨迹点的影响区域; 步骤6,计算轨迹簇集合1\中每一个轨迹点的预测概率,并且将每一个轨迹点按照时间 顺序组合得到用户轨迹预测模型TMi ; 步骤7,对用户i+1天的移动报告Mi+1执行步骤1?步骤4,得到轨迹簇集合Ti+1,其中 i+Ι 彡 7 ; 步骤8,按照步骤3中的时间段顺序依次计算在相同的时间段内轨迹簇集合?\中的每 一个轨迹簇与轨迹簇集合Ti+1中所有轨迹簇之间的相似度值,如果计算出来的相似度值不 小于第一轨迹点相似度阈值,则将两个轨迹簇合并至轨迹簇集合?\中,并且将轨迹簇集合 Ti+1中已经被合并的轨迹簇删除,执行步骤9 ;如果计算出来的相似度值小于相似度阈值, 则不将两个轨迹簇合并; 步骤9,判断合并操作后的轨迹簇集合1\中是否存在无效轨迹簇,如果合并操作后的轨 迹簇集合1\中存在无效轨迹簇,则将合并操作后的轨迹簇集合?\中的无效轨迹簇删除,执 行步骤10 ; 如果合并操作后的轨迹簇集合1\中不存在无效轨迹簇,则将轨迹簇集合Ti+1中未进行 合并操作的轨迹簇加入合并操作后的轨迹簇集合?\中,并计算加入操作之后的轨迹簇集合 中每一个轨迹簇的轨迹点及其轨迹点的影响区域,以及每一个轨迹点的预测概率,并且将 轨迹簇集合中的轨迹点按照时间顺序组合得到用户轨迹预测模型TM i+1 ; 步骤10,将轨迹簇集合Ti+1中未进行合并操作的轨迹簇加入删除了无效轨迹簇的轨迹 簇集合?\中,得到轨迹簇集合判断轨迹簇集合^中是否存在无效轨迹簇,如果轨迹簇集 合h中存在无效轨迹簇,则将轨迹簇集合&中无效轨迹簇删除,执行步骤11 ; 如果轨迹簇集合1^中不存在无效轨迹簇,则计算轨迹簇集合ti中每一个轨迹簇的轨迹 点及其轨迹点的影响区域,以及每一个轨迹点的预测概率,并且将轨迹簇集合ti中的轨迹 点按照时间顺序组合得到用户轨迹预测模型TM i+1 ; 步骤11,计算删除了无效轨迹簇的轨迹簇集合ti中的每一个轨迹簇的轨迹点及其轨迹 点的影响区域,以及每一个轨迹点的预测概率,并且将轨迹簇集合ti中的轨迹点按照时间 顺序组合得到用户轨迹预测模型TMi+1 ; 步骤12,对于用户i+n天的移动报告执行步骤7?步骤11,得到用户轨迹预测模型 TMi+n ; 所述轨迹更新阶段具体按照以下步骤实施: 步骤13,依次计算用户轨迹预测模型TMi+n中各时间段内任意一个轨迹点与其他所有 轨迹点之间的相似度值,如果两个轨迹点的相似度值不小于第二轨迹点相似度阈值,则将 轨迹簇集合ti+n中两个轨迹点对应的轨迹簇合并,并且使合并的两个轨迹簇的轨迹点保留 次数均增长1,执行步骤14 ;如果两个轨迹点的相似度值小于第二轨迹点相似度阈值,则将 两个轨迹点的保留次数均增长1,执行步骤14 ; 步骤14,采用缩减因子β对轨迹簇集合ti+n中所有轨迹簇的大小进行缩减,并依次计 算缩减后的轨迹簇集合ti+n中每一个轨迹点的栅格坐标及其影响区域,计算缩减后的轨迹 簇集合ti+n中各个时间段内的每一个轨迹点的预测概率,并将轨迹点按照时间顺序组合得 到用户移动轨迹预测模型TM' i+n。
2. 根据权利要求1所述的一种基于密度聚类的自适应轨迹预测方法,其特征在于,所 述步骤9具体按照以下步骤实施: 步骤9. 1,计算合并操作后的轨迹簇集合1\中每一个时间段内的轨迹点个数,如果某个 时间段内轨迹簇中的轨迹点个数不小于轨迹点删除阈值,则执行步骤9. 2 ;如果某个时间 段内轨迹簇中的轨迹点个数小于轨迹点删除阈值,则将轨迹簇集合Ti+Ι中未进行合并操 作的轨迹簇加入合并操作后的轨迹簇集合?\中,并计算加入操作之后的轨迹簇集合中每一 个轨迹簇的轨迹点及其轨迹点的影响区域,以及每一个轨迹点的预测概率,并且将轨迹簇 集合中的轨迹点按照时间顺序组合得到用户轨迹预测模型TM i+1 ; 步骤9. 2,依次计算合并操作后的轨迹簇集合?\中每一个轨迹点的预测概率,将预测概 率小于轨迹点预测概率下限阈值且保留次数大于轨迹点保留次数的轨迹点及其相应的轨 迹簇删除。
3. 根据权利要求1所述的一种基于密度聚类的自适应轨迹预测方法,其特征在于,步 骤5、步骤10、步骤11和步骤14中的所述轨迹点是指轨迹簇中全部移动点位置坐标的加权 平均点,轨迹点的影响区域是以轨迹点为中心的圆形区域;轨迹点及其影响区域用〇grid_ X,grid_y,m, k表示,其中grid_x, grid_y为轨迹点所在的栅格坐标,由以下方法计算得出, grid _.x = T^grid _x, x grid _ y = ^grid _ x r=l 1-=1 ( 1 ()) 其中 <grid_xk,grid_yk,mk> (1 彡 k 彡 n) e Cmov ; m为轨迹点所代表的移动报告数,其值为轨迹簇中全部移动点所包含移动报告数目的 总和,k为轨迹点的影响半径,由以下方法计算得出, η r-1 η η /c =. I/Η,. x 化,;,m丨腿 < I< Wma' ;〇 < 化,< 1 r=l r=l η L 广1 (11) 其中,mmax,mmin分别为移动报告数目的上限阈值和下限阈值,mmax,m min的值分别为1000, 100, kmax,kmin分别为轨迹点影响范围的上限阈值和下限阈值,kmax,k min的值分别为250,25。
4. 根据权利要求1所述的一种基于密度聚类的自适应轨迹预测方法,其特征在于,所 述步骤6、步骤10、步骤11和步骤14中轨迹点的预测概率按照以下公式计算: (1 </</?) (12) Μ 其中,m代表该轨迹点所在栅格内包含的移动报告数目。
5. 根据权利要求1所述的基于密度聚类的自适应轨迹预测方法,其特征在于,所述步 骤8和步骤13中两个轨迹簇之间的相似度值按照以下公式计算: S㈣ 0'M =々丨+W((以)><利.''丨-).:)4 (13) mir^/cp/cjx 2 其中,sirn^i,02)代表两个轨迹点和02之间的相似度值; Xi,X2分别为轨迹点和轨迹点〇2所在栅格的行号; yi,y2分别为轨迹点和轨迹点〇2所在栅格的列号; kp k2分别为轨迹点和轨迹点02所在栅格包含的移动报告数目; α为栅格边长,大小为30mX30m。
6. 根据权利要求1所述的基于密度聚类的自适应轨迹预测方法,其特征在于,步骤14 中采用缩减因子对β对轨迹簇集合ti+n中所有轨迹簇的大小进行缩减,按照以下公式计 算: m' = m* β (4) 其中,m为缩减前的轨迹簇中所包含的移动报告的数目; m'为缩减后的轨迹簇中所包含的移动报告的数目。
7. 根据权利要求1所述的基于密度聚类的自适应轨迹预测方法,其特征在于,所述步 骤9和步骤10中的无效轨迹簇是指轨迹簇的轨迹点的预测概率小于轨迹点预测概率下限 阈值且保留次数大于轨迹点保留次数阈值的轨迹点。
8. 根据权利要求1至7中任一项所述的基于密度聚类的自适应轨迹预测方法,其特征 在于,所述轨迹点保留次数阈值取值为3 ;所述轨迹簇的缩减因子β取值为0. 8 ;所述轨迹 点预测概率的下限阈值取值为〇. 1 ;所述轨迹点的删除阈值取值为7 ;所述第一轨迹点相似 度阈值取值为〇. 3 ;所述第二轨迹点相似度阈值取值为0. 5。
【文档编号】G06F17/30GK104239556SQ201410498088
【公开日】2014年12月24日 申请日期:2014年9月25日 优先权日:2014年9月25日
【发明者】周红芳, 张国荣, 赵雪涵, 郭杰, 段文聪, 王心怡, 何馨依 申请人:西安理工大学