本发明涉及数据挖掘,特别是涉及一种轨迹数据的热点识别方法及系统。
背景技术:
1、随着卫星导航系统(如gps,北斗卫星导航)的发展以及其终端设备的普及使用,车辆在交通路网中以及人群在日常通勤中产生了大量的轨迹数据。事实上随着手机、平板电脑等移动终端的全面普及,全球的每一个个体都是一个不断产生海量轨迹数据的数据源。所有的数据混杂叠加,在数字世界中流动,便产生了轨迹大数据。轨迹是由移动的对象(如交通工具)在地理空间中生成的由一系列按时间顺序排列的点序列,其中每一个轨迹点一般包括了时间戳、经纬度坐标、当前速度、海拔高度等信息。每一个轨迹点根据时间顺序依次相连,便形成了运动轨迹。因为设备与需求的差异,最终得到的轨迹点与轨迹数据可能只包含上述提及信息的一部分。
2、高质量的轨迹大数据具有重要的社会价值与应用价值,其内部蕴含了群体对象的移动规律,例如交通拥堵的规律、人群的活动特征等。对轨迹数据流进行分析处理,挖掘轨迹数据中的热点(停留点)区域,探究移动目标的运动和行为模式,理解轨迹的语义,发现其内在规律,能够更好地服务于城市规划、交通管理、路线推荐、安全管控等应用,同时可以优化公共资源配置,改善民生,助力社会发展。此外,对于在交通路网中,对车辆轨迹热点(停留点)进行提取与挖掘并进行时空分析对于治理道路拥堵,车辆出行的路线规划与推荐具有重要意义。
3、合理利用轨迹大数据能够使基于位置的服务更加精准与个性化,但是要实现这样的需求需要底层技术的支持。原始轨迹数据中往往含有过多的噪声数据与无效数据,通过热点识别算法提取轨迹数据的特征进行分析与处理,上述提到的精准与个性化位置服务才能够实现。
4、轨迹数据的热点识别属于轨迹数据挖掘技术。轨迹中的某些轨迹点能够反映人们在某个时间段内的特定行为,例如参观景点或者进行聚会。在轨迹数据中,在某一时间或空间区域内产生某种行为的轨迹数据定义为停留点,轨迹停留点一般被划分为两种类型:轨迹中停留点和环绕轨迹停留点,而环绕轨迹停留点往往更倾向于是轨迹中的热点区域,这是热点识别需要提取的信息。
5、聚类算法在热点识别中具有重要的作用,基于轨迹点聚类是轨迹数据热点识别的一种常用方法其中,dbscan聚类算法能够进行不定形状数据样本的聚类,并可以进行噪声点的区分。但其聚类效果受eps和minpts两个参数的影响很大,尤其在样本的密度分布存在不均匀现象时,聚类效果往往不理想。
技术实现思路
1、本发明实施例提供了一种轨迹数据的热点识别方法及系统,解决了现有地铁现有聚类效果受eps和minpts两个参数的影响很大,尤其在样本的密度分布存在不均匀现象时,聚类效果往往不理想的问题。
2、本发明提供一种轨迹数据的热点识别方法,包括以下步骤:
3、获取城市中移动对象的gps轨迹数据;
4、通过h3空间索引对gps轨迹数据中的多个轨迹点进行编码,将城市中移动对象的gps轨迹数据格式由二维转变为一维;
5、通过最优k值算法对编码后的多个轨迹点进行计算,得到k值;
6、通过knn查询计算每个轨迹点与第k个近邻点的距离,生成多个k-dist图;
7、通过kneedle算法对多个k-dist图进行遍历,得到拐点,将拐点对应的纵坐标作为eps值;
8、将k值作为minpts值,将minpts值和eps值进行dbscan聚类,得到聚类结果;
9、根据聚类结果对城市中移动对象的gps轨迹数据的热点区域进行识别。
10、优选的,通过最优k值算法对多个轨迹点进行计算,得到k值,包括以下步骤:
11、通过近邻查询计算每个轨迹点的多个近邻点;
12、计算每个轨迹点与对应的多个近邻点之间的平均距离,得到全局的局部平均距离;
13、通过近邻查询获取以每个轨迹点为圆心,全局的局部平均距离为半径的圆内的轨迹点的个数ki,建立关于ki值的映射集合;
14、通过kneedle算法对关于ki值的映射集合的拐点进行检测,得到k值。
15、优选的,通过近邻查询计算每个轨迹点的多个近邻点,包括以下步骤:
16、获取近邻查询的半径、h3空间索引的边长与坐标点索引集合;
17、对每个轨迹点相邻网格中的所有轨迹点进行查找,得到邻域点范围;
18、使用排序查找函数对邻域点范围的所有轨迹点对应的索引值进行查找;
19、通过空间距离公式对每个轨迹点与邻域点范围的所有轨迹点的距离进行计算,得到在近邻查询的半径以内的多个轨迹点,即多个近邻点。
20、优选的,通过下式计算全局的局部平均距离:
21、
22、其中,
23、
24、式中,rp.size是需要待聚类的轨迹点集合,r为半径,avg(d)是全局的局部平均距离,pi、pj是待聚类的轨迹点,dist(pi,pj)是pi、pj的之间的距离,d(pi)是半径为r的邻域内,pi与其他各点的平均距离,n为轨迹点的个数。
25、优选的,通过kneedle算法对关于ki值的映射集合的拐点进行检测之间,通过自然对数函数对高于设定值的ki值进行去除。
26、优选的,通过knn查询计算每个轨迹点与第k个近邻点的距离,生成多个k-dist图,包括以下步骤:
27、获取h3空间索引的边长与坐标点索引集合;
28、对每个轨迹点相邻网格中的所有轨迹点进行查找,得到邻域点范围;
29、使用排序查找函数对邻域点范围的所有轨迹点对应的索引值进行查找;
30、通过空间距离公式对每个轨迹点与邻域点范围的所有轨迹点的距离进行计算;
31、对多个轨迹点与邻域点范围的所有轨迹点的距离从小到大进行排序,生成多个k-dist图。
32、优选的,所述空间距离公式如下所示:
33、
34、式中,p1、p2为轨迹点,r为地球半径,分别表示p1、p2的纬度,入1、入2分别表示p1、p2的经度。
35、优选的,每个所述轨迹点均包括纬度坐标、精度坐标以及采样时间。
36、一种轨迹数据的热点识别系统,包括:
37、数据获取模块,用于获取城市中移动对象的gps轨迹数据;
38、编码模块,用于通过h3空间索引对gps轨迹数据中的多个轨迹点进行编码,将城市中移动对象的gps轨迹数据格式由二维转变为一维;
39、k值获取模块,用于通过最优k值算法对多个轨迹点进行计算,得到k值;
40、k-dist图生成模块,用于通过knn查询计算每个轨迹点与第k个近邻点的距离,生成多个k-dist图;
41、eps值生成模块,用于通过kneedle算法对多个k-dist图进行遍历,得到拐点,将拐点对应的纵坐标作为eps值;
42、聚类模块,用于将k值作为minpts值,将minpts值和eps值进行dbscan聚类,得到聚类结果;
43、热点识别模块,用于根据聚类结果对城市中移动对象的gps轨迹数据的热点区域进行识别。
44、与现有技术相比,本发明的有益效果是:
45、本发明在dbscan聚类算法的基础上,通过h3空间索引对多个轨迹点进行编码,将城市中移动对象的gps轨迹数据格式由二维转变为一维,降低了轨迹点存储的空间复杂度。然后选取初始轨迹点进行局部近邻查找与排序,得到局部密度值与聚类参数后进行空间聚类以挖掘轨迹数据中的热点区域。与dbscan算法相比,本发明提出的算法能够提取数据样本的空间分布特征,自适应的计算出聚类参数完成聚类。聚类过程不需要人工输入聚类参数eps与minpts。