一种针对出租车轨迹数据的K‑means初始聚类中心的选择方法与流程

文档序号:11865817阅读:782来源:国知局
本发明涉及机器学习和图像识别领域,特别是一种针对出租车轨迹数据的K-means初始聚类中心选择方法。
背景技术
:随着互联网的高速发展,数据已经渗透到各行各业中,每天所产生的海量数据逐渐成为社会经济中占据主导的生产因素。浮动车轨迹数据是大数据在城市车联网和智能交通领域的主要形式,对其处理和分析将为市民日常出行、城市规划和解决交通拥堵瓶颈等产生不可估量的价值。聚类分析是机器学习和数据挖掘领域研究的一个重要方法,由于聚类方法不对数据作任何统计假设,因此被称为一种无监督的学习。聚类分析是指将数据对象分组成多个类或多个簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。目前发展起来的聚类方法有很多种,大抵可以分为层次聚类和划分聚类两种。其K-means是划分聚类中最典型的方法,它具有方法简单高效、复杂度低、伸缩性强、容易处理大规模数据等诸多优点。特别是随着大数据时代的来临,K-means更加引人关注。但由于K-means方法随机选择初始聚类中心,并不能保证得到一个唯一的聚类结果,最终的聚类结果直接依赖于初始聚类中心的选择。针对出租车GPS轨迹数据的聚类分析希望得到精确的聚类结果,以便更好地分析所隐藏的交通模式和规律,发挥其最大的价值。技术实现要素:本发明的目的在于提供一种针对出租车轨迹数据的K-means初始聚类中心选择方法,以克服现有技术中存在的缺陷。为实现上述目的,本发明的技术方案是:一种针对出租车轨迹数据的K-means初始聚类中心的选择方法,包括如下步骤:步骤S1:从一电子地图中提取城市交通的道路信息,构成路网;步骤S2:获取出租车轨迹数据,并对所获取的出租车轨迹数据进行预处理,筛选出分析样本数据;步骤S3:将所述出租车轨迹数据与所述路网进行匹配,得到出租车轨迹数据中的数据点在预设分析范围的分布图;步骤S4:利用图像识别技术中的斑点检测方法识别出出租车轨迹数据的数据点的主要密集区域,以作为K-means的初始聚类中心;步骤S5:输出K-means的初始聚类中心。在本发明一实施例中,在所述步骤S1中,所述电子地图包括城市快速路、国道、省道、县道以及乡镇村道的道路图层,且所述电子地图为矢量格式,通过利用MapInfo软件对上述道路的道路图层进行提取,构成所述路网。在本发明一实施例中,在所述步骤S2中,所述出租车轨迹数据为出租车GPS轨迹数据,通过预处理,筛选出预设时间段内预设分析范围的出租车轨迹数据。在本发明一实施例中,所述步骤S3中,根据经预处理后的出租车轨迹数据的经纬度信息,将经其对应映射到所述路网上,以反映预设时间段内出租车在预设分析范围的分布情况。在本发明一实施例中,在所述步骤S4中,采用基于求导的微分方法,即高斯拉普通拉斯算子来检测所述出租车轨迹数据分布图的斑点,并限制斑点的大小,以得到所述出租车轨迹数据点的主要密集区域。在本发明一实施例中,所述高斯拉普通拉斯算子通过如下方式获取:步骤S41:对于二维高斯函数:G(x,y)=12πσ2exp(-x2+y22σ2)]]>用G(x,y)与原始图像f(x,y)进行卷积,得到平滑图像I(x,y)I(x,y)=G(x,y)*f(x,y)其中*是卷积运算符;步骤S42:用拉普拉斯算子▽2来获取所述平滑图像I(x,y)的二阶方向导数图像M(x,y),由线性系统中卷积和微分的可交换性得:M(x,y)=▿2{I(x,y)}=▿2[G(x,y)*f(x,y)]=[▿2G(x,y)]*f(x,y)]]>步骤S43:将图像的高斯平滑滤波与拉普拉斯微分运算结合成一个卷积算子:▿2G(x,y)=12πσ4(x2+y2σ2-2)exp(-x2+y22σ2)]]>上式中,即为高斯拉普拉斯算子,通过该高斯拉普拉斯算子来检测图像中的斑点。在本发明一实施例中,在所述步骤S5中,所述高斯拉普拉斯算子识别出的出租车轨迹数据点的主要密集区域为二维平面坐标,结合所分析图像的比例尺和单位换算公式,将斑点的平面坐标转换为实际地理位置上的经纬度坐标,并最终输出为K-means的初始聚类中心。相较于现有技术,本发明具有以下有益效果:本发明所提出的一种针对出租车轨迹数据的K-means初始聚类中心选择方法,针对传统K-means聚类方法随机选择初始聚类中心的不足,结合真实出租车GPS轨迹数据和城市路网,通过计算机视觉领域中斑点检测的方法来确定K-means初始聚类中心,以提高聚类精度,便于最终的决策分析。附图说明图1是本发明一实施例中真实出租车GPS轨迹数据与路网的匹配情况示意图。图2是本发明一实施例中所提出斑点检测方法识别出的出租车GPS轨迹数据分布图中数据点密集处的斑点。图3是本发明一实施例中所确定的初始聚类中心条件下K-means的最终聚类结果示意图。具体实施方式下面结合附图,对本发明的技术方案进行具体说明。本发明提出一种针对出租车轨迹数据的K-means初始聚类中心选择方法,具体按照如下步骤实现:步骤S1,从电子地图中提取出城市交通的主要道路,构成路网。在本实施例中,电子地图为矢量格式,包含道路、机场、火车站、商场、旅游景区等各种图层,构成完整的城市功能。对出租车GPS数据的分析主要涉及道路图层,包括城市快速路、国道、省道、县道、乡镇村道等各级道路图层。利用地理信息系统的MapInfo软件提取出上述各级道路。因为每个图层对应一个Tab格式的表格,实际操作时,可将这些图层合并为一个图层,构成完整的路网,对应的得到一个合并后的表格,使其包含分析的所有道路信息。进一步的,可以根据需要改变道路的属性,使之便于后续的处理和分析。步骤S2,对收集的出租车轨迹数据进行预处理,筛选出适合分析的样本数据。在本实施例中,所收集的出租车GPS轨迹数据一般是按照一定的时间间隔采集的,所有出租车一天内便可产生海量的数据。其中有不少错误和异常数据,需要事先进行清理,以剔除这些数据。对特定区域和时间段内数据的分析更能反映出交通模式和规律,因此需筛选出预设时间段内预设分析范围的数据。步骤S3,将出租车轨迹数据与路网进行匹配,得到出租车数据点在预设时间段内预设分析范围的分布图。在本实施例中,对步骤S1中提取出的路网和步骤S2中经预处理后的数据进行匹配,即根据这些数据点的经纬度信息将其映射到路网上,可以反映出租车在预设时间段内预设分析范围的分布情况。进一步的,GPS数据的经纬度和实际地理位置有一定的偏差,匹配后的点可能不会准确的落在道路上,可通过地图匹配算法来纠正这些偏差。步骤S4,利用图像识别技术中的斑点检测方法识别出出租车轨迹数据点的主要密集区域以作为K-means的初始聚类中心。在本实施例中,斑点通常是指与周围有着颜色和灰度差别的区域,在实际地图中,往往存在着大量这样的斑点。它具有稳定性好、抗噪声能力强等优点。在图像识别领域,斑点检测的主要思路是检测出图像中比它周围像素灰度值大或比周围像素灰度值小的区域。可利用求导的微分方法和基于局部极值的分水岭算法来实现斑点的检测。在本实施例中采用基于求导的微分方法,即高斯拉普通拉斯(LaplaceofGaussian,LOG)算子来检测出租车轨迹数据分布图的斑点,具体原理如下:对于二维高斯函数:G(x,y)=12πσ2exp(-x2+y22σ2)---(1)]]>用G(x,y)与原始图像f(x,y)进行卷积,得到平滑图像I(x,y)I(x,y)=G(x,y)*f(x,y)(2)其中*是卷积运算符,再用拉普拉斯算子来获取平滑图像I(x,y)的二阶方向导数图像M(x,y)。由线性系统中卷积和微分的可交换性可得:M(x,y)=▿2{I(x,y)}=▿2[G(x,y)*f(x,y)]=[▿2G(x,y)]*f(x,y)---(3)]]>对图像的高斯平滑滤波与拉普拉斯微分运算可以结合成一个卷积算子:▿2G(x,y)=12πσ4(x2+y2σ2-2)exp(-x2+y22σ2)---(4)]]>式中即为LOG算子,又称为高斯拉普拉斯算子。可利用这个算子来检测图像中的斑点,并且可以通过改变的值来检测不同尺寸的二维斑点。进一步的,图像与某个二维函数进行卷积运算实际就是求取图像与这一函数的相似性。同理,图像与高斯拉普拉斯函数的卷积实际就是求取图像与高斯拉普拉斯函数的相似性。当图像中的斑点尺寸与高斯拉普拉斯函数的形状趋近一致时,图像的拉普拉斯响应达到最大。进一步的,实际中,采用OpenCV来实现LOG算子。保存步骤S3中所得的出租车轨迹数据分布图,通过程序将其读入,同时设定相应的参数值,并限制斑点的大小,剔除半径小于ε的斑点,运行程序后便可识别出出租车轨迹数据分布图中数据点密集处。步骤S5,输出K-means的初始聚类中心。在本实施例中,调用OpenCV读入图像时,由于图像坐标默认为二维平面坐标,而实际上出租车GPS数据和路网中具体路段都是以经纬度作为标示,因此需要结合所分析图像的比例尺和单位换算公式,将斑点的平面坐标转换为实际地理位置上的经纬度坐标,最终输出为K-means的初始聚类中心。为了让本领域技术人员进一步了解本发明所提出的一种针对出租车轨迹数据的K-means初始聚类中心选择方法,下面结合具体实施例作详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程。如图1所示,为出租车GPS轨迹数据与路网的匹配情况示意图。本实施例包括如下具体步骤:步骤一:在本实施例中,主要分析福州市的交通情况,利用MapInfo软件从福州市电子地图中提取出市内交通的主要道路,包括城市快速路、国道、省道、县道、乡镇村道,构成完整的道路网络。在此基础上进一步选择福州市中心的鼓楼区、晋安区作为本实施例的分析区域,该区域包含了福州市西湖公园、左海公园和三坊七巷等著名景区,以及东街口、王府井百货等商业中心,是市民出行活动的一个主要区域。相应的也聚集了较多的车辆,对其进行分析能更好的反映交通状况。该区域的具体经纬度范围是119.2789°~119.3254°E、26.0801°~26.1058°N。步骤二:从2015年12月4日(周五)所收集的海量出租车GPS轨迹数据中筛选出傍晚17:30-17:40这段时间的数据,此时正处下班高峰期,也是一周当中最为拥堵的时间之一。同时进一步筛选出与步骤一所分析区域范围对应的数据。这其中往往存在着不少的异常数据,如长时间停留、定位状态异常、车速超出常理等,应当以予剔除。步骤三:根据清理后所得数据的经纬度信息,对这些数据创建点,并显示在路网上,得到如图1所示的出租车轨迹数据的分布情况。如图2所示,是采用所提出方法识别出的出租车GPS轨迹数据分布图中数据点密集处的斑点。本实施例包括如下具体步骤:步骤一:读取图1所示的出租车轨迹数据分布图,同时设定相应的参数值,并限制斑点的大小,剔除半径小于ε的斑点,运行程序后输出如图2所示图像,可以看到在出租车数据点密集处标有圆环,即为经处理后识别的斑点。编写程序时以图像左上角顶点处为原点,可以输出这些斑点对应的二维平面坐标。步骤二,将这些斑点的平面坐标转换为对应地理位置的经纬度坐标。图1的比例尺为1:21720,1厘米相当于0.22千米。根据比例尺和单位换算公式,可得出表1所示的19个K-means初始聚类中心。表1K-means初始聚类中心经度纬度经度纬度119.28671826.102516119.30032426.089672119.28976226.095124119.31166326.090881119.28549126.093413119.31096426.094126119.29828926.096047119.32136926.094074119.3OMM26.096647119.31037126.087256119.30154826.孔00506119.30899326.083641119.30702126.097398119.30561826.081341119.30196926.093459119.31412826.083969119.30342326.08g921119.32178226.084296119.32163426.087631如图3所示,是采用表1中的初始聚类中心进行K-means聚类的结果示意图。在本实施例中,将输出的最终聚类结果,通过ArcGIS软件将其绘制出来,每个簇用不同的颜色显示,结果中心点用实线圆圈为标志,效果如图3所示。根据聚类结果分析可知,最终的聚类中心点一般位于道路十字路口或交叉口附近,包括铜盘路、湖东路、五四路、东街、福新路、六一北路等主要道路。而实际上这些道路是在西湖公园、三坊七巷等景区和东街口、王府井等商业中心附近。由此,可以推断K-means聚类结果的中心点周围往往是车流量较为稠密的热点区域,很有可能是在商业中心或是旅游景点附近。可以结合实际情况在这些中心点附近新建商场、超市、加油站等服务场所,以方便市民出行。此外,车流量大的地方往往容易发生拥堵,通过进一步的观察和分析,得出某块区域在一天中的某个时段的交通情况,可以为缓解交通拥堵状况和城市规划提供建设性意见。上述分析说明,本发明所提出的针对出租车GPS轨迹数据、结合城市路网的斑点检测方法识别出的K-means初始聚类中心,能够很好的实现时空轨迹数据的聚类,具有一定的参考价值和实际经济效益。以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1