本发明属于交通运输
技术领域:
。可根据手机用户在城市空间内移动的轨迹数据准确地判断用户处于移动或者停留状态,用于获取城市居民出行信息。
背景技术:
:居民日常出行活动是城市交通需求的直接反映,通常采用出行OD、出行时间、时行耗时、出行结构等指标表征,目前这些表征指标的获取主要利用人工调查手段,费时、费力且精度低,北京市于2014的开展的第5次居民出行调查,花费约3000万,耗时近一年时间,抽样率不足1%,能够调查到的信息非常有限。随着移动通信技术的发展,利用手机定位数据对居民出行过程进行追踪成为可能,通过对轨迹数据的分析,得到出行表征指标,轨迹数据分析的核心内容就是判别用户的移动或停留状态,只有判断出用户的移动停留状态后,才能精准计算出行表征指标。因此,移动或停留状态的识别,是利用手机定位数据进行交通需求分析的关键。但手机定位数据具有定位精度低、时间间隔不均匀、离散性大等特征,对判别移动或停留状态的方法提出了较高的要求。技术实现要素:本发明提供一种判断手机定位轨迹数据移动或停留状态方法,为手机定位数据的应用奠定了基础,方法分为两部分,过程如下:一是建立朴素贝叶斯分类器,利用一定量的训练样本,进行用户分类,计算移动和停留状态的概率以及发生停留或移动状态时特征参数值(方向夹角和最小覆盖圆直径)发生的概率;二是利用朴素贝叶斯分类器对手机定位数据进行移动或停留状态判别,首先进行异常数据过滤,根据数据的稀疏程度进行聚合与填补,然后进行用户分类,计算特征参数方向夹角和最小覆盖圆直径的值,最后利用建立好的朴素贝叶斯分类器,计算类别的条件概率,判断用户状态的类别归属。一种利用手机定位数据判断用户移动状态的方法,本方法包括以下步骤,步骤1:异常数据过滤,对同一用户的手机定位数据按时间先后顺序排序,第n个用户的第i条手机数据记为其中UserIDn表示第n个用户的唯一标识码,表示n个用户第i条记录所处的位置横坐标,Yin表示n个用户第i条记录所处的位置纵坐标,Tin表示n个用户第i条记录发生的时间点,对排序数据进行降噪处理,任意记录点与前后时间相邻点的速度Vin大于阈值VT、且距离大于阈值DT时,去掉该记录点;步骤2:在上一步异常数据过滤后的基础上,把用户记录按一定的时间间隔TI进行聚合与填补,TI的取值由数据的稀疏程度决定,参考取值范围在5-30分钟,将一天24小时按等时间间隔TI均匀划分,形成集合CI={c1,c2...cm},c1,c2...cm表示集合CI的各元素,cm表示从0点开始,以时间间隔TI均匀递增,处于第m个时间间隔的时间戳;把用户的任意记录手机数据的时间值Tin与集合CI进行比较,按时间距离就近原则建立对应关系,即cm中对应多条或没有一条对应;建立标准间隔用户记录用于表示用户n在第m个时间间隔处的记录,其中m、n意义同前,计算过程如下:(1)当存在多条手机数据对应cm时,进行数据聚合,和取对应的多个Yin的平均值,表示第m个时间间隔处的时间戳cm;(2)当不存在一条手机数据对应cm时,进行数据填补,根据cm前后邻近的记录,由线性插值计算得到和仍由第m个时间间隔处的时间戳cm表示,当前后邻近的时间大于阈值TE时,TE取值大于24小时,认为用户数据缺失严重,不宜填补;步骤3:用户分类,受手机定位数据采集原理的影响,不同用户根据空间活动范围的大小,产生的手机定位数据呈现出的位置精度误差存在一定差异,根据用户的活动范围大小进行分类,针对不同类别的用户,分别建立对应的移动停留状态分类器,活动范围是指用户在白天工作时段和夜晚休息时段,所处位置的平均加权中心点之间的空间距离,白天工作时段和夜晚休息时段的时间范围根据城市上下班时间定,各时段能按以下进行选定:白天工作时段从上午9时至11:30,以及下午13:30至15:00,夜晚休息时段从22:00至次日早上5时,根据距离值的大小划分为若干类别,下表中的类别划分可供参考:类别活动范围(单位:米)A[0,600)B[600,1500)C[1500,3000)D[3000,+∞)步骤4:利用步骤2聚合填补后的数据,计算用于描述用户移动停留状态的特征参数:方向夹角和周围点最小覆盖圆直径,过程如下,(1)构建方向向量m,n意义同前,由和中的三个变量X,Y,T的差值构成,其中计算方向向量与标准向量形成的方向夹角PI为圆周率常数;(2)计算周围点最小覆盖圆直径,用于表征用户的运动速度,它是指为中心,时间范围内的记录所构成的空间点集的最小覆盖圆的直径λ取整数,其范围为2-4;步骤5:建立面向不同类别的朴素贝叶斯分类器,分类器的关键指标计算过程如下:(1)假定有一定样本量的数据,用于训练分类器,已先验掌握其处于移动或停留状态,记为该数据能够通过人工跟踪调查或者判断得到,定义特征属性集合M,它包括方向夹角A和周围点最小覆盖圆直径Φ两个变量;(2)根据步骤3,把中的数据按用户进行分类,针对同一类别的数据,分别计算处于移动状态的概率Pmove=Qmove/Q,Qmove表示移动状态的记录数量,Q表示训练样本的总数量;处于停留状态的概率Pstay=Qstay/Q,Qstay表示停留状态的记录数量;(3)计算移动状态下不同方向夹角值A发生的离散概率表示训练样本中,处于移动状态下方向夹角值为Ai的样本量;计算移动状态下周围点最小覆盖圆直径Φ发生的离散概率表示训练样本中,处于移动状态下周围点最小覆盖圆直径为Φi的样本量;(4)计算停留状态下不同方向夹角值A发生的离散概率表示训练样本中,处于停留状态下方向夹角值为Ai的样本量;计算停留状态下周围点最小覆盖圆直径Φ发生的离散概率表示训练样本中,处于停留状态下周围点最小覆盖圆直径为Φi的样本量;步骤6:计算归属于移动或停留状态的概率,其中移动状态概率表示用户n的第m条记录,在方向夹角为最小覆盖圆的直径的条件下,用户处于移动状态的概率,同理,处于停留状态概率用表示,计算过程如下:Pmn(move|Amn,Φminmn)=P(Φmn|move)·P(Amn|move)·Pmove/PM]]>Pmn(stay|Amn,Φminmn)=P(Φmn|stay)·P(Amn|stay)·Pstay/PM]]>其中:表示在移动状态下,周围点最小覆盖圆直径为时发生的概率,通过从步骤5建立的朴素贝叶斯分类器中的P(Φ|move)寻找与相同的概率值表示,的计算过程与此类似,Pmove、Pstay意义同前,PM对于所有类别为常数;步骤7:比较和值大小,若大于则判断用户处于移动状态,反之处于停留状态。本发明具有以下有益效果:该发明的基础数据来源于无线通信网络,通过建立朴素贝叶斯分类器,可快速、准确地分析用户所处的状态,进而判断出行起终位置、出行时间、出行距离、出行模式等信息。附图说明图1.本方法的实施流程。具体实施方式下面结合附图1对本发明详细描述其具体实施过程。整体过程如图1:本方法计算流程所示。分为两部分内容,一是建立朴素贝叶斯分类器,利用一定量的训练样本,进行用户分类,计算移动和停留状态的概率以及发生停留或移动状态时特征参数值(方向夹角和最小覆盖圆直径)发生的概率;二是利用朴素贝叶斯分类器对手机定位数据进行移动或停留状态判别,首先进行异常数据过滤,根据数据的稀疏程度进行聚合与填补,然后进行用户分类,计算特征参数方向夹角和最小覆盖圆直径的值,最后利用建立好的朴素贝叶斯分类器,计算类别的条件概率,判断用户状态的类别归属。以一个用户产生的手机定位数据为例进行说明,步骤1、用户的手机定位数据按时间先后顺序排序,如表1所示,根据Yin、Tin,计算相邻点的速度(示例数据Yin为经度和纬度,计算距离为平面投影距离,本说明中未加说明的“距离”,均与此含义一致),过滤噪声数据,VT阈值取160千米/小时,距离阈值取1.5千米,没有同时满足这两条件的记录,无须给予剔除;表1步骤2:在上一步的基础上,以时间间隔TI进行聚合与填补,本例中TI取10分钟,将一天24小时按等时间间隔TI均匀划分,形成集合CI={2015/6/10:0:0,2015/6/10:10:0…2015/6/112:50:0},表2中的字段,把用户的任意记录(表1)的时间值Tin与集合CI进行比较,按时间距离就近原则建立对应关系,结果在表1与表2对应的记录序号中,如表1中第1条记录的Tin值“2015/6/28:25:48”与CI中就近的时间是“2015/6/28:30:00”,对应表2的第1条记录,因此,表2中和取值与表1中第1条记录相同;第2-4条记录,与CI中就近的时间是“2015/6/28:40:00”,因此,表2中第2条记录的和取值为这3条记录的平均值;第5条记录,与CI中就近的时间是“2015/6/29:00:00”,因此,表2中和取值(第4条记录)与表1中第5条记录相同;存在对应关系的记录,以类似方法对和进行赋值;表2中灰色单元格中的记录,在表1中无法找到对应的记录,以10分钟为等间隔,利用邻近数据进行线性插值填补,如表2中第3条记录,和的值为第2条和第4条记录的平均值,同理,计算其它灰色单元格中的记录;表2步骤3:根据用户的活动范围大小进行分类,用前面的用户数据(即表1)进行活动范围说明,取白天工作时段(取上午9时至11:30,以及下午13:30至15:00)的平均位置中心(118.1128,24.4733),和夜晚休息时段(取22:00至次日早上5时)的位置中心(118.13923,24.49652),距离为3717.5米,按表3中的类别划分依据可知,用户属于“D”类:表3步骤4:利用步骤2聚合填补后的数据,计算用于描述用户移动停留状态的特征参数:方向夹角和周围点最小覆盖圆直径,如表2中第1条记录,与第2条记录形成的方向向量时间单位是微秒,与标准向量形成的方向夹角其它记录方法类似;计算周围点最小覆盖圆直径,以为中心,时间范围内的记录所构成的空间点集,这里λ取2,以表2中第3条记录为例进行说明,取范围内的记录,即第1-5条,形成空间点集计算点集的最小覆盖圆的直径以同样方法计算其它点集的最小覆盖圆的直径;步骤5:以建立D类朴素贝叶斯分类器为例,说明分类器建立的过程:(1)假定利用人工跟踪调查方式,得到训练的样本量数据10000条,已先验掌握其处于移动或停留状态,采用步骤4的方法计算特征属性集合M,包括方向夹角A和周围点最小覆盖圆直径Φ两个变量的值;(2)根据步骤3,把中的数据按用户进行分类,针对同属于D类的数据,分别计算处于移动状态的概率Pmove=Qmove/Q,Qmove有1636条数量,因此Pmove=1636/10000=0.1636;处于停留状态的概率Pstay=Qstay/Q,Qstay有8364条记录,因此,Pstay=8364/10000=0.8364;(3)计算移动状态下不同方向夹角值A发生的离散概率表示训练样本中,处于移动状态下方向夹角值为Ai的样本量,Qmove同前;计算移动状态下周围点最小覆盖圆直径Φ发生的离散概率表示训练样本中,处于移动状态下周围点最小覆盖圆直径为Φi的样本量,Qmove同前,计算结果见表4和表5;(4)计算停留状态下不同方向夹角值A发生的离散概率表示训练样本中,处于停留状态下方向夹角值为Ai的样本量,Qstay同前;计算停留状态下周围点最小覆盖圆直径Φ发生的离散概率表示训练样本中,处于停留状态下周围点最小覆盖圆直径为Φi的样本量,Qstay同前,计算结果见表4和表5;表4:移动和停留状态下不同方向夹角值A发生的离散概率表5:移动和停留状态下最小覆盖圆直径Φ发生的离散概率步骤6:计算归属于移动或停留状态的概率,其中移动状态概率和停留状态概率用以表2中第3条记录为例进行说明,Ai值为87.54,Φi值为3833.045,Ai值四舍五入取整数88,Φi值四舍五入取整百为3800,比较表4和表5,得到Pmove=0.1636,Pstay=0.8364Pmn(move|Amn,Φminmn)=P(Φmn|move)·P(Amn|move)·Pmove/PM=0.00496*0.06066*0.1636/PM=0.0000492/PM]]>Pmn(stay|Amn,Φminmn)=P(Φmn|stay)·P(Amn|stay)·Pstay/PM=0.00022*0.00269*0.8364/PM=0.0000005/PM]]>步骤7:比较和值大小,大于说明用户处于移动状态,同理计算其它点的移动停留状态。最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。当前第1页1 2 3