一种手机信令数据驱动的居民出行方式可靠辨识方法

文档序号:33940673发布日期:2023-04-26 01:18阅读:48来源:国知局
一种手机信令数据驱动的居民出行方式可靠辨识方法

本发明涉及出行方式辨识,具体但不限于涉及一种手机信令数据驱动的居民出行方式可靠辨识方法。


背景技术:

1、近年来,随着我国经济社会快速发展和居民生活水平的不断提升,消费理念、消费内容、消费层次都不断升级,人们的出行需求、出行方式以及居民出行结构正在发生深刻的变化。机动车数量的不断增长、新型绿色出行方式的兴起,影响着城市多模式交通出行结构,给城市交通出行方式辨识提出了新的挑战。居民出行方式结构数据作为城市多模式交通出行需求的重要表征,对于调整优化出行方式结构、构建交通规划辅助决策平台、缓解交通拥堵以及推广实施交通减排政策等具有基础性作用。受限于传统居民出行行为调查采集数据的低样本特性及城市空间结构等快速变化等导致的出行特征变化,基于传统“四阶段”交通规划理论方法的居民出行划分方法难以准确、可靠估计上述决策应用的多方式出行需求与结构。

2、现有的出行方式辨识的方法主要有:(1)基于规则的模型,通过逻辑特征确定规则,进行出行特征值的判断。规则及阈值通常依据研究者的专业知识和经验而设定;(2)无监督聚类法,聚合手机信令数据的关键特征,对研究样本进行分类。将未标记数据分组,并利用先验知识或结合其他数据源分析各聚类簇的特性人为判定聚类簇对应的出行方式;(3)基于活动理论的分析方法,对个体活动出行在时间维度集计分析的基础上,考虑时空约束、家庭结构、家庭背景、个人属性等因素,对个体活动-出行决策中的方式选择行为进行建模;(4)统计分析模型根据特征变量之间是否存在因果关系分为多种模型。明确的因果关系特征通常可以利用logit回归、树结构、神经网络等模型进行研究;若因果关系不明确,则通常采用独立性分析、相关性分析等方法进行研究。

3、现有的出行方式辨识的缺点在于:(1)现有研究中gps调查数据驱动的居民出行方式辨识方法,未考虑到数据的缺失问题,对于数据精度要求较高。gps调查数据只能提取少量样本人群的出行活动轨迹特征,数据偏度特性明显,挖掘出的出行规律亦不具备普适性与代表性。(2)现有研究中采用的机器学习方法,无法有效揭示影响因素和结果变量之间的相互作用关系,具有不可解释性。(3)现有研究中对交通出行数据的定量分析,未考虑到各类出行方式交通出行特性的不确定性。出行特性不仅和交通工具的固有属性相关,还会受交通运行状况的影响而表现出时间差异性。(4)现有研究中多是基于规则的模型通过逻辑特征设定规则,阈值选取具有较高的主观性。(5)既有研究存在个体活动-出行决策行为异质性刻画不足与出行方式选择行为因果机理揭示缺乏等问题。

4、因此目前亟需更符合时代特征的交通研究数据基础和交通出行方式可靠辨识方法,实现对城市交通出行方式结构的可靠把握,为相关部门进行交通规划、管理和决策提供有效支撑。面对日益丰富的交通出行方式,既有出行方式辨识研究所使用传统的人工问卷调查数据和手机gps定位数据存在数据获取成本高、数据样本有限等问题。移动通信技术的发展为交通出行方式辨识研究提供了低成本、大样本的数据来源。现有利用手机信令数据辨识出行方式的研究多采用基于规则的模型、机器学习模型以及统计分析模型这类确定性模型,存在对交通出行特征的不确定性考虑不足、对非完备手机信令数据的利用不够充分等问题。

5、有鉴于此,需要提供一种新的方法,以期解决上述至少部分问题。


技术实现思路

1、针对现有技术中的一个或多个问题,本发明提出了一种手机信令数据驱动的居民出行方式可靠辨识方法,基于手机信令数据,从交通出行特征的时间特异性和不确定性角度设计居民出行特征有效提取方法,面向居民交通出行方式可靠辨识问题,设计贝叶斯网络模型框架,通过交通出行特征时间特异性量化表征,最终构建考虑交通出行特征不确定性的居民交通出行方式可靠辨识模型。本发明可以为相关部门把握新时期城市交通出行方式结构,制定交通出行方式结构优化政策,促进绿色交通、低碳交通发展提供有效的基础数据支撑。

2、实现本发明目的的技术解决方案为:

3、一种手机信令数据驱动的居民出行方式可靠辨识方法,包括:

4、s1、获取手机信令原始数据,并对手机信令原始数据进行预处理,得到预处理后的手机信令数据;

5、s2、获取居民出行调查数据,每条居民出行调查数据包括出发时间、到达时间、出发地点、到达地点,其中出发地点和到达地点采用交通小区编号表示,并将手机信令数据与居民出行调查数据进行特征匹配,获得带有出行方式标签的手机信令数据;

6、s3、将待辨识区域划分为若干个交通小区,基于交通出行特征的时间特异性和不确定性,提取居民出行特征,所述居民出行特征包括交通环境特征、出行者个体特征、交通出行行为特征,并结合出行方式标签对居民出行特征进行相关性分析,以数学指标量化交通出行特征之间的相关性;

7、s4、设计面向居民出行方式可靠辨识的贝叶斯网络模型框架:根据居民出行特征之间的相关性,结合先验知识判断居民出行特征的因果联系,构建第一出行特征关系网络;基于样本数据采用机器学习方法构建第二出行特征关系网络;用bic函数进行模型评分,综合第一出行特征关系网络和第二出行特征关系网络优化并构建贝叶斯网络模型;

8、s5、针对贝叶斯网络模型输入特征进行不确定性量化表征,将连续出行特征处理为有序的离散状态,将样本数据集划分为训练集与测试集,利用训练样本数据集,完成贝叶斯网络模型各节点参数学习,通过测试样本数据集评估模型精度,最终完成基于贝叶斯网络模型的居民出行方式可靠辨识模型构建。

9、进一步的,s1中预处理的具体步骤包括:

10、s1-1、无效冗余数据过滤:筛选手机信令原始数据中的无效数据和重复记录数据并剔除,所述无效数据是指缺失位置区编码和蜂窝小区编码的数据;

11、s1-2、乒乓数据处理:将乒乓数据的第一条信令数据的开始时间和最后一条信令数据的结束时间更新为新信令数据的开始时间和结束时间,并将重复数据的记录时长作为新信令数据的记录时长;

12、s1-3、漂移数据处理:

13、判断每条信令数据记录的起始小区和结束小区对应的手机基站间的空间距离是否超过距离阈值,并以空间距离除以信令数据记录时长,判别切换速度是否超过切换速度阈值,超过距离阈值和切换速度阈值的信令数据识别为漂移数据;

14、合并相邻漂移数据记录:将前一条信令数据的开始时间和后一条信令数据的结束时间字段更新为新信令数据的开始时间和结束时间字段,并将漂移数据的记录时长求和作为新信令数据的记录时长。

15、进一步的,s2中将手机信令数据与居民出行调查数据进行匹配的具体步骤包括:

16、s2-1、根据每一条居民出行调查数据中出行者的性别特征,对手机信令数据中的用户性别特征进行筛选,并保留与居民出行调查数据中出行者性别特征相同的手机信令数据;

17、s2-2、根据每一条居民出行调查数据中出行者的年龄特征属性,对手机信令数据进行筛选,保留年龄差≤2岁的手机信令数据;

18、s2-3、统计每一条居民出行调查数据所匹配的手机信令数据中的元素个数n,若n=0,即该条居民出行调查数据没有成功匹配的手机信令数据,则将该条居民出行调查数据从居民出行调查数据集中剔除;若n=1,即该条居民出行调查数据成功匹配了唯一一条手机信令数据,则将该条居民出行调查数据保留;若n≥1,即该条居民出行调查数据存在多条手机信令数据与其匹配,则将该条居民出行调查数据从居民出行调查数据集中剔除。

19、进一步的,s3的具体步骤包括:

20、s3-1、提取交通环境特征,并计算各交通小区的交通设施指标数据,包括公交站点覆盖率、公交线路重复度、交叉口密度、路网密度和用地混合度;

21、s3-2、提取出行者个体特征,包括性别和年龄;

22、s3-3、提取交通出行行为特征,包括出行时长、出行距离和出行平均速度;

23、s3-4、引入互信息值表征上述居民出行特征与出行方式之间的相关性,考虑时间特异性影响,在高峰时段和平峰时段分别计算最大互信息数并构建出行特征信息矩阵,其中,最大互信息数公式计算公式如下:

24、

25、其中,mic(x,y)表示最大互信息数,x,y分别是网格中的行元素和列元素,nx,ny分别代表横轴和纵轴上的网格数,约束条件为网格数nxny<b,(b=n0.6),n代表全体样本数,p(x,y)是两元素的联合概率密度函数,p(x),p(y)是两元素的边际概率密度函数。

26、进一步的,s3-1中公交站点覆盖率指标、公交线路重复度指标、交叉口密度指标、路网密度指标和用地混合度指标的具体计算步骤包括:

27、1)公交站点覆盖率

28、

29、其中,bcri表示交通小区i的公交站点覆盖率,si表示交通小区i的面积,sj表示以公交站点j为圆心的一定半径范围面积,ni表示交通小区i内公交站点的数量,l表示交通小区的个数;

30、2)公交线路重复度

31、

32、其中,brrci表示交通小区i的公交线路重复度,li表示交通小区i内路网总长度,lk表示公交线路k的长度,mi表示交通小区i内公交线路的数量;

33、3)道路交叉口密度

34、ridi=n/si,i=(1,2,...,l)

35、其中,ridi表示交通小区i的道路交叉口密度,n表示交通小区i内交叉口的数量,si表示交通小区i的面积;

36、4)路网密度

37、rndi=li/si,i=(1,2,...,l)

38、其中,rndi表示交通小区i的路网密度,li表示交通小区i内路网总长度,si表示交通小区i的面积;

39、5)用地混合度

40、

41、其中,lmi表示交通小区i的用地混合度,pq是第q类土地面积占对应交通小区面积的百分比,q是土地类别总数,sq是第q类土地的面积。

42、进一步的,s3-3中出行距离和出行平均速度的具体计算步骤包括:

43、1)出行时长

44、以一次出行起点的代表时间戳为出发时刻,出行讫点的代表时间戳为到达时刻,两者之差为出行时长ti;

45、2)出行距离

46、

47、其中,di表示用户i的出行距离,ni表示用户i经过的交叉口总数,di,i+1表示交叉口i和交叉口i+1之间的空间距离;

48、3)出行平均速度

49、vi=di/ti

50、其中,vi表示用户i的出行平均速度,ti表示用户i的出行时长。

51、进一步的,s4的具体步骤包括:

52、s4-1、基于专家经验和相关性分析结论判定各出行特征在信息论意义上的依赖或独立关系,构建信息论主导的第一个贝叶斯网络模型;

53、s4-2、基于爬山法获得各出行特征在概率论意义上的依赖或独立关系,构建概率论主导的第二个贝叶斯网络模型;

54、s4-3、以bic测度为模型结构评分函数,评价上述两个贝叶斯网络模型的结构表现,根据bic评分结果,基于领域先验知识和样本数据,综合信息论意义和概率论意义上出行特征的依赖或独立关系,最终构建贝叶斯网络拓扑结构。

55、进一步的,s5的具体步骤包括:

56、s5-1、贝叶斯网络出行特征不确定性表征:对不同出行方式样本数据进行统计学分析,基于交通领域先验知识分析将出行特征不确定性以概率形式进行表达,形成不确定性物理表征方案,将连续特征变量离散为有序离散状态;居民出行特征包括出行者性别、出行者年龄、出行时长、出行距离、行程平均速度、公交系统服务水平、道路系统建设水平和土地利用水平等特征;

57、s5-2、将带有出行方式标签的手机信令数据分为两个数据集,其中80%作为贝叶斯网络模型节点参数的测试数据集,20%作为后续模型效果的验证数据集,基于测试数据集进行贝叶斯网络模型节点参数学习,得到贝叶斯网络模型中各节点的条件概率表,并完成出行方式辨识模型构建。

58、进一步的,贝叶斯网络模型节点参数学习的公式如下:

59、

60、其中,θ指θ的最大后验概率,d代表样本数据集,p(d)是样本数据集的先验分布。

61、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

62、1、本发明的手机信令数据驱动的居民出行方式可靠辨识方法采用手机信令数据,相比于gps数据,可以降低数据采集难度和数据获取成本,并具有更广泛的样本覆盖性。

63、2、本发明的手机信令数据驱动的居民出行方式可靠辨识方法考虑了各类交通出行方式的出行特征受交通系统中出行者属性、交通设施条件、交通运行环境等多种不确定性因素的共同影响,能够揭示多因素相互影响的作用机理,明确各类出行方式的出行特征典型场景。

64、3、本发明的手机信令数据驱动的居民出行方式可靠辨识方法从信息论和概率论角度分别构建贝叶斯网络,考虑到了出行方式特征之间的隐性关系,运用bic函数进行网络评分,对出行方式的辨识具有更高的可靠度和精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1