本发明涉及智能交通系统
技术领域:
,特别涉及一种基于时空关联规则的区域交通拥堵相关性计算方法。
背景技术:
:城市交通系统是城市社会经济生活的最重要的基础保障设施之一。2017年年末,中国城镇化率超半数以上,为城市带来了更多的交通需求。与此同时,机动车保有量保持10%以上的增速,全国大部分省会城市与二线城市的机动车保有量均在200万辆以上。大量的人口和车辆聚集在城市内,城市交通系统的运行压力不断上涨,原有的道路设施、规划及交通管理等方面无法及时响应,导致道路拥堵现象频繁,行车速度降低,排队长度增加,交通延误增大,居民的出行时间成本持续增加。同时,拥堵时车辆的低速行驶使得耗油量增加,并伴随噪声污染、尾气污染,给居民的生活带来了诸多问题。人们的正常社会生活依赖于城市交通系统的正常运行,而城市内部交通也是交通拥堵的常发区域,同时城市道路交通状态存在周期性和时空相关性,某一个路段的交通状况会沿着道路结构蔓延到周围路段,导致周围一定空间范围内路段交通状况改变,掌握拥堵的时空演化规律有利于交通拥堵的治理。挖掘拥堵状态的时空相关性,可以对城市道路的拥堵状态进行预判。交通拥堵时空相关性研究中,部分学者采用统计指标体现相关性,但交通数据具有非平稳和非线性特征,基本的统计学指标应用效果不佳,普适性较差。本申请基于数据挖掘技术关联规则,设计适用于挖掘拥堵时空关联性的时空关联规则算法,挖掘拥堵区域的时空相关性,从而获得在同一时段内,不同区域间拥堵的相关性大小,挖掘到交通拥堵发生的规律性,并给交通管理人员提供拥堵的先验知识。经过数据验证,本发明可以有效计算拥堵区域间的相关性,并且普适性和可行性较强。技术实现要素:城市交通拥堵现象频繁发生,增加了居民出行的时间成本,同时降低了出行的体验感。目前针对交通拥堵时空相关性的研究,不能反映拥堵相关性的长期时空关联规律。针对现有技术中存在的缺陷,本发明的目的在于提供一种基于时空关联规则的区域交通拥堵相关性计算方法,可以挖掘拥堵区域间相关性的规律特点,从而可以提前准备拥堵疏导预案,并及时分流拥堵区域车流,避免拥堵传播,进而影响其他区域的交通状态。为达到以上目的,本发明采取的技术方案是:一种基于时空关联规则的区域交通拥堵相关性计算方法,包括以下步骤:步骤1:将研究区域的城市道路区域按1km*1km的方格进行网格区域划分;步骤2:计算网格区域的平均速度和流量数据;交通数据由安置在交叉口附近的卡口设备采集,同方向相邻两个卡口设备构成1个路段;首先,统计各网格区域内的路段数量及卡口编码;其次,统计一定时段内通过各路段车辆的平均速度和流量,获得该时段路段的平均速度;最后,将网格区域内所有路段的平均速度进行平均获得网格区域的平均速度,网格内所有路段的流量数据求和获得网格区域的流量数据;时间粒度为15分钟,将每天划分为96个时段,按此方法,获得各网格区域各个时段的速度和流量数据;步骤3:将各网格区域的平均速度和流量数据信息标准化;步骤4:将标准化后的各网格区域的平均速度、流量数据进行聚类,得到各网格区域的交通状态分类,通过使用“kmeans++”与fcm聚类算法对网格区域的交通参数数据集进行划分,产生4种分类,分别为畅通、基本畅通、轻微拥堵、拥堵;所述交通参数数据集包括网格区域的平均速度和流量数据;步骤5:用“0-1”标记网格区域是否发生拥堵事件,若在某一时段网格区域发生拥堵,则标记为1,否则,标记为0;并提取道路发生拥堵的时间段、发生拥堵的位置信息,位置信息为网格区域的编号信息;步骤6:构建拥堵事务集t,所述拥堵事务集t中包含多个拥堵项集i,拥堵项集i包含拥堵发生的时间段t、发生拥堵的位置信息、拥堵事件的标记;步骤7:在拥堵事务集t的基础上,应用时空关联规则,计算规则的支持度和置信度,满足最小支持度和最小置信度的规则为强关联规则;步骤8:根据时空关联规则算法获得的强关联规则,计算网格区域之间的时空相关性。在上述技术方案的基础上,步骤2中,各路段车辆的平均速度计算过程如下:首先,计算第i辆车通过路段r时的平均速度,如公式(1)所示:其中,为第i辆车通过路段r时的平均速度;lr为路段r的长度,路段的长度通过调用百度地图api的方式,输入路段上下游卡口的经纬度信息,即可得到路段上下游卡口间的距离;为第i辆车通过路段r的时间;其次,计算所述路段车辆的平均速度,如公式(2)所示:其中,vt,r为路段r在t时段的平均速度;t为时段编号,t=0,1,2,……,95,即为以15min为间隔划分时段,将一天划分为96个时段,采集数据的时间跨度为d天;nvol为路段r在t时段内通过车辆数;在上述技术方案的基础上,步骤2中,各网格区域的平均速度的计算公式如下:其中,vgrid,t为网格区域grid在时段t的平均速度;vt,r为路段r在t时段的平均速度;t为时段编号,t=0,1,2,……,95;num为网格区域grid内的路段数;所述时段t通过卡口m的流量数据的计算公式如下:其中,vehiclem,t0为在t0时段内通过卡口m的车辆数;ti、tj表示时段t的开始和结束时刻;qt,m为时段t通过卡口m的流量;t为时段编号,t=0,1,2,……,95。所述网格区域的流量数据的计算公式如下:其中,qgrid,t表示网格区域grid在t时段的流量;num表示网格区域grid内的卡口数。在上述技术方案的基础上,步骤7中,所述的时空关联规则,有以下基本概念:定义1:时空关联规则如下所示:其中pu和qw表示不同的拥堵区域的位置信息,time表示规则发生的时段。式(6)的描述为满足min_sup,min_conf的要求下,x=[p1,p2,…,pu,time]与y=[q1,q2,…,qw,time]存在相关关系。定义2:项与项集:记i=(i1,i2,......ip)为所有项的集合,称为项集(itemsets),每个ij(j=1,2,......p)称为一个项目,根据i包含的项目个数l=k称i为k-项集,例如,集合{西单拥堵,学院路拥堵,北京南站拥堵}是一个3-项集。定义3:事务:拥堵事务数据库d={t1,t2,......,td},每个事务te(e=1,2,…,d)具有唯一标识tid,每个te(e=1,2,…,d)与i的一个子集相对应。例如:每天的拥堵路段记录为一个事务,多天的拥堵记录组成一个事务数据库,每个事务在数据库中使用tid进行唯一标识,用以标记拥堵发生的日期与位置。定于4:支持度:基于经典关联规则的支持度进行变形,计算结合时间、空间属性后的项集在事务集中发生的概率,使得最终规则同时考虑了时间和空间因素。当计算k-项集的支持度大于设定的最小支持度时,即为频繁k-项集,未与最小支持度比较前,均称为候选k-项集。支持度计算公式如下:式中frq(i(o',t))——时段t、位置为o'的拥堵项集i的支持度计数;n[t]——时段t发生的事务数;o'——拥堵区域的位置信息。定义5:置信度:基于定义4获得的支持度,计算时空关联规则的置信度,计算公式如下:其中o'和o”表示两个不同的位置信息。定义6:相关性指标:提升度可以衡量规则间的相关性,但提升度会受到零和事务的影响,零和事务即不包含规则中任意一项的事务;且提升度在临界值1附近呈不对称,故采用“kulc+ir”指标,根据指标大小,评价规则前件x与后件y之间的相关性。kulc趋向于1,则表示规则的前后件之间呈正相关,即前件的发生会促进后件的发生;ir趋向于0,表示规则为平衡状态,前件影响后件,同时后件也影响前件。kulc=0.5×(conf(x,y)+conf(y,x))(9)在上述方法的基本概念的基础上,其中步骤7所述时空关联规则的具体设计包含以下步骤:step1:根据定义4分时段统计候选1-项集的支持度;由设定的最小支持度筛选获得不同时段的频繁1-项集;计算得到的支持度与最小支持度进行比较,若大于,则为频繁项集;step2:获得不同时段的频繁k-1(k≥2)项集后,在相同的时间段内执行连接步,形成候选k-项集;连接步:主要是为了生成频繁k-项集,记为lk,输入为频繁k-1项集lk-1,记la,其中a=1,2,…k-1,则la是lk-1中的第a项;lk-1中的所有子集之间相互连接,产生候选k-1项集,记为ck;lk-1中的任意两个元素li和lj均可以执行上述连接操作;step3:对候选k-项集根据apriori性质进行剪枝,形成频繁k-项集;剪枝步:ck是频繁k-项集lk的超集,即ck的成员可能不全是频繁的,因此,先删除不可能为频繁k-项集的项有利于减少计算成本,如果一个候选k-项集的k-1项集不在lk-1中,则该候选k-项集也不可能成为频繁项集,从而可从ck删中除,为剪枝过程;step4:重复step2和step3,直到不能产生新的频繁候选集或是产生的候选集不满足设定的最小支持度,则完成了所有时空频繁k-项集的搜索工作;step5:执行完step4后,根据定义5分别计算各时段频繁k-项集的置信度,满足最小置信度要求的规则构成了强关联规则集合。根据定义6的相关性指标,计算相关性大小,用以评价规则前件x与规则后件y之间的相关性,当kulc趋向于1,则表示规则前件x与规则后件y之间呈正相关,即前件的发生会促进后件的发生;当ir趋向于0,表示规则为平衡状态,前件影响后件,同时后件也影响前件。本发明的有益效果:本发明利用历史交通数据集进行聚类,确定拥堵状态,给交通数据标记拥堵状态。综合考虑拥堵发生的时间和地点后,构建拥堵时空数据集,对拥堵时空数据集应用时空关联规则,挖掘出同一时段具有强相关关系的区域。本发明可以通过某一时段某一区域发生拥堵判断出与之相关的其他区域也会为拥堵状态,并显示具体的概率,可以提前设定拥堵预警方案且及时疏散去往拥堵区域的车辆。本发明使用的数据易于收集,并通过大数据挖掘的方法,快速便捷地获得拥堵规律,具有实际的操作价值。附图说明本发明有如下附图:图1本发明的基于时空关联规则的区域交通拥堵相关性计算方法的总体流程图。图2本发明的城市道路网格区域划分示意图。具体实施方式以下结合附图对本发明作进一步详细说明。如图1~2所示,本发明所述的一种基于时空关联规则的交通拥堵时空相关性计算方法,包括以下步骤:步骤1:将研究区域的城市道路区域按1km*1km的方格进行网格区域划分;步骤2:计算网格区域的平均速度和流量数据;首先,相邻两个同方向的卡口构成一个路段,统计一定时段通过该路段车辆的平均速度,获得该时段路段的平均速度;其次,统计网格中路段的个数,网格区域的平均速度即为所有路段车速的平均,网格区域的流量为所有路段车流量之和。计算第i辆车通过路段r时的平均速度计算公式如下:其中,为第i辆车通过路段r时的平均速度;lr为路段r的长度,路段的长度通过调用百度地图api的方式,输入路段上下游卡口的经纬度信息,即可得到路段上下游卡口间的距离;为第i辆车通过路段r的时间。所述路段车辆的平均速度计算公式如下:其中,vt,r为路段r在时段t的平均速度;t为时段编号,t=0,1,2,……,95,即为以15min为间隔划分时段,将一天划分为96个时段,采集数据的时间跨度为d天;nvol为路段r在t时段内通过车辆数;各网格区域的平均速度的计算公式如下:其中,vgrid,t为网格grid在时段t的平均速度;vt,r为r路段在t时段的平均速度;t为时段编号,t=0,1,2,……,95;num为网格区域grid内的路段数。通过所述时段t通过卡口m的车流量的计算公式如下:其中,vehiclem,t0为在t0时间通过卡口m的车辆;ti、tj表示时段t的开始和结束时刻;qt,m为时段t通过卡口m的流量;t为时段编号,t=0,1,2,……,95。所述网格区域的流量数据的计算公式如下:其中,qgrid,t表示网格grid在t时段的平均流量;num表示网格区域grid内的卡口数。步骤3:将各网格区域的平均速度、流量数据信息标准化。步骤4:将标准化后的各网格区域的平均速度、流量数据进行聚类,得到各网格区域的交通状态分类,通过使用融合“kmeans++”与fcm的聚类算法对网格区域的交通参数数据集进行划分,产生4种分类,分别为畅通、基本畅通、轻微拥堵、拥堵。所述交通参数数据集包括网格区域的平均速度和流量数据。步骤5:用“0-1”标记网格区域是否发生拥堵事件,若在某一时段网格区域发生拥堵,则标记为1,否则,标记为0;并提取道路发生拥堵的时间段,发生拥堵的位置信息,位置信息即网格区域的编号信息。步骤6:构建拥堵事务集t,所述拥堵事务集t中包含多个拥堵项集i,拥堵项集i包含拥堵发生的时间段t、发生拥堵的位置信息、拥堵事件的标记。拥堵项集表样如下表所示:tidtf特征值location_i1t1v1o12t2v1o2……………………ptfv1on表中,所有tf具有相同的时间步长,特征值为四种交通状态,v1为拥堵状态,on为拥堵发生的空间信息。步骤7:在拥堵事务集t的基础上,应用时空关联规则,计算规则的支持度和置信度,满足最小支持度和最小置信度的规则为强关联规则。具体设计包含以下步骤:step1:分时段统计候选1-项集的支持度。由设定的最小支持度筛选获得不同时段的频繁1-项集。计算得到的支持度与最小支持度进行比较,若大于,则为频繁项集;支持度公式如下所示:其中,frq(i(o',t))为时段t、位置为o'的拥堵项集i的支持度计数;n[t]为时段t发生的事务数;o'为拥堵区域的位置信息。step2:获得不同时段的频繁k-1(k≥2)项集后,在相同的时间段内执行连接步,形成候选k-项集。连接步:主要是为了生成频繁k-项集,记为lk。输入为频繁k-1项集lk-1,记la,其中a=1,2,…k-1,则la是lk-1中的第a项。lk-1中的所有子集之间相互连接,产生候选k-1项集,记为ck。lk-1中的任意两个元素li和lj均可以执行上述连接操作。step3:对候选k-项集根据apriori性质进行剪枝,形成频繁k-项集。剪枝步:ck是频繁k-项集lk的超集,即ck的成员可能不全是频繁的,因此,先删除不可能为频繁k-项集的项有利于减少计算成本。如果一个候选k-项集的k-1项集不在lk-1中,则该候选k-项集也不可能成为频繁项集,从而将其从ck中删除,为剪枝过程。step4:重复step2和step3,直到不能产生新的频繁候选集或是产生的候选集不满足设定的最小支持度,则完成了所有时空频繁k-项集的搜索工作。step5:执行完step4后,分别计算各时段频繁k-项集的置信度,满足最小置信度要求的规则构成了强关联规则集合。置信度公式如下所示:其中,时空关联规则如下所示:其中pu和qw表示不同的拥堵区域的位置信息,time表示规则发生的时段。满足最小支持度、最小置信度min_sup,min_conf的要求下,x=[p1,p2,…,pu,time]与y=[q1,q2,…,qw,time]存在相关关系。步骤8:根据步骤7获得的强关联规则,计算网格区域之间的时空相关性,公式如下所示:kulc=0.5×(conf(x,y)+conf(y,x))(9)采用“kulc+ir”指标,根据指标大小,评价规则前件x与后件y之间的相关性。kulc趋向于1,则表示规则的前后件之间呈正相关,即前件的发生会促进后件的发生;ir趋向于0,表示规则为平衡状态,前件影响后件,同时后件也影响前件。由步骤8的相关性指标可知,强关联规则包含具有强相关性的区域。因此,实现了通过交通数据挖掘拥堵区域间的相关性。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。当前第1页12