交通流量数据聚类、补偿方法及设备与流程

文档序号:22111647发布日期:2020-09-04 15:08阅读:316来源:国知局
交通流量数据聚类、补偿方法及设备与流程

本发明涉及智能交通领域,具体涉及一种交通流量数据聚类、补偿方法及设备。



背景技术:

随着城市智能交通系统的成熟与发展,大量的交通检测器也同时配套建设,如电子警察、感应线圈、微波、雷达等设备。这些设备能够实时检测交通流量信息,为交通信号控制方案制定、交通流状态监测、交通诱导路径规划等智能交通应用提供支撑。

然而,由于设备可靠性差、网络状态不稳定,导致这些交通检测器设备会短暂或者长期失效,维护检修需要几天甚至更长时间,而在这阶段内没有任何有效的交通流量数据被采集上传,导致信号控制、交通诱导等应用缺少数据支撑无法正常开展,极大影响交通正常运行。在这种情况下,交管部门通常采用两种对应方案:一种是采用固定的信号配时或交通诱导方案,无法保证良好效果;另一种是派出警力进行疏导管控,耗费大量人力。



技术实现要素:

有鉴于此,本发明提供一种交通流量数据聚类方法,包括:

获取多个交通流向量及其对应的时间类型信息和/或天气类型信息,所述交通流向量表示其对应时段内的交通流量及其变化趋势;

根据各个所述交通流向量的相似性将其划分为多个类;

生成交通流模式数据表,其中包括各个所述交通流向量所属的类型信息,及其对应的时间类型信息和/或天气类型信息。

可选地,所述时段为自然日,所述交通流向量包括以设定时间间隔统计一个自然日的多个交通流量值其中t表示时间间隔的取值,x是基于t确定的交通流量值的数量。

可选地,根据各个所述交通流向量的相似性将其划分为多个类,包括:

通过调整给定聚类数量,计算各个所述交通流向量的相似性及其变化程度;

根据所述相似性的变化程度确定聚类数量;

利用k均值聚类算法根据确定的聚类数量将所述多个交通流向量划分为多个类。

可选地,按照如下步骤确定聚类数量:

步骤1,获取当前聚类数量k,则其第i类(1≤i≤k)中包含的全部交通流向量为表示第i类中有n个交通流向量;

步骤2,计算各类中的交通流向量的相似性di

步骤3,计算全部k个聚类的相似性dk

步骤4,根据步骤1至步骤3,计算当划分为k+1类时的相似性dk+1

步骤5,计算从划分为k类到k+1时,相似性的变化程度

步骤6,按照步骤1至步骤4依次轮流赋值k,分别计算r值,当r值小于设定阈值时,确定当前的k值为聚类数量。

可选地,在步骤2中按照如下方式计算相似性di

其中,代表第i类里的第j个交通流向量,表示第i类里所有交通流向量的均值,

可选地,所述交通流向量为多维向量,表示计算两个多维向量的欧氏距离。

本发明还提供一种缺失交通流量数据补偿方法,包括:

获取根据上述交通流量数据聚类方法生成的交通流模式数据表;

获取缺失数据对应的时间类型信息和/或天气类型信息;

通过比对缺失数据对应的时间类型信息和/或天气类型信息与所述交通流模式数据表来确定缺失数据所属的类型;

基于构建所述交通流模式数据表的交通流向量,计算所述缺失数据所属类型的交通流向量作为数据补偿结果。

可选地,所述缺失数据所属类型的交通流向量为其中i表示缺失数据所属类型,t表示时间间隔的取值,x是基于t确定的交通流量值的数量,表示第i类中全部交通流向量中第一个统计时间间隔的交通流量值的均值,依次类推。

可选地,通过比对缺失数据对应的时间类型信息和/或天气类型信息与所述交通流模式数据表来确定缺失数据所属的类型,包括:

按照如下方式分别计算所述缺失数据属于各种类型的概率:

其中i分别取所述数据表中的全部类型,s表示所述时间类型信息和/或天气类型信息;

确定所述概率中的最大值对应的类型为所述缺失数据所属的类型。

相应地,本发明提供一种交通流量数据聚类方法设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述交通流量数据聚类方法。

相应地,本发明提供一种缺失交通流量数据补偿方法,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述缺失交通流量数据补偿方法。

本发明提供的交通流量数据聚类、补偿方法及设备通过对历史交通流数据的分析,挖掘其流量值和变化趋势张红存在共性模式,能够全面客观反映交通检测器采集数据中隐含的规律特征,能够作为对数据长期缺失的补偿依据;

本发明针对城市交通检测器大量存在的数据缺失问题,设计了可以量化计算的数据补偿方法,不仅能够补偿偶然性的少量缺失数据,也能够补偿检测器损坏后的长期性缺失数据,能够有效支撑交通信号控制、交通诱导等交管应用的开展。同时,本发明在避免交通秩序混乱、提高交通运行效率以及缓解交通拥堵等方面具有十分重要的参考应用价值。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的交通流量数据聚类方法的流程图;

图2为根据本发明实施例的缺失交通流量数据补偿方法的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供一种交通流量数据聚类方法,可以由计算机或服务器等电子设备执行,如图1所示该方法包括:

s1a,获取多个交通流向量及其对应的时间类型信息和/或天气类型信息,交通流向量表示其对应时段内的交通流量及其变化趋势。交通流向量是基于电子警察、感应线圈、微波、雷达等交通监测设备采集的数据进行融合得到的数据。

交通流向量是一个多维向量,其中包括多个交通流量值其中t表示时间间隔的取值,x是基于t确定的交通流量值的数量。作为示例性的说明,本实施例的交通流向量表示一个自然日(24小时)的交通流量及其变化趋势,为了衡量这种趋势,本发明以自然日为最小单位,检测交通流量的波动趋势。将交通流及其变化趋势表征为24小时内的多维向量,比如或者其中,qi是指第i个时间间隔内的交通流量值,当时间间隔取值为5分钟时,0≤i≤288,当时间间隔取值为10分钟时,0≤i≤144。

由此,一个交通流向量q5min或者q10min即表示一个自然日的交通流量及其变化趋势。据此,将检测器的历史交通流数据转换为上述多维向量,每个向量可代表每日的交通流量及其变化趋势,比如积累3个月的历史数据,即得到90个288维或144维向量。

通过日历和历史天气数据可以获得时间类型信息和/或天气类型信息,这些信息可以被视为对交通流向量的属性赋值。作为示例性的说明,本实施例的属性值包括两类即时间类和天气类。其中,天气类型包括三类天气,即晴(赋值1)、雨(赋值2)、雪(赋值3);时间类型包括所属星期和日类型,所属星期包括星期一至星期日,分别赋值1-7,而日类型包括三种,即工作日(赋值1)、周末(赋值2)、节假日(赋值3)。可通过如下表格展示交通流向量与上述类型信息的对应关系:

其中序号表示交通流向量的序号,所属星期和日类型均为时间类型信息,比如第一个自然日的q5min或者q10min,对应星期一(赋值1)、工作日(赋值1)、晴(赋值1)等等。

s2a,根据各个交通流向量的相似性将其划分为多个类。本方案需要挖掘这些向量的共性模式,主要包括相似性度量、聚类数确定、模式聚类等三个方面。可选的聚类算法有多种,聚类时通常需要用到交通流向量的相似性度量。针对任意两个交通流向量,例如可利用欧式距离衡量这两个向量之间的相似性,比如:

其中,d(p,q)是两个向量间的相似性度量指标,取值越大代表二者的相似性越低,取值越小代表二者的相似性越高。通过分别计算各个交通流向量的相似性,根据其相似度的高低即可对所有的向量进行聚类,聚类数量与所使用的算法和相关阈值的设置有关。

对于划分完的交通流向量种类,每一种即代表一种交通流模式,反映的是历史中相似时间、环境条件下,交通流的大小及变化趋势也区域一致。

s3a,生成交通流模式数据表,其中包括各个交通流向量所属的类型信息,及其对应的时间类型信息和/或天气类型信息。作为示例性的说明,交通流模式数据表如下表所示:

其中第1、2个交通流向量属于第1类(类型信息为1),第2-7个交通流向量属于第2类(类型信息为2),由此可以得到全部90个向量与其所属类型信息的对应关系。

需要说明的是,步骤s2a中的聚类计算并不需要用到时间类型信息和天气类型信息,因此获取这些信息的操作,也即赋值操作也可以在步骤s3a中执行,本方法不限制这些步骤的执行顺序。

本方案通过对历史交通流数据的分析,挖掘其流量值和变化趋势中存在的共性模式,生成的数据能够全面客观反映交通检测器采集数据中隐含的规律特征,能够作为对数据缺失的补偿依据。

在一个优选的实施例中,步骤s2a中使用k-means(k-meansclusteringalgorithm),也称k均值算法对所有交通流向量进行聚类,因此首先需要确定k值,也即聚类的数量(类型的个数)。针对本发明的应用场景而言,聚类的实际个数是未知的,而这又是k-means算法的必须参数,所以本实施例先通过依次轮流赋值的方式确定k值,然后进行聚类,具体地:

通过调整给定聚类数量,计算各个交通流向量的相似性及其变化程度。比如从k=1开始进行调整,当k=1时所有向量属于同一个类型,此时可计算类内的所有向量的相似度记为d1;然后将k调整为2,此时所有向量被分为两类,针对每一类可计算其类内的相似度,然后将两类的相似度求和得到全部聚类的相似度记为d2,然后可以衡量d1与d2的变化程度。

按照上述方式轮流赋值,并根据相似性的变化程度确定聚类数量。相似性的变化程度越小,代表再增加聚类数目,已经无法明显增加聚类划分效果,即减小聚类划分误差。通过设置相似度变化阈值,即可得到符合预期的聚类数量。

利用k均值聚类算法根据确定的聚类数量将多个交通流向量划分为多个类。

关于上述算计相似度的方式,本实施例提供一种优选的方案,按照如下步骤计算相似度并实现确定聚类数量:

步骤1,获取当前聚类数量k,则其第i类(1≤i≤k)中包含的全部交通流向量为表示第i类中有n个交通流向量;

步骤2,计算各类中的交通流向量的相似性di

步骤3,计算全部k个聚类的相似性dk

步骤4,根据步骤1至步骤3,计算当划分为k+1类时的相似性dk+1

步骤5,计算从划分为k类到k+1时,相似性的变化程度

步骤6,按照步骤1至步骤4依次轮流赋值k,分别计算r值,当r值小于设定阈值时,确定当前的k值为聚类数量。

上述在步骤2中按照如下方式计算相似性di

其中,代表第i类里的第j个交通流向量,表示第i类里所有交通流向量的均值,表示计算两个多维向量的欧氏距离,

本发明实施例还提供一种交通流量数据聚类设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行上述交通流量数据聚类方法。

本发明还提供了一种缺失交通流量数据补偿方法,基于上述实施例聚类结果的数据表对缺失的交通流向量进行补偿,本方法可以由计算机或服务器等电子设备执行,包括如下步骤:

s1b,获取根据上述实施例的方法生成的交通流模式数据表。为了提高数据补偿的准确性,本方案基于至少三个月的历史数据生成的数据表,即至少90个交通流向量及其天气类型信息和/或时间类型信息、所属聚类的关系表进行数据补偿。

s2b,获取缺失数据对应的时间类型信息和/或天气类型信息。比如缺失的是某个自然日的数据,也即待补偿的数据,通过查询日历和历史天气数据,可以确定该自然日的时间类型信息和/或天气类型信息。作为示例性的说明,与上述实施例一致,即晴(赋值1)、雨(赋值2)、雪(赋值3)中的一个;时间类型包括所属星期和日类型,星期一至星期日(赋值1-7)中的一个,以及工作日(赋值1)、周末(赋值2)、节假日(赋值3)中的一个。

s3b,通过比对缺失数据对应的时间类型信息和/或天气类型信息与交通流模式数据表来确定缺失数据所属的类型。举例来说,比如数据表内容如下:

缺失数据的天气和时间类型信息为星期一、工作日、晴(简称为属性),通过查询表格可以发现缺失数据的属性与表中第1个交通流向量的属性完全相同,因此可以判定二者属于同一类。

但是实际情况中由于数据表中有超过90个的大量数据,因此可能存在多个与缺失数据属性相同的项,并且这些项可能不属于同一个类(所属聚类不同),面对此情况可以根据表中这些项的数量确定缺失数据所属的类型。举例来说,比如缺失数据的属性与表格中x个所属聚类为i的交通流向量的属性相同,同时该缺失数据的属性与表格中y个所属聚类为j的交通流向量的属性相同,假设x>y,则表明缺失数据的类型更接近于聚类i,由此可判定其所属类型为聚类i。

s4b,基于构建交通流模式数据表的交通流向量,计算缺失数据所属类型的交通流向量作为数据补偿结果。具体来说,上述数据表中的交通流向量是实际存在的数据,而根据上述步骤确定了缺失数据的类型,也即找到数据表中与缺失数据最接近的一个或多个交通流向量,由此可以将这些交通流向量作为数据补偿结果,视为缺失日的交通流向量。举例来说,比如确定某日的缺失数据所属的类型为聚类1,则可以将数据标注第1、2个交通流向量作为数据补偿结果,视为该缺失自然日的交通流向量。

本方案针对城市交通检测器大量存在的数据缺失问题,提供了可以量化计算的数据补偿方法,不仅能够补偿偶然性的少量缺失数据,也能够补偿检测器损坏后的长期性缺失数据,能够有效支撑交通信号控制、交通诱导等交管应用的开展。同时,本方案在避免交通秩序混乱、提高交通运行效率以及缓解交通拥堵等方面具有十分重要的参考应用价值。

在一个优选的实施例中,缺失数据所属类型的交通流向量,也即数据补偿结果为其中i表示缺失数据所属类型,t表示时间间隔的取值,x是基于t确定的交通流量值的数量,表示第i类中全部交通流向量中第1个统计时间间隔的交通流量值的均值,依次类推。

具体地,在根据上述聚类方法完成聚类过程后,每一类交通流模式可表征为此类交通流模式中所有交通流向量的均值,作为举例,第i类交通流模式可表征为:

其中,代表第i类中全部交通流向量中的第1个交通流量统计值(比如早00:00至00:05)的均值,依次类推。在聚类完成后即可计算所有类型的均值,以备进行数据补偿,或者也可以在需要进行补偿时再进行上述均值计算也是可行的。

在一个优选的实施例中,步骤s3b包括如下步骤:

首先,按照如下方式分别计算缺失数据属于各种类型的概率:

其中i分别取数据表中的全部类型,s表示时间类型信息和/或天气类型信息。举例来说,如在聚类1前提下,所属星期为星期一的概率值p(星期一|聚类1):

由此类推,可计算其他聚类前提下,各种属性值的条件概率,如p(星期二|聚类2)、p(工作日|聚类3)、p(晴|聚类5)等。

根据条件概率公式,可对各种属性条件下,交通流向量所属聚类编号的概率进行计算。假设缺失数据的属性为星期一、工作日、晴,对其所属聚类概率进行计算,即分别计算p(聚类1|星期一、工作日、晴)、p(聚类2|星期一、工作日、晴)、…、p(聚类n|星期一、工作日、晴),得到n个概率值。

确定概率中的最大值对应的类型为缺失数据所属的类型。具体地,取这n个概率中的最大值对应的聚类j的交通流模式,作为缺失数据所属日的交通流向量,即

本发明实施例还提供一种缺失交通流量数据补偿设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行上述缺失交通流量数据补偿方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1