一种基于城市中地理时间序列的动态因果分析方法

文档序号:27312211发布日期:2021-11-09 22:48阅读:290来源:国知局
一种基于城市中地理时间序列的动态因果分析方法

1.本发明属于时间序列分析领域,具体为一种基于城市中地理时间序列的动态因果分析方法。


背景技术:

2.现代化的城市给我们带来便利的同时也带来了许多痛点,例如,空气污染,水污染,交通拥堵等等。治理这些问题其中重要的一环是认识进而控制它们在城市空间中的传播。城市中广泛布设的传感器收集了大量的地理时间序列数据。对这些地理时间序列进行因果分析可以揭示这些痛点现象在城市中的扩散现象和影响过程。
3.格兰杰因果检测(grange causality test)是针对时间序列进行因果分析最具有代表性、最广为使用的方法。格兰杰因果认为,如果一个时间序列a能够帮助预测另一个时间序列b,则序列a影响序列b。具体而言,假定在同一个监测系统中,有n个时间序列{v1,v2,

,v
n
},每一个时间序列的当前状态可由其他n

1个时间序列的过去的k个状态确定:
[0004][0005]
ω
i,n,k
是指明了第n个变量的过去第k个状态对第i个变量的当前状态预测的贡献的系数。μ是常数,u是误差项。这些参数可通过对数据进行训练得到。在测试时间序列v
x
对v
y
的因果关系时,如果考虑了v
x
比不考虑v
x
对v
y
的预测的效果有显着提升,则称v
x
影响v
y
。考虑了v
x
的预测公式为
[0006][0007]
而不考虑v
x
的预测公式为
[0008][0009]
特别地,n个时间序列中,除了v
x
之外的其他时间序列被视为控制变量c={v1,v2,

,v
n
}/{v
x
}。显着性可以通过基于残差平方和的f值检验得到,
[0010][0011]
其中m为观测的样本数。给定一个最大和最小的时间延迟k+和k

,格兰杰因果检测算法会在每一个k

≤k≤k+的条件下进行检测,并且基于f得到最可靠的结果,通常k

为1,ssr(sum of squared residuals)残差平方和。
[0012]
因为城市中的因果关系往往是动态变化的,格兰杰因果检测不能直接应用到城市中地理时间序列的因果分析当中。以空气污染为例子,当北京的空气污染吹到天津时,因果关系为北京

>天津;当无风时,北京和天津的空气污染之间没有因果关系;当天津的空气污
染吹到北京时,因果关系为天津

>北京。在这种情况下,空气污染地理时间序列的因果关系会消失、会翻转。以交通拥堵为例子,a路口的拥堵在早上会影响b路口由于上班通勤的大流量交通,但是在晚上,甚至周末的早上则不会。
[0013]
因此,格兰杰因果检测,包括相关的改进过的检测方法,在城市的时空场景下会有下面两点重要的局限性。首先,在数据完整的时间范围内,它们对时间序列进行因果检测,只会检测得到一个粗糙(甚至错误)的因果关系。该因果关系是远不足以描述整个时间范围内两个时间序列间的随时间变化的因果关系的,无法支持细腻度的、可靠的因果分析。因此,需要在合适划分的时间范围内进行分析。其次,因为因果关系的动态变化,略微不同的时间范围下进行因果检测可能会产生不同的结果,尚未有相关的方法能够解决这种不稳定性。
[0014]
除了因果的动态性之外,在城市空间中使用格兰杰因果检测还需要仔细考虑地理空间的限制。地理空间会限制时间序列之间的影响关系。例如,距离遥远的两个空气污染时间序列之间是不会存在直接的因果关系;交通速度的时间序列之间的因果关系方向往往与车流前进的方向相反。传统的格兰杰因果检测,包括相关的改进过的检测方法,均忽视了这一点。


技术实现要素:

[0015]
本发明提供了一种具有稳定性的,考虑地理空间限制的基于城市中地理时间序列的动态因果分析方法。
[0016]
一种基于城市中地理时间序列的动态因果分析方法,包括:
[0017]
s1:获得中心传感器发送的第一地理时间序列数据,对所述第一地理时间序列数据进行时间切片得到多个时间窗口,并对每个时间窗口进行抖动采样处理得到多个样本时间窗口;
[0018]
s2:利用中心传感器在城市中的地理位置,确定受中心传感器影响的潜在下游传感器集合,以及影响中心传感器的潜在上游传感器集合;
[0019]
s3:在每个样本时间窗口内,基于潜在上、下游传感器集合,采用格兰杰因果检测方法确定与中心传感器具有因果关系的第一上、下游传感器集合,中心传感器与第一上、下游传感器集合的第一因果关系集合作为每个样本时间窗口因果网络;
[0020]
s4:筛选出每个时间窗口中的多个样本时间窗口因果网络均出现的第二上、下游传感器集合,将所述第二上、下游传感器集合与中心传感器的第二因果关系集合作为每个时间窗口因果网络,基于每个时间窗口因果网络得到城市中中心传感器位置的第一地理时间序列数据的动态因果关系。
[0021]
通过对每个时间窗口中的多个样本时间窗口进行格兰杰因果检测得到以中心传感器为中心的多个因果网络,并对个时间窗口的多个因果网络进行筛选得到在时间窗口中的多个样本时间窗口均出现的潜在上、下游传感器,将所述潜在上、下游传感器对中心传感器的影响作为所述时间窗口的因果网络,以增加中心传感器与上、下游传感器因果关系的稳定性。
[0022]
本发明进行格兰杰因果检测方法之前,基于城市的地理位置对中心传感器的潜在上、下游传感器进行预判,以避免地理空间因素对格兰杰因果检测的影响。
[0023]
基于在不同时间窗口下得到的因果网络,可以分析中心传感器与哪些传感器频繁具有因果关系,进一步地可以分析这些因果关系的在时间上的规律和模式,例如是否具有周期性,在什么时候没有因果关系,进而可以制定出更加精准的城市治理政策。
[0024]
所述的对所述地理时间序列数据进行时间切片得到多个时间窗口的具体步骤为:
[0025]
判断接收的地理时间序列数据是否具有周期性,如果所述地理时间序列数据具有周期性,则基于周期性对所述地理时间序列数据进行时间切片得到多个时间窗口;
[0026]
如果所述地理时间序列数据不具有周期性,则基于所述地理时间序列数据中的峰值的位置,高度,显著性,宽度提取所述峰值所在的时间段,所述多个时间段作为多个时间窗口。
[0027]
依据分析的问题以及中心传感器se的时间序列是否具有周期性,将地理时间序列分为两类,执行不同类型的时间切片,得到若干时间窗口。如果(a)分析的问题现象具有周期性,且时间序列也呈现周期性特征,如交通速度时间序列,则直接根据周期对时间序列进行切分,得到时间窗口。如果(b)分析的问题现象不有周期性,且时间序列不具有周期性特征,如空气污染时间序列,则根据峰值的出现位置、高度、显着性、宽度等属性自动地提取峰值所在的时间段,这些时间段将作为时间窗口。基于峰值的时间段提取可通过一些公开的代码完成。
[0028]
所述的并对每个时间窗口进行抖动采样处理得到多个样本时间窗口的具体步骤为:
[0029]
基于时间粒度阈值,对每个时间窗口进行偏移,放大或缩小得到多个样本时间窗口。
[0030]
利用本发明提供的时间范围确定方法,在每个时间窗口内划定多个样本时间窗口,以增加中心传感器与上、下游传感器间检测出的因果关系的稳定性。
[0031]
采用所述的格兰杰因果检测方法判断所述的潜在上游传感器集合中的第一潜在上游传感器与中心传感器的因果关系的具体步骤为:
[0032]
将所述第一潜在上游传感器集合输入的第二地理时间序列数据集中剔除第一潜在上游传感器输入的第三地理时间序列数据得到格兰杰因果检测方法的第一控制变量,以判断中心传感器是否受第一潜在上游传感器的影响,并将第一潜在上游传感器的第三地理时间序列数据传播到中心传感器的最大、最小时间分别作为格兰杰因果检测中的残差平方和的第一最大延迟和第一最小时间延迟,以判断中心传感器受第一潜在上游传感器的影响程度,得到第一潜在上游传感器与中心传感器的因果关系。
[0033]
采用所述的格兰杰因果检测方法判断所述的多个潜在下游传感器中的第二潜在下游传感器与中心传感器的因果关系的具体步骤为:
[0034]
确定第二潜在下游传感器的第二潜在上游传感器集合,将所述第二潜在上游传感器集合输入的第四地理时间序列数据集合中剔除第一地理时间序列数据得到格兰杰因果检测方法的第二控制变量,以判断中心传感器是否影响第二潜在下游传感器,并将第二潜在下游传感器的第五地理时间序列数据传播到中心传感器的最大、最小时间分别作为格兰杰因果检测中的残差平方和的第二最大时间延迟和第二最小时间延迟,以判断中心传感器影响第二潜在下游传感器的程度,得到第二潜在下游传感器与中心传感器的因果关系。
[0035]
所述的中心传感器与第一上、下游传感器集合的第一因果关系集合构建每个样本
时间窗口因果网络的具体步骤为:
[0036]
通过所述的格兰杰因果检测方法筛选的影响中心传感器的多个潜在上游传感器确定为中心传感器的第一上游传感器集合;
[0037]
通过所述的格兰杰因果检测方法筛选的受中心传感器影响的多个潜在下游传感器作为中心传感器的第一下游传感器集合;
[0038]
将第一上,下游传感器集合与中心传感器的多个影响关系构建以中心传感器为中心的第一因果关系集合。
[0039]
所述的将所述第二上、下游传感器集合与中心传感器的第二因果关系集合构建每个时间窗口因果网络的具体步骤为:
[0040]
将每个时间窗口中的多个样本时间窗口因果网络中均被检测出来对中心传感器有影响的多个第一上游传感器作为第二上游传感器集合,并将第二上游传感器集合对中心传感器的影响作为第三因果关系集合;
[0041]
将每个时间窗口中的多个样本时间窗口因果网络中都被检测出来受中心传感器影响的多个第一下游传感器作为第二下游传感器集合,并将中心传感器对第二下游传感器集合的影响作为第四因果关系集合;所述的第二因果关系集合为第三因果关系集合和第四因果关系集合。
[0042]
所述的中心传感器包括交通速度中心传感器或空气质量中心传感器,设定所述的交通速度中心传感器的潜在下游传感器为与交通流方向的相反的多个传感器,以判断交通速度中心传感器处的交通拥挤程度对所述潜在下游传感器的影响,设定所述的交通速度中心传感器的潜在上游传感器为沿交通流方向的多个传感器,以判断交通速度中心传感器处的交通拥挤程度受所述潜在上游传感器的影响;
[0043]
设定空气质量中心传感器的潜在上、下游传感器为距离空气质量中心传感器阈值距离的多个传感器。
[0044]
通过对交通拥堵地理环境和空气质量空间环境实际情况的考虑,来确定中心传感器的潜在上、下游传感器,然后使用格兰杰因果检测方法,以避免地理空间因素对格兰杰因果检测方法的影响。
[0045]
根据中心传感器在城市中的位置,考虑该传感器所捕获的现象在城市中的传播特性,在众多传感器中搜索可能受到该中心传感器的影响其他传感器作为其潜在的因果下游传感器,以及可能影响该中心传感器的其他传感器作为其潜在的因果上游传感器;以交通拥堵现象的传播为例,一个交通速度传感器的潜在的因果下游传感器为沿着交通流相反方向首先遇到的传感器,而其潜在的因果上游传感器为沿着交通流方向首先遇到的传感器,因为交通拥堵是反向传播的;以空气污染现象的传播为例子,一个空气质量传感器的潜在的因果上游和下游传感器和为其周边的传感器,因为空气污染总是连续地在地理空间中传播,并且方向不一。
[0046]
与现有技术相比,本发明的有益效果为:
[0047]
(1)本发明通过对时间进行基于时间序列特征的切片划分,使得因果分析能够捕捉到更加细腻度的、动态变化的因果关系。
[0048]
(2)通过对时间窗口进行抖动采样,从而从复杂动态的环境中提取到稳定的、防抖动的、可靠的因果关系。
[0049]
(3)通过仔细地考虑了传感器的地理空间关系,本发明的方法能够去除不相关的传感器,使得因果检测更加精准。
[0050]
(4)本发明能够很好地捕捉城市中动态的因果关系,刻画城市问题在复杂环境中时变的相互影响和扩散现象,支持更加精准的城市治理政策的制定,在城市时空大数据分析、环境治理、交通规划等相关领域上有着广泛应用的潜力。例如,如果某种交通拥堵的因果影响在周末不发生,因此在周末不需要安排交警进行交通诱导和疏通,节省人力物力。
附图说明
[0051]
图1为本发明具体实施方式提供的一种基于城市中地理时间序列的动态因果分析方法流程图;
[0052]
图2为实施例1提供的中心传感器的地理位置图片;
[0053]
图3为实施例1提供的中心传感器对应的空气污染时间序列以及7个基于峰值检测得到的时间窗口图;
[0054]
图4为实施例1提供的中心传感器与潜在上、下游传感器的地理位置图片,其中,虚线框指示的传感器为在检测中心传感器s
e
对s
langfang
的因果关系时的控制变量地理位置;
[0055]
图5为实施例1提供的中心传感器与上、下游传感器的空气污染因果网络集图片,其中,包括1

10个因果网络图片。
[0056]
图6为实施例2提供的中心传感器的地理位置图片;
[0057]
图7为实施例2提供的中心传感器对应的交通速度时间序列以及10个基于峰值检测得到的时间窗口图;
[0058]
图8为为实施例2提供的中心传感器与潜在上、下游传感器的地理位置图片;
[0059]
图9为实施例2提供的中心传感器与多个上、下游传感器的空气污染因果网络集图片,其中,包括1

10个因果网络图片。
具体实施方式
[0060]
本发明提供的一种基于城市中地理时间序列的动态因果分析方法,如图1所示,具体步骤如下所示:
[0061]
s1:获得中心传感器发送的第一地理时间序列数据,对所述第一地理时间序列数据进行时间切片得到多个时间窗口,并对每个时间窗口进行抖动采样处理得到多个样本时间窗口;
[0062]
s2:利用中心传感器在城市中的地理位置,确定受中心传感器影响的潜在下游传感器集合,以及影响中心传感器的潜在上游传感器集合;
[0063]
s3:在每个样本时间窗口内,基于潜在上、下游传感器集合,采用格兰杰因果检测方法确定与中心传感器具有因果关系的第一上、下游传感器集合,中心传感器与第一上、下游传感器集合的第一因果关系集合作为每个样本时间窗口因果网络;
[0064]
s4:筛选出每个时间窗口中的多个样本时间窗口因果网络均出现的第二上、下游传感器集合,将所述第二上、下游传感器集合与中心传感器的第二因果关系集合作为每个时间窗口因果网络,基于每个时间窗口因果网络得到城市中中心传感器位置的第一地理时间序列数据动态变化的因果关系。以下实施例均应用上述方法进行空气污染和交通拥堵分
析。
[0065]
实施例1
[0066]
参见图2至图5,本发明提供的一种在城市中分析地理时间序列的动态因果分析方法,可应用在空气污染的分析中。包括以下步骤:
[0067]
步骤(1):在城市空间中指定一个传感器作为要分析的中心传感器;以图2为例,选取北京城西的空气质量传感器为中心传感器s
e
,来分析该地区的空气污染的源头,以及如何影响周边地区。
[0068]
步骤(2):根据分析的问题以及中心传感器的时间序列的特征,进行时间切片得到若干时间窗口。这些传感器记录了10天中每小时的pm2.5记录。每个传感器共有1800个记录。如图3,从时间序列可视化以及空气污染的排放规律可知,空气污染时间序列不具有周期性。因此采取基于峰值的时间窗口划分。调用python的函数包scipy.signal.find_peaks,可得到图3所示的7个时间窗口。
[0069]
步骤(3):空气污染总是连续地在地理空间中传播,并且方向不一,因此周边的传感器均是潜在的因果上游传感器以及潜在的因果下游传感器。
[0070]
步骤(4):在每一个时间窗口中,检测中心传感器与其他潜在传感器间的稳定的因果关系,构成因果网络。
[0071]
(4.1)首先,在一个时间窗口内进行因果检测时,首先对该时间窗口进行若干时间单位的偏移、放大、或者缩小,采样得到9个与原始窗口略微不同的样本时间窗口。
[0072]
(4.2)然后,在每一个样本时间窗口中,对中心传感器与每一个潜在的因果上游传感器和下游传感器进行考虑地理空间限制的格兰杰因果检测。例如,在检测传感器s1对传感器s2的因果关系时,将传感器s2的潜在上游传感器除去传感器s1,即s
u
(s2)/{s1},作为格兰杰因果检测的控制变量c。具体地,在检测中心传感器s
e
对东南处的传感器(廊坊)s
langfang
时,传感器s
langfang
的潜在上游传感器除去传感器s
e
,即s
u
(s
langfang
)/{s
e
},为控制变量(如图4所示)。最大和最小的时间延迟k+和k

,根据空气污染在传感器s
e
和s
langfang
之间可能的传播的最大最小时间确定。两个传感器s
e
和s
langfang
之间的距离为55km,京津冀地区传播的常见最大最小风速为38km/h和6km/h。基于此,可得到k+为10h,k

为1小时。在检测完中心传感器与其他传感器的因果关系后,在每一个样本时间窗口中会得到一系列的因果关系,并均涉及中心传感器s
e
,构成一个以中心传感器s
e
为中心的因果网络。
[0073]
(4.3)接着,对于中心传感器s
e
和潜在具有因果关系的其他任意一个传感器s
o
∈s
u
(s
e
)∪s
d
(s
e
),如果s
o
在9个样本时间窗口中都被检测出影响s
e
,则将该因果关系保留,作为在原始时间窗口中检测出的一个因果关系。同理,对于s
e
对s
o
的因果关系,如果也在所有的样本时间窗口中均被检测出,则保留下来。所有保留下来的因果关系,将构成该时间窗口下的因果网络。
[0074]
(4.4)最后得到所有时间窗口下的因果网络,如图5。
[0075]
步骤(5):通过对所有因果网络(图5)进行整体的分析,可以发现,北京市内的若干空气质量监测站所观测到的空气污染序列之间有着强烈的互为因果,表明北京各个区的空气污染在北京的管辖范围内反复来回传播。这可能是北京三面环山的地形导致的。因此,治理北京市的污染,需要将北京市各个区视为一个整体来治理。
[0076]
此外,对单独的一个因果网络分析也能得到重要的知识,例如,第三个时间窗内观
测到北京的空气污染有个突然的升高,因果网络揭示了张家口的空气污染对北京的空气污染有贡献,并且会影响到南部城市,如廊坊和保定。因此,即便北京、张家口等城市没有大量重工业,由城市交通排放的污染物,北方的沙尘也能影响南部的城市。
[0077]
实施例2
[0078]
参见图6至图9,本发明提供的一种在城市中分析地理时间序列的动态因果分析方法,可应用在交通拥堵的分析中。包括以下步骤:
[0079]
步骤(1):在城市空间中指定一个传感器作为要分析的中心传感器;以图6为例,选取北京城西高架上的某个路口的速度传感器为中心传感器s
e
,来分析该路口的交通状况是如何受到其他路段的影响,以及如何影响其下游路段。
[0080]
步骤(2):根据分析的问题以及中心传感器的时间序列的特征,进行时间切片得到若干时间窗口。这些传感器记录了10天中每15分钟的速度记录。每个传感器共有960个记录。如图7,从时间序列可视化以及城市交通的运行规律可知,交通速度时间序列具有24小时的周期性。因此采取基于周期的时间窗口划分,可得到图7所示的10个时间窗口。
[0081]
步骤(3):一个交通速度传感器的潜在的因果下游传感器为沿着交通流相反方向首先遇到的传感器,而其潜在的因果上游传感器为沿着交通流方向首先遇到的传感器,因为交通拥堵是反向传播的。基于路网关系,我们得到如图8所示的潜在的因果上游和下游传感器。
[0082]
步骤(4):在每一个时间窗口中,检测中心传感器与其他潜在传感器间的稳定的因果关系,构成因果网络。
[0083]
(4.1)首先,在一个时间窗口内进行因果检测时,首先对该时间窗口进行若干时间单位的偏移、放大、或者缩小,采样得到9个与原始窗口略微不同的样本时间窗口。
[0084]
(4.2)然后,在每一个样本时间窗口中,对中心传感器与每一个潜在的因果上游传感器和下游传感器进行考虑地理空间限制的格兰杰因果检测。例如,在检测传感器s1对传感器s2的因果关系时,将传感器s2的潜在上游传感器除去传感器s1,即s
u
(s2)/{s1},作为格兰杰因果检测的控制变量c。具体地,在检测上边的传感器s

对中心传感器s
e
的因果关系时,控制变量为空,因为中心传感器s
e
所在的路段仅有一处上游,即传感器s

所在的路段,如图8。最大和最小的时间延迟k+和k

可根据交通波在传感器s

和s
e
之间可能的传播的最大最小时间确定。两个传感器s

和s
e
之间的道路距离为0.28km,交通波常见的最大最小传播速度为1.5km/15min和0.1km/15min。基于此,可得到k+为45分钟,k

为15分钟。在检测完中心传感器与其他传感器的因果关系后,在每一个样本时间窗口中会得到一系列的因果关系,并均涉及中心传感器s
e
,构成一个以中心传感器s
e
为中心的因果网络。
[0085]
(4.3)接着,对于中心传感器s
e
和潜在具有因果关系的其他任意一个传感器s
o
∈s
u
(s
e
)∪s
d
(s
e
),如果s
o
在9个样本时间窗口中都被检测出影响s
e
,则将该因果关系保留,作为在原始时间窗口中检测出的一个因果关系。同理,对于s
e
对s
o
的因果关系,如果也在所有的样本时间窗口中均被检测出,则保留下来。所有保留下来的因果关系,将构成该时间窗口下的因果网络。
[0086]
(4.4)最后得到所有时间窗口下的因果网络,如图9。
[0087]
步骤(5):通过对所有因果网络(图9)进行整体的分析,可以发现,上方的路段的交通状况频繁影响中心传感器所在路段的交通状况,而中心传感器所在路段的交通状况会频
繁影响左边和下方的路段的交通状况,但是对右边的路段几乎没有影响。因此,交通管制应该更加侧重于左边和下方的路段。
[0088]
在周日,没有因果关系被检测出来(图9中的第6个因果网络)。这很可能是因为周日的交通流量很小。在周日,居民倾向于在家休息,而不是加班或出行。即使居民想外出,他们的出发时间也可能比工作日更多样化,不会造成明显的拥堵。因此,在周日可适当减少对该路段的交通管制,节省人力物力。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1