一种面向多元时间序列的因果关系可视分析方法

文档序号:34467283发布日期:2023-06-15 11:08阅读:221来源:国知局
一种面向多元时间序列的因果关系可视分析方法

本发明属于可视化,涉及一种面向多元时间序列的因果关系可视分析方法。


背景技术:

1、分析因果关系对于理解复杂系统背后的机制和做出导致预期结果的决策至关重要。例如,在大气污染领域,发现空气质量数据集背后的因果关系可以帮助分析人员了解城市污染的原因,辅助制定有效的防治策略。由于控制实验的高成本,大多数现有的分析系统通过相关性分析和共现模式分析来得出因果结论。然而,这些研究得出的模式和见解并不意味着真正的因果关系,其结果的可靠性往往是有限的应用。这一事实促使了因果分析的研究,其目的是从观测数据中建立因果关系模型来推断因果关系。

2、近年来,研究人员采用格兰杰因果检验方法捕获时间序列数据之间的因果关系。这些研究试图从一组时间序列中得出一个因果图,其中每一对时间序列之间的因果关系用一个有向边表示。然而,由于城市环境的快速变化,单个因果图不足以刻画多个时序变量之间的动态因果关系。例如,从两个时间序列中检测到的因果关系可能会因某些外部因素(如气象因素中的风速)而消失,甚至会不时反转。这种动态的性质需要从多个尺度来分析因果关系,使分析人员能够根据不同需求任务选择不同的时空尺度,以洞察城市环境中因果关系的时间变化。此外,解释和验证自动化模型检测到的这些因果关系也需要一个交互式系统来将分析人员集成到因果关系分析循环中。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种面向多元时间序列的因果关系可视分析方法。该方法基于格兰杰因果关系检验提出了一个因果检测框架。该框架包括时空划分和防抖策略,以提高不同城市多元时间序列间的因果检测能力。然后,通过设计一个动态因果图可视化,使分析人员能够沿着时间探索和解释多元时间序列的动态因果关系。之后考虑因果关系的多个维度,并设计了定制的因果验证和比较可视化来揭示可疑的因果关系。最后,通过对真实世界的大气污染数据集和共享单车数据集的两个案例研究,证明了该方法的有效性。本发明能够有效地帮助分析人员探索和理解多元时间序列间的动态因果关系。

2、为达到上述目的,本发明提供如下技术方案:

3、一种面向多元时间序列的因果关系可视分析方法,包括以下步骤:

4、s1:获取多元时间序列数据集,分别从空间和时间的角度对时间序列进行预处理;

5、s2:应用格兰杰因果关系检验对划分好的多元时间序列进行因果关系测试,使用防抖策略获取稳定的因果关系;

6、s3:设计动态因果图可视化,使分析人员能够沿着时间探索和解释多元时间序列的动态因果关系;

7、s4:考虑因果关系的多个维度,设计定制的因果验证和比较可视化来揭示可疑的因果关系。

8、进一步,步骤s1所述分别从空间和时间的角度对时间序列进行预处理,具体如下:

9、在空间上按行政区划分,以城市(地级行政区)为最小单位,将同一城市的数据进行平均化处理;

10、在时间上按周期划分,以日或者月为最小单位,将每个时间序列划分为不同的时间窗。

11、进一步,步骤s2中所述应用格兰杰因果关系检验对划分好的多元时间序列进行因果关系测试,具体包括:

12、两个时间序列x、y之间的格兰杰因果关系定义为:若采用时间序列x和y的历史信息对y进行预测,优于仅采用y的历史信息对y进行预测的结果,则认为变量x是变量y的原因;

13、格兰杰因果检验应用向量自回归模型var作为预测模型,在var中,系统的当前状态通过系统中不同时间序列的过去k个状态来预测;基于以下两个回归方程检验x→y(x导致y):

14、

15、

16、其中,系数表示第n个变量的前k个时间戳前的值对第i个变量的预测的贡献,表示第i个变量在t时刻的记录值,n为时序变量的个数,k为时间滞后。c为常数项,ε为误差项。如果通过考虑x的记录来改善预测性能,那么x→y为真;格兰杰因果关系检验通过除x和y以外的其他所有变量v\{x,y}消除其他变量的干扰,并聚焦于当前的两个变量;

17、通过基于残差平方和(ssr)的f检验确定统计显著性:

18、

19、其中,ssr1和ssr2分别表示回归方程(1)和(2)的残差平方和,m为回归样本数,f值服从参数为m和m-kn的f分布,即f~f(k,m-kn);零假设是如果f的p值小于p值阈值j,则拒绝原假设;否则,接受零假设;因果强度用(j-p)/j来衡量。

20、进一步,步骤s2中所述使用防抖策略获取稳定的因果关系,具体包括:当用户指定最大时滞k+后,系统在每个时间窗进行因果检测,从而得到在每个k≤k+下变量间的因果关系;如果某个因果关系出现在所有时间滞后k的因果检测中,则它是稳定的且最终将呈现在因果图中。

21、进一步,设计的动态因果图可视化,包括可视化单一因果图,具体包括:

22、使用有向无环图来表示从步骤s2中得到的因果关系,其中每个节点都用一个同心圆表示,同心圆的外层表示当前变量,不同的颜色编码不同的变量类型,同心圆的内层是一个饼图,其中每个扇区编码当前变量的一个原因,扇区的颜色映射与外层变量一致;如果一个变量是根原因,则其内层为空白圆;同心圆的大小编码该变量与其他变量的累计相关系数和;每条链接表示一个因果关系,因果方向为从上节点到下节点;因果关系的强度由最有效的线路通道之一的厚度编码;

23、因果图中每个节点的位置根据其相关的因果关系来确定,节点的垂直位置高于其在因果图中的每个子节点;

24、对于因果图中节点的布局,使用最有效的视觉通道(位置)来编码最重要的信息(方向);通过寻找节点的拓扑排序来解决每个节点的位置布局;将节点放置到不同的层中,其中节点的所有原因都来自前面的层;计算每个节点的层的公式为:

25、layer(v)=max({layer(vi)|vi∈cv(v)})+1

26、其中,v表示节点,c(v)表示节点v的所有原因;每个根节点的层设为0;因果方向从上到下;

27、对于减少跨层链接,即链接两端节点的层次相差大于1,通过节点内层的扇区来编码原因变量;扇区面积编码原因变量对节点的影响强度大小占比。

28、进一步,将厚度编码平均划分为四个级别,再以指数分级。

29、进一步,设计的动态因果图可视化,包括可视化多个因果图,具体包括:按时间顺序放置因果图,并设计可视化和交互;在可视化方面设计趋势视图,可视化多个变量的时间变化趋势,并作为因果图的时间轴,使因果图面向时间的下钻分析;在交互方面高亮所有因果图中某一对变量的因果关系的相关路径;通过深度优先遍历算法来寻找满足条件的所有路径,并将其高亮为红色,以区别其他链接。

30、进一步,步骤s4中,通过散点图来可视化pearson相关系数和因果强度之间的关系,并考虑多个时间窗;

31、然后通过视觉编码来揭示可疑的因果关系;

32、圆编码因果关系:圆的大小编码pearson相关系数的绝对值与因果强度之和;圆越大表示因果关系越可疑;

33、利用一个并置的邻接矩阵来可视化两组中的所有因果关系;矩阵的行和列分别表示原因和结果变量;矩阵的每个单元格编码对应的因果关系,并使用左右并置的两个条形来对比因果关系的强度;通过计算每个变量与其他变量的因果联系个数,重新排列这些因果变量的次序,检测最有影响的因果变量。

34、本发明的有益效果在于:本发明通过扩展格兰杰因果关系检验方法,提出了因果检测框架,以提高因果检测能力,并获取多元时间序列间的稳定因果关系。然后,在数据可视化的基础上,通过定制化一组精心设计良好的可视化和交互,进一步开发了一个交互式的可视化分析系统。该系统包括用于设置初始条件的仪表板、提供空间背景的地理视图、显示多个变量的时间变化趋势和提供时间轴的趋势视图、沿着时间探索和解释多元时间序列间动态因果关系的因果图视图、从多个角度呈现因果关系的关系视图以及允许比较不同子组中因果关系的比较视图。系统架构分为后端和前端两个板块。后端运行因果检测框架,前端支持对检测到的动态因果关系的交互可视分析。

35、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1