一种大数据环境下个体时空活动鲁棒性的计算方法与流程

文档序号:32072011发布日期:2022-11-05 02:55阅读:65来源:国知局
一种大数据环境下个体时空活动鲁棒性的计算方法与流程

1.本发明涉及一种基于海量匿名加密时间序列定位数据的个体时空活动鲁棒性计算方法,属于大数据分析技术领域。


背景技术:

2.近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,数据来源越来越多,数据量也越来越庞大。其中,手机终端设备与运营商基站之间持续产生的信号控制指令信息,形成了记录用户出行活动轨迹的一系列手机信令数据集,较为完备地记录了海量个体持续时间段内的相对完整的空间出行活动轨迹,为人类行为动力学特征分析提供了很好的数据支持。
3.鲁棒性指的是系统受外部冲击带来的扰动程度,鲁棒性越高,系统受外部冲击产生的影响越小。若将个体的出行范围和频次看作一个系统,其时空活动鲁棒性越高,则其日常出行越规律,也越具可预测性。因而,对整个城市来说,大量居民的个体时空活动鲁棒性的计算,对总体居民日常出行规律性的把握具有重要的现实意义。


技术实现要素:

4.本发明的目的是利用移动终端个体在较长时间范围(建议3个月以上)内的空间活动数据集,对大量个体的日常时空活动数据进行提取,通过比较分析个体在不同时间段内空间活动的规律性,进而计算个体时空活动的鲁棒性,并对其结果进行校验获取其显著性指标。为了达到上述目的,本发明的技术方案提供了一种大数据环境下个体时空活动鲁棒性计算方法,包括以下步骤:步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行数据,构建个体出行轨迹数据集,以t时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到m
×
n大小的二维空间格网中,建立个体时空格网序列;步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。
5.优选地,所述步骤1包括:步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,初步构建由个体和固定传感器通信记录构成的个体出行数据,个体和固定传感器之间通信记录提取方法参见申请号为201710535039.7的中国专利。具体方法为读取信令记录,解密后转化经纬度坐标为地理坐标,根据用户编号查询其指定时间段内通信记录,构建用户出行轨
迹数据集;步骤1.2、根据步骤1.1得到的个体出行数据,按时间顺序排序,采用二次曲线拟合个体连续的出行轨迹连续函数,以t为时间间隔计算个体在各个时间点的x-y坐标,生成一系列插值点,根据插值点构建个体时空活动轨迹,个体时空活动轨迹的构建方法参见申请号为201710843841.2的中国专利。具体方法为遍历由个体和固定传感器通信记录构成的初步的个体出行数据按通信时间排序,从时间起点开始每3个通信记录点依次拟合二次曲线,从整点出发等间隔构成一个插值点,其坐标为2条拟合曲线均值,最终所有插值点按顺序排序,构成用户出行时空序列;步骤1.3、以个体所在城市的空间范围为边界,生成一个m
×
n的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的x-y编号替代个体时空活动轨迹中的x-y坐标,建立个体的时空格网序列;优选地,所述步骤2包括:步骤2.1、以时间间隔it为单位,将个体的时空格网序列截断为多条可比较的序列;步骤2.2、基于等位节点比较的思想,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:式中, 表示两条序列的等位点t的相似性,其上限为k;k表示两条序列的等位点所在空间位置完全一致情况下的权重;表示序列i在点位t所在的格网;表示序列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;表示距离衰减系数;表示两条序列为点位t的格网距离,。
6.在此基础上,两条序列i和j之间的模糊相似度计算公式可表示为:式中,表示序列i和序列j之间的相似性,其上限为k;t表示两条序列的时间节点数;步骤2.3 基于序列之间的模糊相似度计算方法,设计针对模糊相似性的聚类算法,对个体的时空格网序列进行初步聚类,从中筛选出主要的类别;
步骤2.3.1 初始化聚类算法,将个体的每条序列都定义为一个独立的聚类,若个体有n条序列,则初始化阶段存在n个聚类;步骤2.3.2 设定聚类的容差范围d,遍历个体所有的时空格网序列,将序列两两比较,计算两个序列之间的模糊相似度,若两个序列之间的模糊相似度大于d,则将两个序列所在的聚类合并;步骤2.3.3 反复遍历个体的时空格网序列,直到无法再合并已有聚类;步骤2.3.4 根据聚类规模下限参数s,从中选取具有较大规模的聚类,根据聚类中包含的时空格网序列的日期,分析聚类中序列的日期类型特征,如工作日、周末、节假日等;步骤2.4 根据序列之间的模糊相似度,依次计算不同聚类中个体时空格网序列的鲁棒性值,其计算公式可表示为:式中,表示聚类k中个体时空格网序列的鲁棒性,其上限为k,表示聚类k的时空格网序列集合,n表示聚类中各个时空格网序列的节点数量;优选地,所述步骤3包括:步骤3.1 针对不同活动空间的个体,生成大量随机样本;步骤3.1.1 获取需要校验的个体每个聚类的空间活动范围,即每个聚类中,个体在时空活动过程中经过空间格网的多边形包络体;步骤3.1.2 提取聚类中个体时空格网序列相邻节点在x轴和y轴上的平移步长分布特征,将其拟合为正态分布形式,获取期望和方差;步骤3.1.3 以布朗运动的形式,在该多边形上随机生成大量包含了n个节点的时空格网序列:式中,为个体时空活动的随机步长,服从正态分布,ρ为正态分布的方差,;步骤3.2 计算随机样本鲁棒性指标,获取个体时空活动鲁棒性的校验区间th;步骤3.2.1 采用步骤2.2,计算聚类中个体时空格网序列之间的相似度,采用步骤2.4,计算其时空格网序列的鲁棒性,取所有的随机样本的鲁棒性均值为;步骤3.2.2 根据步骤2.4,越高,个体时空格网序列的鲁棒性越高,则鲁棒性
的判定上限为k,下限为,表示若与k的距离小于与k的距离的1%,则说明个体的时空活动不是随时间随机变化的,具备鲁棒性;步骤3.3 根据鲁棒性校验区间,校验各个聚类的时空格网序列鲁棒性;步骤3.4 根据个体的时空格网序列中聚类数量和各个聚类的鲁棒性特征,对个体日常活动的鲁棒性进行判断。
7.本发明基于移动终端大数据,通过对其进行处理和筛选,获取个体所持移动终端和传感器之间的通信记录,构建出个体出行的时空序列数据,通过插值构建等时间间隔的个体出行时空轨迹,并将其投射到二维格网上,建立个体时空格网序列数据;以此为基础,设计个体时空活动鲁棒性计算方法,通过比较个体在不同时段的时空格网序列之间的相似性,对个体的大量时空格网序列进行初步的聚类,针对每个聚类,计算其鲁棒性值;采用随机校验的方法,基于个体在时空格网序列聚类中的空间移动特征,随机生成大量个体时空活动样本,统计其鲁棒性计算值的分布特征,获得个体时空活动鲁棒性的校验区间,实现对个体时空活动鲁棒性的判断和校验。
8.本发明的优点是:充分依托现有的用户持有的移动终端与传感器之间的通信大数据资源,对个体的时空活动特征进行高效、准确、即时的分析和掌握,可以快速有效地判断个体的时空活动是否具有鲁棒性,其对时间变化的反应是否敏感,判断其规律性和可预测性,可以为大量个体的中短期交通出行需求提供准确的预测。
附图说明
9.图1 总体流程图。
具体实施方式
10.为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
11.步骤1、读取从传感器运营商获取匿名加密移动终端传感器数据,提取个体的出行活动数据,构建个体出行活动轨迹数据集,以t时间为间隔对出行数据的空间位置进行插值,构建等时间间隔的个体时空活动轨迹,将时空活动轨迹投射到m
×
m大小的二维空间格网中,建立个体时空格网序列;步骤1.1、读取从传感器运营商获取匿名后的个体加密移动终端传感器数据,初步构建由个体和固定传感器通信记录构成的个体出行数据;在本例中,个体和固定传感器之间的通信记录由记录编号recordid、个体编号epid、通信类型type、时间戳timestamp、传感器所在大区编号regioncode、传感器编号sensorid组成,见表1:表1:匿名个体位置信息解密后的手机信令记录数据recordidepidtypetimestampregioncodesensorid
………………………………
r1329e1t109:45:3492207264r1330e1t209:58:2392207264
n13015:30:0012348.83 2777.35 n13115:35:0012398.80 2872.78 n13215:40:0012430.91 2947.47
ꢀ……………………
步骤1.3、以个体所在城市的空间范围为边界,构建一个m
×
n的二维格网去覆盖整个城市,然后将个体时空活动轨迹投射到二维格网中,以格网的x-y编号替代个体时空活动轨迹中的x-y坐标,建立个体的时空格网序列;在本例中,令t=5分钟,m=50,n=50,则个体的时空格网序列见表3:表3个体时空格网序列nodeidtimexy
……………………
n6812:05:004338n6912:10:004438n7012:15:004438n7112:20:004539n7212:25:004641n7312:30:004641n7412:35:004842n7512:40:004942n7612:45:005042
……………………
n12415:00:004227n12515:05:004328n12615:10:004330n12715:15:004431n12815:20:004533n12915:25:004634n13015:30:004736n13115:35:004837n13215:40:004939
……………………
步骤2、在鲁棒性概念中引入模糊思想,设计个体时空活动鲁棒性的计算方法,通过两两比较个体时空格网序列中等位点之间的模糊相似度,计算两两时空格网序列之间的相似性,进而对时空格网序列进行初步聚类,对每个聚类中的个体时空活动的鲁棒性进行数值计算;步骤2.1、以时间间隔it为单位(建议为日),将个体的时空格网序列截断为多条可比较的序列;在本例中,时间间隔it的单位为天(1日),个体的时空格网序列i和时空格网序列j见表4:
表4 个体时空格网序列比较nodeidtimexiyixjyj
………………………………
n6812:05:0043384338n6912:10:0044384537n7012:15:0044384537n7112:20:0045394538n7212:25:0046414541n7312:30:0046414540n7412:35:0048424741n7512:40:0049424843n7612:45:0050424942
………………………………
n12415:00:0042274029n12515:05:0043284429n12615:10:0043304529n12715:15:0044314532n12815:20:0045334533n12915:25:0046344836n13015:30:0047364936n13115:35:0048374837n13215:40:0049394938
………………………………
步骤2.2、基于等位节点比较的方法,考虑到时空插值中不可避免的误差存在,引入模糊思想,设计两两时空格网序列的模糊比较算法,计算两条序列之间的模糊相似度,其中序列内等位点之间的模糊相似度计算公式可表示为:式中,表示两条序列的等位点t的相似性,其上限为k;k表示两条序列的等位点所在空间位置完全一致情况下的权重;表示序列i在点位t所在的格网;表示序列i在点位t所在格网的邻居,如冯诺依曼邻居、摩尔邻居和扩展摩尔邻居等;表示
距离衰减系数;表示两条序列为点位t的格网距离,。
12.在此基础上,两条序列i和j之间的模糊相似度计算公式可表示为:式中,表示序列i和序列j之间的相似性,其上限为k;t表示两条序列的时间节点数;在本例中,我们采用摩尔邻居作为节点邻居的判别规则,令k=1, =1,则两条序列中节点的相似性见表5:表5 时空格网序列中节点的相似性nodeidtimexiyixjyjk
……………………………………
n6812:05:00433843381n6912:10:00443845370.14 n7012:15:00443845370.14 n7112:20:00453945380.37 n7212:25:00464145410.37 n7312:30:00464145400.14 n7412:35:00484247410.14 n7512:40:00494248430.14 n7612:45:00504249420.37
ꢀ……………………………………
n12415:00:00422740290.00 n12515:05:00432844290.14 n12615:10:00433045290.00 n12715:15:00443145320.14 n12815:20:00453345331.00 n12915:25:00463448360.00 n13015:30:00473649360.00 n13115:35:00483748371.00 n13215:40:00493949380.37
ꢀ……………………………………
步骤2.3 基于序列之间的模糊相似度计算方法,设计针对模糊相似性的聚类算法,对个体的时空格网序列进行初步聚类,从中筛选出主要的类别;步骤2.3.1 初始化聚类算法,将个体的每条序列都定义为一个独立的聚类,若个体有n条序列,则初始化阶段存在n个聚类;
步骤2.3.2 设定聚类的容差范围d,遍历个体所有的时空格网序列,将序列两两比较,计算两个序列之间的模糊相似度,若两个序列之间的模糊相似度大于d,则将两个序列所在的聚类合并;步骤2.3.3 反复遍历个体的时空格网序列,直到无法再合并已有聚类;步骤2.3.4 定义聚类规模下限参数s,表示聚类中的序列占序列总数百分比的下限,从中选取具有较大规模的聚类,根据聚类中包含的时空格网序列的日期,分析聚类中序列的周期性;在本例中,设定聚类的容差范围d=0.5,聚类规模下限参数s为5%,则个体的时空格网序列可被聚类成2大类,其中第一类占比65%,第二类占比25%,第一类和第二类序列的日期见表6,从其时间分布来看,其主要分布特征是工作日和周末:表6 两个聚类中时空格网序列的日期
第一类聚类第二类聚类
……
2021年6月1日、2021年6月2日、2021年6月3日、2021年6月4日、2021年6月7日、2021年6月8日、2021年6月10日、2021年6月14日、2021年6月15日、2021年6月16日、2021年6月17日、2021年6月22日、2021年6月24日、2021年6月25日、2021年6月28日、2021年6月29日、2021年6月30日、2021年7月1日、2021年7月2日
…………
2021年6月5日、2021年6月6日、2021年6月12日、2021年6月13日、2021年6月19日、2021年6月27日、2021年7月3日、2021年7月4日
……
步骤2.4 根据序列之间的模糊相似度,依次计算不同聚类中个体时空格网序列的鲁棒性值,其计算公式可表示为:式中,表示聚类k中个体时空格网序列的鲁棒性,其上限为k,表示聚类k的时空格网序列集合,n表示聚类中各个时空格网序列的节点数量;在本例中,个体两个主要的时空格网序列聚类的鲁棒性值分别为0.68和0.72;步骤3、通过统计大量随机生成的个体时空格网序列样本的鲁棒性分布规律,设计个体时空活动鲁棒性校验方法,对计算得到的个体鲁棒性值进行校验。
13.步骤3.1 针对不同活动空间的个体,生成大量随机样本;步骤3.1.1 获取需要校验的个体每个聚类的空间活动范围,即每个聚类中,个体在时空活动过程中经过的空间格网的多边形包络体;步骤3.1.2 提取聚类中个体时空格网序列相邻节点在x轴和y轴上的平移步长分布特征,将其拟合为正态分布形式,获取期望μ和方差σ;步骤3.1.3 以布朗运动的形式,在该多边形上随机生成大量包含了n个节点的时空格网序列:式中,为个体时空活动的随机步长,服从正态分布,为正态分布的方差,
;在本例中,计算得到的期望μ和方差σ分别为1.34和74.23;步骤3.2 计算随机样本鲁棒性指标,获取个体时空活动鲁棒性的校验区间th;步骤3.2.1 采用步骤2.2,计算聚类中个体时空格网序列之间的相似度,采用步骤2.4,计算其时空格网序列的鲁棒性,取所有的随机样本的鲁棒性均值为;在本例中,计算得到鲁棒性均值为0.22;步骤3.2.2 根据步骤2.4,越高,个体时空格网序列的鲁棒性越好,则鲁棒性的判定上限为k,下限为,表示若与k的距离小于与k的距离的10%,则说明个体的时空活动不是根据时间随机变化的,具备鲁棒性;在本例中,鲁棒性校验区间为[0.71,1];步骤3.3 根据鲁棒性校验区间,校验各个聚类的时空格网序列鲁棒性;在本例中,个体工作日的时空格网序列聚类没有通过鲁棒性检验,休息日的时空格网序列聚类通过了鲁棒性检验,具备鲁棒性;.步骤3.4 根据个体的时空格网序列中聚类数量和各个聚类的鲁棒性特征,对个体日常活动的鲁棒性进行判断;在本例中,个体在休息日的时空活动存在很强的规律性,其随时间的变化幅度很小,具有较高的鲁棒性,对交通出行需求的预测方面较为可靠,个体在工作日的时空活动鲁棒性没有通过检验,其活动规律受时间影响大于休息日,可预测性较低。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1