本发明涉及一种城市轨道交通AFC系统实时进站客流量异常检测方法,属于城市轨道交通智能化技术。
背景技术:
城市轨道交通系统中的实时客流数据信息对地铁系统服务能力的提高至关重要。然而,由于AFC系统中的设备供应商的多样性以及实时数据传输过程的复杂性等原因,使得从AFC系统中获取的实时客流数据并不能完全反映运营实际情况,部分车站在某些时段的实时进站客流量与实际进站客流量差异较大,为了保证实时获取客流数据的质量,需要对实时获取的客流数据进行异常检测和纠错处理。通过对各车站、各时段客流量设定合理的阀值,可以有效判断实时获取的进站客流量是否为异常,故此过程中阀值上限和阀值下限的合理设定最为关键。
根据同车站、同时段客流分布符合正态分布的特点,利用“均值-三倍标准差法”确定客流阀值上下限是一种简便易行的方法,但由于样本数据本身存在异常值以及部分车站的季节性客流波动较大等原因,导致得出的阀值范围过大,不能有效地对实时获取的进站客流数据进行异常检测。
技术实现要素:
发明目的:为了解决现有的基于阀值的实时进站客流数据异常检测方法算得的阀值范围进行数据异常检测的检测效果不佳的问题,本发明提供一种城市轨道交通AFC系统实时进站客流量异常检测方法,该方法通过验证该序列的混沌特性来确定模型训练测试样本集,然后利用训练样本中各时段进站量预测残差序列的分布特性,从而确定未来时段的进站客流量异常检测的阀值上限和阀值下限。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种城市轨道交通AFC系统实时进站客流量异常检测方法,包括如下步骤:
(1)混沌时间序列的相空间重构:从进站客流数据的原时间序列中截取部分时间序列X={xi|i=1,2,…,K},应用C_C方法求得该部分时间序列的时间延迟τ和嵌入维数m;若该部分时间序列不混沌,则重新截取部分时间序列;若该部分时间序列混沌,则基于该部分时间序列对原时间序列进行相空间重构;xi为第i个样本的进站客流量数据,K为该部分时间序列包含的样本个数。
(2)序列混沌特性判定:根据步骤(1)求得的时间延迟τ和嵌入维数m,利用改进的小数据量法计算该部分时间序列的Lyapunov指数:若Lyapunov指数为正,则表示该部分时间序列混沌;否则,表示该部分时间序列不混沌;
(3)实时进站客流预测模型:从相空间重构后的原时间序列中截取出训练样本集和验证样本集,对各样本集输入部分的各列数据进行标准正态分布转换;将转换后的训练样本集带入到支持向量机回归模型中进行训练,同时采用大范围网格搜索寻优方法(使用该方法可优化支持向量机回归模型的参数,提升模型的预测效果)确定支持向量机回归模型惩罚系数C、不敏感系数ε和指数径向基核函数参数λ;
(4)预测值和实际值的残差分布:将转换后的验证样本集带入到支持向量机回归模型中进行训练,利用训练后的支持向量机回归模型对验证样本某时段进站客流量进行单步预测,由于同类日期(工作日和非工作日)、同车站总体上各时段的进站客流量变化规律相似,由K-S检验结果可知训练后的支持向量机回归模型预测的各时段的进站客流量与实际进站客流量之间的残差序列分布符合正态分布;以yj(i)表示第j天第i时段的实际进站客流量,以表示第j天第i时段的预测进站客流量,表示第j天第i时段的预测误差,e(i)表示同类日期第i时段的预测残差序列,则ej(i)满足正态分布,即:
e(i)~N(μ,σ2)
其中,μ为同类日期第i时段预测残差的总体平均值,σ为同类日期第i时段预测残差的总体标准差,N(μ,σ2)表示均值为μ、方差为σ2的正态分布序列;
利用训练后的支持向量机回归模型对验证样本集进行预测,得到的同类日期第i时段预测残差的样本平均值和样本标准差s(i)分别为:
其中,N为同类日期第i时段预测残差的样本数量;
(5)确定进站客流置信区间:根据数理统计相关知识可知进行如下分类考虑:
①当N>50时,σ≈s(i);在给定置信度1-α下,未来同类日期第i时段进站客流量置信区间为:
其中,为该未来同类日期第i时段进站客流量预测值,Zα/2为标准正态分布上的分位点;
②当N≤50时,σ≠s(i);在给定置信度1-α下,未来同类日期第i时段进站客流量置信区间为:
其中,tα/2(N-1)为t(N-1)分布(自由度为N-1的t分布)上的分位点;
由于实时进站客流量数值为整数,故需要对①和②计算得到的置信区间的下界向上取整、上界向下取整,取整后的置信区间左端点即为阀值下限,右端点即为阀值上限;
(6)实时进站客流量异常检测与处理方法:如果从AFC系统中实时获取的某车站、某一时段的进站客流量在相应的置信区间阈值范围内,则采信该值;否则,判断该进站客流量异常,采用训练后的支持向量机回归模型对该进站客流量进行预测,采信取整后的预测值。
具体的,所述步骤(5)中,当N>50时,σ≈s(i),即此时则构造变量则在给定置信度1-α下未来同类日期第i时段进站客流量置信区间由算出;当N≤50时,σ≠s(i),即不能由样本标准差算得总体标准差,此时,构造变量则给定置信度1-α下未来同类日期第i时段进站客流量置信区间由算出。
有益效果:本发明提供的城市轨道交通AFC系统实时进站客流量异常检测方法,通过采用支持向量机回归模型进行实时进站量客流预测,根据训练集工作日和非工作日各时段拟合残差序列统计分布特性,能够确定实时进站客流量异常检测阀值,可以有效收缩进站客流量的异常检测范围,并降低数据异常检测的误报率,强化对异常客流数据的检测能力,保证实时获取客流数据的准确性和及时性,为乘客信息服务系统、实时客流预测以及大客流预警等应用提供了可靠的数据支持,从而增强了地铁系统的服务能力。
附图说明
图1为本发明的实施流程图;
图2为2013年8月5日至18日大行宫站进站量分布图;
图3为2013年12月29日进站量异常检测阀值对比图;
图4为2013年12月31日进站量异常检测阀值对比图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种城市轨道交通AFC系统实时进站客流量异常检测方法,文采用改进的小数据量法计算进站客流时间序列的Lyapunov指数,验证该序列的混沌特性;利用C_C方法计算进站客流时间序列的时间延迟和最佳嵌入维数,并对该序列进行相空间重构,生成模型训练、验证和测试样本集;并利用大范围网格搜索法对支持向量机回归模型参数进行寻优;然后利用混沌支持向量机回归模型预测各时段的进站客流量,结合假设检验方法,利用同类日期同时段下训练集的拟合残差构造服从特定分布的随机变量,依次计算出各时段对应的进站客流预测残差在相应置信度下的置信区间,进而得到实际进站客流量的阀值上限和阀值下限,以期获得更有效的异常检测范围。
下面结合实施例对本发明做出进一步的说明。
本例数据源于南京地铁轨道交通二号线大行宫站2013年7月30日至2014年1月20日5:30-23:29之间的进站客流数据,进站客流数据的时间粒度取15分钟,该时间段内的进站客流数据的数学表示为X={xi|i=1,2,…,12600}。
Step1、序列混沌特性判定
选取长度K=3000的子时间序列X={xi|i=1,2,…,3000},应用C_C方法求得该部分时间序列的时间延迟τ和嵌入维数m,算得τ=3,m=15。
Step2、序列混沌特性判定
根据τ=3,m=15,利用小数据量法的改进方法求得该序列的最大Lyapunov指数λ1=0.06>0,故该地铁车站进站量时间序列具有混沌特性。
Step3、实时进站客流预测模型
对原混沌时间序列进行相空间重构,并以2013年7月30日至2013年9月24日的数据作为训练数据,2013年9月25日至2013年12月28日数据作为验证数据,2013年12月29日至2014年1月20日的数据作为测试数据,对训练、验证和测试数据集进行标准化转换后,运用采用大范围网格搜索寻优方法确定支持向量机回归模型惩罚系数C、不敏感系数ε和指数径向基核函数参数λ,寻优得到优化后模型参数C=360,ε=3,λ=0.03。
Step4、预测值和实际值的残差分布
选取2013年8月5日到8月18号两周的进站客流数据进行可视化如图2所示,可得知工作日的客流变化规律大致相同,非工作日间的客流变化规律亦大致相同,工作日与非工作日的客流分布情况差异较大;并由计算可知,训练样本集中工作日与非工作日各时段残差序列的统计参量值差别较大,故各时段的模型训练残差数据要区分工作日与非工作日,利用支持向量机回归模型得到模型训练样本中各时段进站量残差数据,进而获取工作日与非工作日各时段模型预测残差的统计参量值,即样本均值,样本方差,样本数。为了测试本模型对两类日期进站量异常检测的效果,现对2013年12月29日至2014年1月20日间的进站客流量数据进行有效性检验,并给出2013年12月29、31日(即周日和周二)两天阀值设定和异常检测的具体计算过程。
利用训练好的支持向量机回归模型得到2013年12月29日6:30至6:44时段(时段5)进站客流量预测值为实际进站客流量为y=27,对该类日期(非工作日)此时段训练样本残差序列进行K-S检验,以判断其分布情况,假定其服从正态分布,取显著性水平为0.05,运用SPSS Statistics算得检验概率值为0.995,远大于显著性水平,同时,对其余各时段残差序列数据进行K-S检验,其检验概率值皆大于显著性水平,所以可认为该类日期各时段的残差序列服从正态分布。该类日期时段5训练样本残差序列样本平均值样本标准差s(i)=20.44。
利用训练好的支持向量机回归模型得到2013年12月31日6:30至6:44时段(时段5)进站客流量预测值为实际进站客流量为y=120,对该类日期(非工作日)此时段训练样本残差序列进行K-S检验,以判断其分布情况,假定其服从正态分布,取显著性水平为0.05,运用SPSS Statistics算得检验概率值为0.665,远大于显著性水平,同时,对其余各时段残差序列数据进行K-S检验,其检验概率值皆大于显著性水平,所以可认为该类日期各时段的残差序列服从正态分布。该类日期时段5训练样本残差序列样本平均值样本标准差s(i)=15.12。
Step5、确定进站客流置信区间
对2013年12月29日6:30至6:44时段(时段5)分析,样本数N=27<50,因此,该时段残差序列的样本标准差与总体标准差偏差较大,将参数代入(5)式可得,该时段进站客流量在置信度为1-α=0.99的置信区间,即此时段进站客流量有效值范围为[0,87],其左右端点值即为所求阀值下限和阀值上限,其它时段的阀值计算以此类推,该天进站客流量异常检测阀值如图3所示。
对2013年12月31日6:30至6:44时段(时段5)分析,样本数N=68>50,因此,该时段残差序列的样本标准差约等于总体标准差,将参数代入(4)式可得,该时段进站量在置信度为1-α=0.99的置信区间,即此时段进站客流量有效值范围为[81,158],其左右端点值即为所求阀值下限和阀值上限,其它时段的阀值计算以此类推,该天进站客流量异常检测阀值如图4所示。
Step6、实时进站客流量异常检测与处理方法
如果从AFC系统中实时获取的某车站、某一时段的进站客流数据在阀值范围内,则采信该值;否,则可判定该进站客流数据异常,此时采用模型预测值取整后数据作为该时段的实时进站客流量。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。