本发明涉及旅游客流量预测,尤其涉及一种残差门控循环神经网络旅游客流量实时预测方法。
背景技术:
1、近年来国内旅游人数激增,旅客主要集中在节假日出行,大量游客涌入知名景点,导致一部分景区出现“欠载”,而一部分景区出现“超载”,甚至发生拥挤踩踏事件。这类现象严重影响了游客的出行体验,不利于景区的可持续性发展。
2、旅游客流量数据具有非线性特征强、短期波动大、明显季节性的特征。历史数据来源方面,由于传统预测方法的数据大多来自政府或者相关部门的统计报告,这些数据往往存在滞后性,数据量也较小,难以达到模型精确预测的要求。预测方法方面,针对旅游客流量数据的处理、分析和预测方面,运用传统的计算、评估方法很难实现准确的预测。预测粒度方面,目前景区客流量预测大部分是长期客流量预测,预测粒度较粗,通常只能精确到月,对于细时间粒度的预测准确性尚不够好。这几个方面的因素糅合在一起,很大程度上限制了景区旅游客流量预测的有效性。
3、由于缺乏科学有效且较为直观的景区日客流量预测方法,相关部门发布的数据往往具有滞后性,难以对旅客在制定旅行计划时进行有效的支持和引导。
技术实现思路
1、本发明解决的技术问题是:在于解决旅游客流量实时预测中因数据量过小导致的过拟合问题和短期预测中存在的精度问题。
2、为解决上述技术问题,本发明提供如下技术方案:一种残差门控循环神经网络旅游客流量实时预测方法,包括收集原始数据集;对所述原始数据集进行预处理;将预处理后的原始数据集输入预先构建的attention-rgru模型,提取数据初级特征,将所述初级特征输入注意力机制模块,提取深层特征,将所述深层特征输入预先构建的残差门控循环神经网络,获取输出结果;对所述残差门控循环神经网络进行训练,直到所述预测结果符合精度要求;将当前精度下的所述残差门控循环神经网络参数保存,用作实时流量在线预测。
3、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:获取收集数据包括:
4、获取目标区域历史旅游数据;
5、并根据时间顺序整理为原始数据集。
6、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:对所述原始数据集进行预处理包括缺失值填补、标准化处理和数据集划分;
7、通过随机森林算法对缺失值填补,其数学表达式为:
8、
9、
10、其中,k表示类别个数,t表示叶子节点数,reject表示不符合情况不做操作,hi表示样本x上的预测输出表示为一个n维向量表示hi在类别cj的输出,wi表示个体学习器hi的权重,通常要求:
11、
12、标准化处理的数学表达式为:
13、x′=(x-μ)/σ
14、其中,x′表示标准化后的特征,x表示原始特征,μ表示均值,σ表示标准差;
15、数据集划分包括:
16、将标准化处理的数据集按比例划分训练集、验证集和测试集。
17、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:将预处理后的原始数据集输入预先构建的attention-rgru模型,提取数据初级特征,将所述初级特征输入注意力机制模块,提取深层特征,将所述深层特征输入预先构建的残差门控循环神经网络,获取输出结果包括:
18、将预处理后的原始数据集输入预先构建的attention-rgru模型,提取数据初级特征包括:
19、将预处理后的原始数据集输入attention-rgru模型的输入层;
20、将时间序列数据转换为二维图像输入卷积层进行卷积处理,卷积层的数学表达式为:
21、
22、其中,1×t表示卷积核大小,hi,j表示第i个行向量和第j个卷积核输出的结果,w表示卷积核个数,l表示输入卷积层的时间图像的行;
23、将卷积后的原始数据输入批归一化层,进行批归一化处理,其数学表达式为:
24、x′=(xi-xmin)/(xmax-xmin)
25、其中,x′表示归批一化后的特征,xi表示原始特征,xmin是所有特征中的最小值,xmax表示所有特征的最大值;
26、将批归一化处理后的的原始数据输入激活函数层进行非线性变换处理,所述激活函数为relu函数,其数学表达式为:
27、f(x)=max(0,x)
28、其中,x表示输入,f(x)表示在0和x中取两者最大值。
29、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:将所述初级特征输入注意力机制模块,提取深层特征包括:
30、所述注意力机制模块具体包括第一注意力机制层、激活函数层和第二注意力机制层:
31、第一注意力机制层用于提取深层特征,将每个特征乘以相应的权重,获得带有权重的特征,其数学表达式为:
32、q=wqx
33、k=wkx
34、v=wvx
35、a=ktq
36、a′=soft max(a)
37、t=va′
38、其中,x为输入向量;wq、wk、wv是需要学习的参数矩阵;q为目标值矩阵,由参数矩阵wq与输入向量x计算得到,用于计算与kt的相似度;kt为关键词矩阵,由参数矩阵wk与输入向量x计算得到,用于与q进行相似度计算;v为原始矩阵,由参数矩阵wv与输入向量x计算得到,用于与a’经过进行计算得到权重;a为q与kt进行相似度计算后得到的矩阵;a′为a经过soft max得到的矩阵;t为权重矩阵;
39、经过激活函数层进行非线性变换处理的初级特征,通过第一注意力机制层处理后,再次进入激活函数层,所述激活函数为relu函数;
40、再次经过激活函数层处理,输入第二注意力机制层,将每个特征乘以相应的权重并相加,提取数据的深层特征,其数学表达式为:
41、
42、其中,attention(q,k,v)表示第一注意力机制层的权重矩阵t,dk表示距离平方。
43、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:将所述深层特征输入预先构建的残差门控循环神经网络,获取输出结果包括:
44、残差门控循环神经网络包括第一残差块、第二残差块、第一门控循环神经网络层和第二门控循环神经网络层,第一残差块和第二残差块结构相同;
45、首先经过第二注意力机制层处理的初级特征一次进入第一残差块和第二残差块,第一残差块和第二残差块的数学表达式为:
46、y=f(x)+x
47、其中,x为输入,f(x)表示代表卷积操作;
48、第二残差块处理输出的数据输入第一门控循环神经网络层,第一门控循环神经网络层用于初步建立时序关系并学习历史数据走势;
49、经过第一门控循环神经网络层处理的数据输入第二门控循环神经网络层,第二门控循环神经网络层用于提取相关特征作预测;
50、第一门控循环神经网络层和第二门控循环神经网络层结构相同,其数学表达式为:
51、zt=σ(wzht-1+uzxt+bz)
52、rt=σ(wrht-1+urxt+br)
53、ht=(1-zt)ht-1+ztht
54、其中,zt表示更新门,rt表示重置门,x表示输入,ht-1表示隐藏状态即隐藏层输出结果,x与ht-1相加得到ht,wz、wr、wh、uz、ur、uh、bz、br、bh表示门控循环神经网络层的权重矩阵;
55、将第二门控循环神经网络层处理后的数据输入最大池化层进行降维处理;
56、经过降维处理的数据输入到全连接层,全连接层的输出作为模型预测结果输出,经过残差门控循环神经网络的数据向量是一个二维向量,对这个二维向量通过卷积核作降维处理,在当前池化核框住的值中取最大值,即最大池化,其数学表达式为:
57、n=(w-f+2p)/s+1
58、其中,n表示卷积层输出大小,w表示输入大小,f表示卷积核大小,p表示填充值大小,s表示步长大小;
59、池化核的数学表达式为:
60、
61、其中,hi,j表示第i个行向量和第j个池化核输出的结果,w表示行向量的个数;
62、将池化层的输出结果输入到全连接层,用于学习深层特征,激活函数为relu,其数学表达式为:
63、h0=relu(x@w1+b1)
64、h1=relu(h0@w2+b2)
65、out=relu(h1@w3+b3)
66、其中,x表示输入向量,w1、w2、w3表示三个隐藏层的权重向量,b1、b2、b3表示三个隐藏层的偏置,h0表示第一个隐藏层前向计算的结果,也就是对x与w1进行线性加权求和加上b1的结果进行relu函数计算,h1表示第二个隐藏层前向计算的结果,也就是对h0与w2进行线性加权求和加上b2的结果进行relu函数计算,out表示全连接层的输出,是第三个隐藏层前向计算的结果,也就是对h1与w3进行线性加权求和加上b3的结果进行relu函数计算,将全连接层的输出作为模型的预测结果。
67、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:对所述残差门控循环神经网络进行训练,直到所述预测结果符合精度要求包括:
68、预先给定一个实例的要求精度及阈值范围;
69、将残差门控循环神经网络训练得到的结果输出作为预测值,与真实值计算预测误差,用1减去预测误差得到模型的预测精度;
70、比较预先给定的要求精度和通过残差门控循环神经网络计算得到的预测精度,是否在先前给定的要求精度的阈值范围内;
71、若通过残差门控循环神经网络计算得到的预测精度预测精度在给定的要求精度的阈值范围内,则保存当前模型的参数,并将的预测结果作为最终预测结果,输出为实时预测的客流量;
72、若通过残差门控循环神经网络计算得到的预测精度预测精度不在给定的要求精度的阈值范围内,则证明模型训练效果未达预期,须对模型进行迭代训练,直至残差门控循环神经网络的预测精度进入给定的要求精度范围内。
73、作为本发明所述的残差门控循环神经网络旅游客流量实时预测方法的一种优选方案,其中:直到所述预测结果符合精度要求,将当前精度下的所述残差门控循环神经网络参数保存,用作实时流量在线预测包括:
74、经过训练的残差门控循环神经网络精度已迭代训练至符合精度范围要求,将当前精度下的最优模型参数保存,用作实时流量在线预测。
75、本发明的有益效果:首先进行数据收集与整理,通过随机森林算法对缺失特征值填补完成数据预处理,利用卷积模块对数据进行特征初步提取,通过注意力机制模块实现对数据特征的深层提取,在门控循环神经网络网络结构上增加残差块,解决梯度消失、爆炸的问题,经过池化层的降维与全连接层的处理输出旅游客流量预测值,实现旅游领域客流量实时预测。