高速公路通行费收入预测方法、系统、设备和存储介质与流程

文档序号:30701703发布日期:2022-07-09 20:02阅读:915来源:国知局
高速公路通行费收入预测方法、系统、设备和存储介质与流程

1.本技术涉及机器学习技术领域,特别是涉及高速公路通行费收入预测方法、系统、设备和存储介质。


背景技术:

2.随着我国高速公路的快速发展,高速公路通行费预测问题逐渐成为高速公路运营管理研究中的核心问题之一。良好的通行费预测方法是高速公路收费政策正常实施的保障,也是高速公路路网建设和发展的重要环节。
3.高速公路通行费预测有以下几个价值点:1、高速公路营运管理部门在进行目标规划时,可以根据通行费预测结果,更加科学、合理、有依据的制定未来经营收入目标。2、高速公路维修和养护部门在进行养护或维修作业时,可以根据通行费预测结果,选取对通行费收入影响最小的日期来进行作业。3、在高速公路管理部门规划新的道路与收费站时,根据通行费收入预测结果,辅助预估新道路或收费站的投入使用效果。这些业务场景,都需要一个相对准确的高速公路通行费预估方法,作为高速公路相关部门等制定政策、规划与决策的一项决策依据。
4.当前高速公路交通费预测算法大多基于arima等时间序列回归算法,该算法的拟合过程较为简单,回归误差较大,导致最终预测的结果准确性较低。


技术实现要素:

5.本技术实施例提供了一种高速公路通行费收入预测方法、系统、设备和存储介质,以至少解决相关技术中预测结果准确性低的问题。
6.第一方面,本技术实施例提供了一种高速公路通行费收入预测方法,包括:获取待预测的目标时间段;将在所述目标时间段之前的指定时间段的历史时序特征输入预训练的lstm模型,输出对所述目标时间段预测的通行费数据作为第一结果;将所述目标时间段输入预训练的prophet模型,输出对所述目标时间段预测的通行费数据作为第二结果;获取与所述目标时间段同时期的历史通行费数据作为第三结果;将所述第一结果、第二结果和第三结果融合,得出最终预测结果。
7.在其中一些实施例中,所述历史时序特征包括具有时序信息的门架通行数据、出口通行数据和时间维度数据。
8.在其中一些实施例中,所述门架通行数据的获得方式包括:采集门架系统数据,所述门架系统数据包括门架信息、车牌号、门架交易金额和门架交易时间;将所述门架系统数据按路段号和日期分别聚合通行费金额、通行费减免数、通行车辆数,得到所述门架通行数据;所述出口通行数据的获得方式包括:采集出口流水数据,所述出口流水数据包括出口站点信息、出口车牌、出口通行费和出口时间;将所述出口流水数据按路段号和日期分别聚合通行费金额和出口车辆数,得到所述出口通行数据;所述时间维度数据包括日期、星期、月份、季度、一年中的第几天、是否周末以及是否节假日。
9.在其中一些实施例中,所述历史时序特征通过如下方式处理:对特征数据进行清洗,去除缺失数据和异常数据;对清洗后的特征数据进行归一化;对归一化后的特征数据采用指数平滑算法进行平滑处理;对平滑处理后的特征数据进行筛选。
10.在其中一些实施例中,所述prophet模型基于时序通行费数据训练得到,所述时序通行费数据是指对应有日期和路段号的通行费数据。
11.在其中一些实施例中,所述时序通行费数据按时序依次排列时形成时间序列,所述prophet模型包括:
12.趋势函数,用于拟合时间序列中的分段线性增长或逻辑增长的非周期性变化;
13.季节性函数,用于拟合时间序列中每周和/或每年的季节性变化;
14.节假日效应函数,用于拟合时间序列中节假日带来的变化。
15.在其中一些实施例中,在所述获取待预测的目标时间段之前,所述方法还包括:获取每天的实时特征数据,并在每周日晚汇聚,得到新一周的特征数据,每周根据新一周的特征数据离线训练lstm模型和prophet模型。
16.第二方面,本技术实施例提供一种高速公路通行费收入预测系统,包括预测单元,且所述预测单元包括:
17.获取模块,用于获取待预测的目标时间段;
18.第一预测模块,用于将在所述目标时间段之前的指定时间段的历史时序特征输入预训练的lstm模型,输出对所述目标时间段预测的通行费数据作为第一结果;
19.第二预测模块,用于将所述目标时间段输入预训练的prophet模型,输出对所述目标时间段预测的通行费数据作为第二结果;
20.第三预测模块,用于获取与所述目标时间段同时期的历史通行费数据作为第三结果;
21.融合模块,用于将所述第一结果、第二结果和第三结果融合,得出最终预测结果。
22.第三方面,本技术实施例提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项所述的方法。
23.第四方面,本技术实施例提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项所述的方法。
24.相比于相关技术,本技术实施例提供的高速公路通行费收入预测方法,将lstm模型和prophet模型结合,提高了算法的精度;同时,将lstm模型和prophet模型的预测结果以及同时期的历史通行费数据进行了融合,从方案的整体上进行了改进,极大的提高了预测结果的准确性。另外,采用了多维度特征,特征更全面,训练出的模型预测能力更强,能够提高预测结果的准确性,使得预测结果与真实的高速公路通行费比较接近。进一步的,本技术实施例对数据实时采集和处理,提高了数据处理的实时性,并且,通过数据清洗、归一化处理、指数平滑、特征选择,增加了模型的泛化能力,减少过拟合情况。
附图说明
25.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
26.图1是根据本技术实施例的高速公路通行费收入预测方法的流程图;
27.图2是根据本技术实施例的去除异常数据的表达示意图;
28.图3是根据本技术实施例的lstm模型的表达示意图;
29.图4是根据本技术实施例的lstm模型学习过程的表达示意图;
30.图5是根据本技术实施例的模型训练阶段的流程图;
31.图6是根据本技术实施例的模型应用阶段的流程图;
32.图7是根据本技术实施例的高速公路通行费收入预测方法对某路段通行费预测的结果表达示意图;
33.图8是根据本技术实施例的高速公路通行费收入预测系统的结构框图;
34.图9是根据本技术实施例的电子设备的内部结构示意图。
具体实施方式
35.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
36.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
37.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
38.为了提高预测结果的准确性,本技术实施例提供一种高速公路通行费收入预测方法,图1是根据本技术实施例的高速公路通行费收入预测方法的流程图,如图1所示,该方法包括:
39.s101:获取待预测的目标时间段;
40.s102:将在该目标时间段之前的指定时间段的历史时序特征输入预训练的lstm模型,输出对目标时间段预测的通行费数据作为第一结果;
41.s103:将目标时间段输入预训练的prophet模型,输出对目标时间段预测的通行费数据作为第二结果;
42.s104:获取与上述目标时间段同时期的历史通行费数据作为第三结果;
43.s105:将第一结果、第二结果和第三结果融合,得出最终预测结果。
44.根据以上内容,本技术实施例将lstm模型和prophet模型结合,提高了算法的精度;并且,将lstm模型和prophet模型的预测结果以及同时期的历史通行费数据进行了融合,因此,从整体上进行了改进,极大的提高了预测结果的准确性。
45.在其中一些实施例中,考虑到通行费预估主要根据路段的历史通行费数据,通行费数据不仅与车流量有关,还呈现一定的周期性与趋势性,如在一周之内,通常周末会比周中要高;在一年之内,夏季通常比冬季要高,等等。因此,本技术实施例中的lstm模型基于具有时序信息的门架通行数据、出口通行数据和时间维度数据训练得到,采用了多维度特征,并使用多模型融合方式,预测的结果准确性高,与真实的高速公路通行费比较接近。
46.作为一个示例,上述门架通行数据的获得方式包括:采集门架系统数据,该门架系统数据包括门架信息、车牌号、门架交易金额和门架交易时间;将门架系统数据按路段号和日期分别聚合通行费金额、通行费减免数、通行车辆数,得到上述门架通行数据;
47.作为一个示例,上述出口通行数据的获得方式包括:采集出口流水数据,该出口流水数据包括出口站点信息、出口车牌、出口通行费和出口时间;将出口流水数据按路段号和日期分别聚合通行费金额和出口车辆数,得到上述出口通行数据;
48.作为一个示例,上述时间维度数据包括日期、星期、月份、季度、一年中的第几天、是否周末以及是否节假日。充分考虑到了高速公路车辆通行存在的节假日效应。相比于相关技术训练模型的特征只采用历史通行费一项,无法利用其他特征,造成关键信息缺失,如车流量信息、节假日信息等。本技术实施例充分考虑多维因素,特征更加全面,训练出的模型准确性更高,所以能提高预测结果的准确性。
49.在其中一些实施例中,prophet模型基于时序通行费数据训练得到,该时序通行费数据是指对应有日期和路段号的通行费数据,即每一个路段号在每一个日期对应有一个通行费数据,例如路段号132在日期2021年2月16日的通行费数据为3455元,路段号132在日期2021年2月17日的通行费数据为3150元等等,针对该路段号132,时序通行费数据按时序依次排列时形成时间序列。prophet模型包括趋势函数、季节性函数和节假日效应函数,趋势函数用于拟合时间序列中的分段线性增长或逻辑增长的非周期性变化;季节性函数用于拟合时间序列中每周和/或每年的季节性变化;节假日效应函数用于拟合时间序列中节假日带来的变化。从多角度拟合,模型的拟合能力更强,能够进一步提高预测结果的准确性。
50.在其中一些实施例中,需要训练lstm模型和prophet模型。比如,已拥有2021年1月1日-2021年12月31日的时序特征和时序通行费数据,在训练lstm模型时,使用预测时间前90天的时序特征来预测之后30天的时序通行费数据,计算预测值和真实值的损失,并更新模型参数。举例而言,将2021年1月1日-2021年3月31日的时序特征输入lstm模型,输出对2021年4月1日-2021年4月30日预测的时序通行费数据,再基于2021年4月1日-2021年4月30日真实的时序通行费数据和预测的时序通行费数据,计算损失,并更新模型参数;同理,基
于2021年1月2日-2021年4月1日的时序特征预测2021年4月2日-2021年5月1日的时序通行费数据,基于2021年1月3日-2021年4月2日的时序特征预测2021年4月3日-2021年5月2日的时序通行费数据
……
,在每个阶段都基于预测值和真实值计算损失,并更新模型参数,直到模型的损失收敛,停止训练。
51.在预测阶段,即模型的使用阶段,比如,需要预测未来目标时间段(即30天,2022年1月1日-2022年1月30日)的时序通行费数据,那么将此前的指定时间段(即90天,2021年10月3日-2021年12月31日)的时序特征输入预训练的lstm模型,输出对目标时间段预测的时序通行费数据。
52.对prophet模型,训练数据是2021年1月1日-2021年12月31日的时序通行费数据。在预测阶段,输入待预测的目标时间段(即输入参数为30,指未来30天,也就是2022年1月1日-2022年1月30日),可以得到对该目标时间段预测的时序通行费数据。
53.优选的,获取每天的实时特征数据,并在每周日晚汇聚,得到新一周的特征数据,每周根据新一周的特征数据离线训练lstm模型和prophet模型,及时的训练模型,能够提高实时性,从而提高模型预测的准确度。
54.在其中一些实施例中,原始的特征数据经过如下方式处理后再用于训练模型:对特征数据进行清洗,去除缺失数据和异常数据;对清洗后的特征数据进行归一化;对归一化后的特征数据采用指数平滑算法进行平滑处理;对平滑处理后的特征数据进行筛选。从而,能够增加模型的泛化能力,减少过拟合情况。
55.为了对本技术实施例进行更清楚的说明,下文示例以详细描述。
56.本技术实施例中,最底层的是大数据平台和流处理平台,存放实时接入的数据,数据采集层实时从前端门架工控机上和收费站出口采集车辆行驶数据,将数据经过etl处理后落入大数据平台中进行数据存储,此处借助分布式的数据处理技术,数据处理量大,效率高,建模流程包括数据预处理、特征工程、模型训练和模型测试评估,然后,将lstm模型和prophet模型部署在计算平台;在应用时,通过将lstm模型和prophet模型预测的结果以及同时期的历史通行费数据融合,输出最终预测的结果。
57.首先,例如数据来源如下:
58.高速公路通行费表(mysql):dws_settlement_income
59.重要字段:日期、路段号、通行费数;
60.门架:dws_gantry_income_result_dt
61.重要字段:路段号、通行费金额、优惠金额、免费金额、交易数;
62.出口:dws_exit_income_result_dt
63.重要字段:路段号、收费金额、车辆数。
64.从数据来源采集原始数据,并制作数据集,主要包括四个部分:第一部分是沪杭甬高速公路每天收入的通行费数据,称为时序通行费数据,包括日期、路段号、通行费数据等;第二部分是沪杭甬高速公路的门架系统数据,包括门架信息、车牌号、门架交易金额、门架交易时间等;第三部分是沪杭甬高速公路的出口流水数据,包括出口站点信息、出口车牌、出口通行费、出口时间等;第四部分是时间维度数据,包括日期、星期、月份、季度、一年中的第几天、是否周末、是否节假日等。
65.原始数据中,门架系统数据和出口流水数据需要进行加工,门架系统数据按路段
号和日期分别聚合通行费金额、通行费减免数、通行车辆数,得到门架通行数据;出口流水数据按路段号和日期分别聚合通行费金额、出口车辆数,得到出口通行数据。
66.数据加工完成后,划分成三部分:训练数据集,验证数据集和测试数据集。将训练数据集用于模型训练;验证数据集用来为训练数据集生成的模型提供无偏估计;测试数据集通过评价函数来评估训练生成模型的准确率。
67.接着,对这四个部分的数据进行预处理和特征工程。预处理包括数据清洗步骤,由于某些原因如门架交易数据缺失、高速公路封闭、节假日通行免费等,会造成部分数据存在异常,所以先去除缺失数据,然后去除异常数据。图2是根据本技术实施例的去除异常数据的表达示意图,如图2所示,在去除异常数据时,考虑到绝大多数数据在一个固定箱体范围内,所以超出箱体上下边缘(即上限和下限)的点则作为异常值进行去除。设数据的上四分位数为q1,下四分位数为q3,则
68.iqr=q
3-q169.下限值=q
1-1.5*iqr
70.上限值=q3+1.5*iqr
71.若数据高于上限值或低于下限值则认为是异常数据。
72.特征工程包括数据归一化、平滑处理和特征选择,具体如下:
73.数据归一化:由于各个数据之间的量级相差比较大,比如通行费是百万~千万的量级,车辆数是万的量级,星期是1~7,日期在一年中是第几天的范围是1~365,等等,这样导致模型很难在各个特征维度上收敛,因此需要对特征进行归一化处理,使不同量纲特征处于同一数量级,减少方差大的特征的影响。归一化使用如下方法:
[0074][0075]
其中μ和σ代表样本的均值和标准差,x
*
是归一化后的数值,x是归一化前的数值。
[0076]
预测结果的通行费数据在百万~千万的量级,为了使模型训练时收敛更快,因此将通行费数据进行对数变换
[0077]y′
=lny
[0078]
模型预测出结果后,将结果进行相应的指数变换,即可得到最终预测值:
[0079]
y=ey′
[0080]
平滑处理:由于通行费数据每天波动较大,为了得到较好的回归效果,减少方差,本技术实施例使用指数平滑法对通行费数据进行平滑处理。
[0081]
指数平滑法的基本思想是先对原始数据进行处理,处理后的数据称为“平滑值”,然后再根据平滑值经过计算构造预测模型,用于计算未来预测值。其原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。据平滑次数不同,指数平滑法分为一次指数平滑法、二次指数平滑法和三次指数平滑法等。指数平滑法的预测模型为
[0082]yt+1
=αx
t
+(1-α)y
t
[0083]
其中,x
t
为时间t的实际值,y
t
为时间t的预测值,α为指数平滑系数。
[0084]
二次指数平滑法计算过程:
[0085]
[0086][0087]
式中,为一次指数平滑值,为二次指数平滑值。
[0088]
若时间序列x1,x2,...,x
t
从某时刻开始具有直线趋势,且认为未来时期亦按此直线趋势变化,可用如下直线趋势模型来预测:
[0089]yt+t
=a
t
+b
t
t,t=1,2,...
[0090]
式中,a
t
为截距,b
t
为斜率,其计算公式为:
[0091][0092][0093]
三次指数平滑法计算过程:
[0094][0095][0096][0097]
式中,为三次指数平滑值,其预测模型为:
[0098]yt+t
=a
t
+b
t
t+c
t
t2,t=1,2,...
[0099]
式中,a
t
,b
t
,c
t
均为平滑系数,其计算公式为:
[0100][0101][0102][0103]
本技术实施例中,α取较大值(0.6~0.8),这样可以加重近期观测值的权数,使各期观察值的权数由近及远较快地变小。
[0104]
特征选择:根据可用的数据源和数据的质量,模型特征主要从路段基础数据、时间、门架信息、收费出口信息几个方面构造,经过筛选后留下以下14个特征,请见表1:
[0105]
表1是筛选后留下的特征
[0106]
特征名特征含义cal_date日期day月中第几天:1表示1号,2表示2号week年中第几周:1表示第1周,2表示第2周iso_dayofweek标准周中编号:周一表示1,周二表示2dayofyear年中第几天
monnum月份qtr季度编号:1表示第一季度isweekend是否为周末gantry_calc_income门架计算通行费收入gantry_free_car_fee门架计算免费车免费金额gantry_etc_free_income门架计算优惠金额gantry_deal_cnt门架交易数exit_income路段出口通行费收入holiday_1d_pre是否为节假日前一天。
[0107]
将上述第二到四部分的数据经过预处理和特征工程后,输入lstm(long short-term memory)模型,以训练该lstm模型,图3是根据本技术实施例的lstm模型结构的表达示意图,图4是根据本技术实施例的lstm模型学习过程的表达示意图,请参阅图3,对于时间序列问题,可以使用一个encoder-decoder的结构,encoder与decoder都使用lstm。lstm通过输入门、输出门、遗忘门的结构来实现信息的保护和控制。请参阅图3和图4,编码器将一个不定长的输入序列x1,x2,...,x
t
转化成一个定长的内容向量c,该内容向量编码了输入序列x1,x2,...,x
t
,设lstm网络单元为f,其隐状态向量为h
t
=f(x
t
,h
t-1
),则内容向量c是所有时刻隐状态向量的函数,即:c=q(h1,h2,...,h
t
)。编码器最终输出一个内容向量c,该内容向量编码了输入序列的信息。假设训练数据中的输出序列为y1,y2,...,y
t

,则输出序列的联合概率分布:
[0108][0109]
模型通过最大化似然函数来进行训练。
[0110]
另外,将上述第一部分的数据经过预处理和特征工程后,输入prophet模型,其将时间序列模型分解为三个主要的部分:趋势函数、季节性函数和节假日效应函数,按如下公式组合:
[0111]
y(t)=g(t)+s(t)+h(t)+∈
t
[0112]
其中,g(t)是趋势函数,用于拟合时间序列中的分段线性增长或逻辑增长等非周期变化;s(t)是季节性函数,表示周期变化,如每周/每年的季节性;h(t)是节假日效应函数,∈
t
为误差项。模型通过拟合这几项,然后将他们累加起来得到时间序列的预测值。
[0113]
上述趋势函数取分段线性趋势:
[0114]
g(t)=(k(t)+a(t)
t
δ)t+(m(t)+a(t)
t

[0115]
其中,k(t)是随着时间t变化的增长率,δ是增长率的变化量,m(t)是偏移量,a(t)表示在时间t之前突变点发生变化的次数,γ=-s
·
δ,s与突变点的选取有关。
[0116]
上述季节性函数使用傅里叶级数模拟,
[0117][0118]
其中p表示时间序列的周期长度,l表示时间序列长度。
[0119]
上述节假日效应函数可表示为:
[0120]
h(t)=z(t)k
[0121]
z(t)=[1(t∈d1),...,1(t∈d
l
)]
[0122]
k=(k1,...,k
l
)
t
[0123]
其中di表示节假日时间窗口序列,k是节假日影响参数。
[0124]
在其中一些实施例中,由于对比实验中不同的算法或超参数的设置不同,会生成多个模型,假设数据集为t,需要从中选取一个最优秀的模型作为最终的模型。最简单的方式是:用训练集t来训练每个模型mi得到超参数hi,然后选择最小误差率的超参数。但是这种方式有很大的问题,根据奥卡姆剃刀原理所述,虽然更高次多项式可以更好地拟合训练集,但是其泛化效果更差,容易过拟合。hold-out交叉验证在一定程度上解决了上述问题,并被广泛的使用。其步骤如下:
[0125]
(1)将数据集随机拆分成训练集t和验证集v,训练集和验证集的比率为8:2。
[0126]
(2)用训练集t来训练每个模型mi得到超参数hi。
[0127]
(3)将得到的超参数在验证集v上再次执行选取最小误差率的模型。
[0128]
经过以上几步操作,最佳的模型是在验证集上得到,这样做很大程度防止了训练集过拟合现象。此方法对于大数据量非常适用。
[0129]
在其中一些实施例中,评价模型的优劣程度采用均方根误差(root mean square error,rmse)或平均绝对误差(mean absolute error,mae)。
[0130]
rmse可以用如下公式表述:
[0131][0132]
mae可以用如下公式表述:
[0133][0134]
其中,n表示样本数量、yi表示第i个样本的真实值、表示第i个样本的预测值。
[0135]
在其中一些实施例中,图5是根据本技术实施例的模型训练阶段的流程图,如图5所示,每天早晨会对门架系统数据与收费站出口流水数据进行统计,并更新前一天实收的通行费数据,并记录时间维度数据,其中,门架系统数据、出口流水数据经过加工得到门架通行数据、出口通行数据,从而,可以获取每天的实时特征数据(包括门架通行数据、出口通行数据、时间维度数据和时序通行费数据),并在每周日晚汇聚,得到新一周的特征数据;每周对汇聚的特征数据进行预处理、特征工程处理后,离线训练lstm模型和prophet模型,其中,具有时序信息的门架通行数据、出口通行数据、时间维度数据输入lstm模型,时序通行费数据输入prophet模型。通过上述方式,提高了数据处理的实时性,能够提高最终预测结
果的准确性。然后,将训练完成的lstm模型、prophet模型和历史同期数据进行融合部署,相当于得到了一个融合模型。从而,能够将lstm模型和prophet模型预测的结果以及同时期的历史通行费数据融合,输出最终预测的结果。
[0136]
图6是根据本技术实施例的模型应用阶段的流程图,如图6所示,获取待预测的目标时间段(如未来30天,指2022年1月1日-2022年1月30日);将此前指定时间段(如90天,指2021年10月3日-2021年12月31日)的历史时序特征(包括具有时序信息的门架通行数据、出口通行数据和时间维度数据)输入预训练的lstm模型,输出对目标时间段预测的通行费数据作为第一结果;将目标时间段输入预训练的prophet模型,输出对目标时间段预测的通行费数据作为第二结果;获取与目标时间段同时期(如2021年1月1日-2021年1月30日)的历史通行费数据作为第三结果;将第一结果、第二结果和第三结果融合,得出最终对目标时间段的预测结果。图7是根据本技术实施例的高速公路通行费收入预测方法对某路段通行费预测的结果表达示意图,如图7所示,预测的结果与真实收入非常接近。
[0137]
综上,本技术实施例的高速公路通行费收入预测方法具有以下优势:
[0138]
(1)借助分布式的数据处理技术,数据处理量大,效率高;
[0139]
(2)引入门架通行数据与收费站出口通行数据,增加了特征维度,使模型获得更多信息,训练结果更准确;
[0140]
(3)通过数据清洗、归一化处理、指数平滑、特征选择,增加了模型的泛化能力,减少过拟合情况;
[0141]
(4)使用lstm算法结合prophet算法,基于多维数据进行训练,比使用单一维度历史数据训练,可以得到更准确的预测结果。
[0142]
本技术实施例还提供一种高速公路通行费收入预测系统,图8是根据本技术实施例的高速公路通行费收入预测系统的结构框图,如图8所示,该系统包括预测单元,该预测单元包括获取模块1、第一预测模块2、第二预测模块3、第三预测模块4、融合模块5。获取模块1用于获取待预测的目标时间段;第一预测模块2用于将指定时间段的历史时序特征输入预训练的lstm模型,输出对目标时间段预测的通行费数据作为第一结果;第二预测模块3用于将所述目标时间段输入预训练的prophet模型,输出对目标时间段预测的通行费数据作为第二结果;第三预测模块4用于获取与所述目标时间段同时期的历史通行费数据作为第三结果;融合模块5用于将第一结果、第二结果和第三结果融合,得出最终预测结果。
[0143]
在其中一些实施例中,上述系统还可以包括数据采集单元和数据处理单元,数据采集单元采集门架系统数据,该门架系统数据包括门架信息、车牌号、门架交易金额和门架交易时间;数据处理单元将门架系统数据按路段号和日期分别聚合通行费金额、通行费减免数、通行车辆数,得到具有时序信息的门架通行数据。
[0144]
数据采集单元还采集出口流水数据,出口流水数据包括出口站点信息、出口车牌、出口通行费和出口时间;数据处理单元还将出口流水数据按路段号和日期分别聚合通行费金额和出口车辆数,得到具有时序信息的出口通行数据
[0145]
数据采集单元还采集通行费数据并记录时间维度数据,通行费数据对应有路段号和日期,时间维度数据包括日期、星期、月份、季度、一年中的第几天、是否周末以及是否节假日。
[0146]
在其中一些实施例中,上述系统还包括模型训练单元,该模型训练单元基于具有
时序信息的门架通行数据、出口通行数据和时间维度数据训练lstm模型,并基于时序通行费数据训练prophet模型,该时序通行费数据是指对应有日期和路段号的通行费数据。
[0147]
在其中一些实施例中,上述训练单元、预测单元可以设于计算平台,采集单元可以设于大数据平台,数据处理单元可以设于流处理平台。
[0148]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0149]
本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0150]
另外,结合上述实施例中的高速公路通行费收入预测方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种高速公路通行费收入预测方法。
[0151]
本技术的一个实施例中还提供了一种电子设备,该电子设备可以是终端。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高速公路通行费收入预测方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0152]
在一个实施例中,图9是根据本技术实施例的电子设备的内部结构示意图,如图9所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种高速公路通行费收入预测方法,数据库用于存储数据。
[0153]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0154]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,
诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0155]
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0156]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1