预测模型训练、数据预测方法、装置、设备及存储介质与流程

文档序号:28861490发布日期:2022-02-12 01:00阅读:152来源:国知局
预测模型训练、数据预测方法、装置、设备及存储介质与流程

1.本发明实施例涉及数据处理技术领域,尤其涉及一种预测模型训练、数据预测方法、装置、设备及存储介质。


背景技术:

2.近年来,客流预测受到了各界广泛关注,在交通拥堵治理、城市规划等领域,客流预测能力都能带来较大的价值。
3.目前,区域人流量预测多数是使用时间序列预测方法。由于传统的线性回归算法仅对于线性时序数据能有较优的预测效果,因此对于非线性的时序数据需要使用lstm(long short-term memory,长短期记忆网络)或xgboost(梯度提升算法的机器学习函数库)等具备较优非线性拟合能力的算法进行预测。
4.发明人在实现本发明的过程中,传统的线性回归算法仅对于线性时序数据能有较优的预测效果,对于非线性时序数据的预测存在以下不足:(1)、客流预测的特征空间较大,逻辑回归的性能较差;(2)、容易欠拟合,造成客流预测的准确度较低;(3)、无法有效处理大量多类特征或变量;(4)无法有效利用客流预测的非线性特征。由此可见,现有的进行客流预测的线性回归算法的预测准确率较低。


技术实现要素:

5.本发明实施例提供一种预测模型训练、数据预测方法、装置、设备及存储介质,能够提高客流数据预测的准确性。
6.第一方面,本发明实施例提供了一种预测模型训练方法,包括:获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
7.第二方面,本发明实施例还提供了一种数据预测方法,其特征在于,包括:获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过第一方面所述的预测模型训练方法训练获得。
8.第三方面,本发明实施例还提供了一种预测模型训练装置,包括:全量客流量样本数据获取模块,用于获取目标地理区域的全量客流量样本数据;
其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;预设客流量预测模型训练模块,用于根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
9.第四方面,本发明实施例还提供了一种数据预测装置,包括:全量客流量实时数据获取模块,用于获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;客流量预测数据获取模块,用于将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过第一方面所述的预测模型训练方法训练获得。
10.第五方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的预测模型训练方法或数据预测方法。
11.第六方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的预测模型训练方法或数据预测方法。
12.本发明实施例通过利用获取的目标地理区域的全量客流量样本数据训练预设客流量预测模型,可以得到多维度客流量预测模型,以利用多维度客流量预测模型根据目标地理区域的全量客流量实时数据预测目标地理区域的客流量预测数据。由于全量客流量样本数据包括历史客流量数据、天气数据、客流量影响日期数据以及通行班次数据等多种非线性特征数据,因此多维度客流量预测模型可以综合考虑多种客流量影响因素进行客流量预测,解决现有非线性客流预测方法存在的客流数据预测的准确性较低等问题,从而提高客流数据预测的准确性。
附图说明
13.图1是本发明实施例一提供的一种预测模型训练方法的流程图;图2是本发明实施例二提供的一种预测模型训练方法的流程图;图3是本发明实施例二提供的一种数据服从正态分布的效果示意图;图4是本发明实施例二提供的一种历史客流量数据分布效果示意图;图5是本发明实施例三提供的一种数据预测方法的流程图;图6是本发明实施例三提供的一种多维度客流量预测模型对客流量的拟合效果示意图;图7是本发明实施例四提供的一种预测模型训练装置的示意图;图8是本发明实施例五提供的一种数据预测装置的示意图;
图9为本发明实施例六提供的一种计算机设备的结构示意图。
具体实施方式
14.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
15.另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
16.本发明实施例的说明书和权利要求书及附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
17.实施例一图1是本发明实施例一提供的一种预测模型训练方法的流程图,本实施例可适用于利用多维度的样本数据训练多维度客流量预测模型的情况,该方法可以由预测模型训练装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中。相应的,如图1所示,该方法包括如下操作:s110、获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项。
18.其中,目标地理区域可以是需要进行客流量预测的区域,如机场、火车站、客运站、公交站及地铁站等区域,只要存在客流量预测的区域均可以作为目标地理区域,本发明实施例并不对目标地理区域的区域类型进行限定。全量客流量样本数据可以是包括历史客流量数据以及客流量影响因素的多维度的样本数据。预测关联因素样本数据可以是影响客流量的环境因素的样本数据,可以包括但不限于天气数据、客流量影响日期数据以及通行班次数据等。其中,客流量影响日期数据可以是影响客流量的日期数据,如节假日数据或其他有特殊情况的日期等。通行班次数据可以是目标地理区域的交通工具的通信班次信息。例如,当目标地理区域为火车站时,通信班次可以是火车站中各个火车的班次数据。
19.在本发明实施例中,为了提高客流量预测模型的准确度,可以获取目标地理区域的包括历史客流量数据以及预测关联因素样本数据的全量客流量样本数据。可选的,历史客流量数据可以根据目标地理区域的历史用户位置样本数据确定,也可以直接利用目标地理区域所提供的历史客流量数据。需要说明的是,历史客流量数据的样本时间范围可以根据实际的业务需求确定数据的获取实际,如获取半年内或3个月内的历史客流量数据,本发明实施例并不对历史客流量数据的样本时间范围进行限定。另外,历史客流量数据可以包括进入客流量数据和离开客流量数据两种客流量统计类型。
20.可以理解的是,随着移动通信技术的发展,蜂窝信号基本覆盖城市的各个角落。因
此,手机信令数据也逐步积累。在本发明实施例中,可选的,可以采用用户位置样本数据确定历史客流量数据。其中,用户位置样本数据可以采用运营商用户信令位置统计样本数据。通过对运营商用户信令位置统计样本数据进行解析,可以识别出用户的出行规律和出行方式,并且在此基础上分析得出目标地理区域的用户移动规律的更有价值的信息。可选的,运营商用户信令位置统计样本数据可以通过电信运营商的用户位置快照数据获取。可选的,用户位置快照数据可以包括但不限于用户号码、快照时间以及所属基站id等字段。
21.示例性的,可以基于原始的位置信令数据,结合目标地理区域对应的基站id筛选并统计出目标地理区域的历史客流量。可选的,可以按照一定的数据统计周期解析历史客流量。例如,可以根据当前数据统计周期在区域内的用户在上一个周期和下一个周期是否在该目标地理区域的规则判断并统计区域的实时进入和实时离开客流量,从而实现根据位置信令数据提取出目标地理区域的历史客流量时间序列。可选的,可以按照预设的样本采集时间(如5分钟的采集周期)从原始的位置信令数据中采集全量客流量样本数据。
22.可以理解的是,目标地理区域通常会根据用户出入区域的情况对历史客流量数据进行统计。因此,历史客流量数据也还可以直接利用目标地理区域统计的真实客流量数据,从而保证样本数据的准确性。
23.同时,考虑到样本数据的密集性,在获取到目标地理区域的全量客流量样本数据之后,还可以按照一定的取样时间对全量客流量样本数据进行采样,并将采样得到的全量客流量样本数据训练预设客流量预测模型。例如,可以按照30分钟的时间周期对全量客流量样本数据进行采样,得到的全量客流量样本数据可以为30分钟为统计周期的样本数据。
24.另外还需说明的是,节假日期的客流量影响日期数据可以为预测客流高峰时间、人口移动规律提供重要的参考因素。同时,目标地理区域的通行班次和天气情况也会对客流量数据造成重要的影响。因此,在历史客流量数据的基础上,需要综合考虑天气数据、客流量影响日期数据以及通行班次数据等预测关联因素样本数据共同构建全量客流量样本数据,从而保证全量客流量样本数据的准确性。
25.s120、根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
26.其中,预设客流量预测模型可以是预先构建的客流量预测模型,经过训练后可以得到成熟的客流量预测模型。多维度客流量预测模型可以利用多维度的客流量影响因素根据实时客流量预测未来客流量。
27.相应的,在得到目标地理区域的全量客流量样本数据之后,即可根据全量客流量样本数据训练预设客流量预测模型,以确定预设客流量预测模型的成熟的模型参数,从而根据成熟的模型参数构建最终的多维度客流量预测模型。示例性的,假设预设客流量预测模型为神经网络模型,则预设客流量预测模型训练过程具体可以是:将全量客流量样本数据输入预设客流量预测模型的神经元进行正向传播,得到神经元输出结果。将神经元输出结果输入误差函数,并与期待值进行比较得到误差。进一步通过反向传播确定梯度度量,最后通过梯度度量来调整模型参数,调整的目的是神经元输出结果对应的误差趋于0或收敛。重复上述过程直到设定的训练次数或误差的平均值不再下降,则训练完成。由此可见,多维度客流量预测模型可以综合考虑多种客流量影响因素对客流量进行预测,从而保证了客流量预测的准确性。
28.可选的,在获取到目标地理区域的全量客流量样本数据之后,可以对全量客流量样本数据按照时间顺序进行训练集和测试集的划分。例如将全量客流量样本数据的前70%的数据划分为训练集,并将剩余的后30%的数据划分为测试集。当采用训练集对预设客流量预测模型得到多维度客流量预测模型之后,可以进一步采用测试集对多维度客流量预测模型进行测试,从而根据测试结果调整模型参数,以进一步提高多维度客流量预测模型的精准度。
29.本发明实施例通过利用获取的目标地理区域的全量客流量样本数据训练预设客流量预测模型,可以得到多维度客流量预测模型。其中,多维度客流量预测模型可以用于根据目标地理区域的全量客流量实时数据预测目标地理区域的客流量预测数据。由于全量客流量样本数据包括历史客流量数据、天气数据、客流量影响日期数据以及通行班次数据等多种非线性特征数据,因此多维度客流量预测模型可以综合考虑多种客流量影响因素进行客流量预测,解决现有非线性客流预测方法存在的客流数据预测的准确性较低等问题,从而提高客流数据预测的准确性。
30.实施例二图2是本发明实施例二提供的一种预测模型训练方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了获取目标地理区域的全量客流量样本数据之后对全量客流量样本数据进行数据预处理的多种具体可选的操作,以及根据所述全量客流量样本数据训练预设客流量预测模型以及对模型进行评价的具体可选的实现方式。相应的,如图2所示,本实施例的方法可以包括:s210、获取目标地理区域的全量客流量样本数据。
31.由于样本数据难免存在缺失值和异常值,这些异常数据会对最终的预测结果产生消极影响。因此,在利用全量客流量样本数据训练预设客流量预测模型之前,需要对全量客流量样本数据进行数据预处理过程,包括剔除异常值、填充缺失值等预处理操作,以提升全量客流量样本数据的可用性。其中,数据预处理过程具体可以参考下述步骤s220-s230。
32.s220、在确定所述全量客流量样本数据存在第一异常样本数据的情况下,对所述全量客流量样本数据进行数据填充。
33.其中,第一异常样本数据可以是需要进行数据填充的异常样本数据。
34.在本发明实施例中,如果确定全量客流量样本数据存在第一异常样本数据,表明全量客流量样本数据存在缺失的样本数据。例如,当前样本数据与上一相邻数据之间时间间隔较大,或当前统计周期内的当前样本数据为空等情况下,当前样本数据均可以确定为第一异常样本数据。相应的,如果确定全量客流量样本数据存在第一异常样本数据,则可以对全量客流量样本数据进行数据填充处理,具体可以对第一异常样本数据进行数据填充处理。
35.在本发明的一个可选实施例中,所述对所述全量客流量样本数据进行数据填充,可以包括:获取所述全量客流量样本数据对应的样本采集时间;根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充。
36.其中,样本采集时间可以是全量客流量样本数据的采集时间。例如,对原始的位置信令数据按照5分钟采集周期进行采集,并根据采集的位置信令数据确定历史客流量数据。或者,对统计的原始的历史客流量数据按照5分钟采集周期进行采集,从而得到历史客流量
数据。预设数据填充规则可以是预先制定的数据填充规则,用于对全量客流量样本数据中的缺失值进行填充。
37.具体的,对存在第一异常样本数据的全量客流量样本数据进行数据填充时,可以确定采集全量客流量样本数据时的样本采集时间,以根据样本采集时间以及预先设定的预设数据填充规则对全量客流量样本数据进行数据填充处理。
38.在本发明的一个可选实施例中,所述根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充,可以包括:确定所述第一异常样本数据对应的目标样本采集时间;其中,所述目标样本采集时间对应的样本数据为空;确定所述目标样本采集时间与所述目标样本采集时间的前一时刻样本采集时间之间的时间差值;在确定所述时间差值小于或等于时间差值阈值的情况下,获取所述前一时刻样本采集时间对应的样本数据,并根据所述前一时刻样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据;在确定所述时间差值大于所述时间差值阈值的情况下,获取间隔设定周期的样本采集时间对应的样本数据,并根据所述间隔设定周期的样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据。
39.其中,目标样本采集时间可以为存在缺失值的样本采集时间。时间差值阈值可以根据样本采集时间以及实际需求设定,如样本采集时间为5分钟时,时间差值阈值可以设置为15分钟,本发明实施例并不对时间差值阈值的具体数值进行限定。设定周期同样可以根据实际需求设定,如24小时,本发明实施例同样不对设定周期的具体数值进行限定。
40.具体的,在对全量客流量样本数据进行数据填充时,可以首先确定第一异常样本数据对应的目标样本采集时间。在本发明实施例中,可以采用多种不同的方式确定第一异常样本数据对应的目标样本采集时间。
41.可选的,可以直接根据每个样本采集时间是否存在样本数据的情况确定第一异常样本数据对应的目标样本采集时间。示例性的,假设样本采集时间为5分钟,全量客流量样本数据中其中4条样本数据对应的样本采集时间分别为:5分钟、10分钟、15分钟以及20分钟。如果第10分钟和第15分钟对应的样本数据为空,则可以确定为第一异常样本数据,且第10分钟和第15分钟的样本采集时间可以确定为目标样本采集时间。
42.可选的,也还可以根据已经采集的实际存在的样本数据分析计算第一异常样本数据对应的目标样本采集时间。示例性的,假设样本采集时间为5分钟,全量客流量样本数据中其中3条样本数据对应的样本采集时间分别为:5分钟、15分钟以及30分钟(都真实存在样本数据),则可以将第15分钟以及第30分钟采集的样本数据确定为第一异常样本数据。以15分钟采集的样本数据作为第一异常样本数据具体说明:第5分钟和第15分钟之间的第10分钟的样本采集时间可以确定为目标样本采集时间,该目标样本采集时间对应的样本数据为空。
43.相应的,在确定需要填充数据的目标样本采集时间之后,可以确定目标样本采集时间与目标样本采集时间的前一时刻样本采集时间,以计算目标样本采集时间与前一时刻样本采集时间之间的时间差值。示例性的,假设样本采集时间为5分钟,全量客流量样本数据中其中4条样本数据对应的样本采集时间分别为:5分钟、10分钟、15分钟以及20分钟。如果第10分钟和第20分钟采集的样本数据为空,则第10分钟采集的样本数据的前一时刻样本采集时间为第5分钟。相应的,第10分钟采集的样本数据的前一时刻样本采集时间对应的样
本数据为第5分钟采集的样本数据。同理,第20分钟采集的样本数据的前一时刻样本采集时间为第15分钟。相应的,第20分钟采集的样本数据的前一时刻样本采集时间对应的样本数据为第15分钟采集的样本数据。
44.在确定目标样本采集时间与目标样本采集时间的前一时刻样本采集时间之间的时间差值之后,即可根据时间差值的具体取值填充数据。可选的,如果时间差值小于或等于时间差值阈值,表明目标样本采集时间与前一时刻样本采集时间对应的样本采集时间相近,可以直接复制前一时刻样本采集时间对应的样本数据填充目标样本采集时间对应的样本数据。如果时间差值大于时间差值阈值,表明目标样本采集时间与前一时刻样本采集时间对应的样本采集时间相远,此时可以获取间隔设定周期的样本采集时间对应的样本数据,如目标样本采集时间的前24小时相同时间点的样本数据,并复制间隔设定周期的样本采集时间对应的样本数据填充目标样本采集时间对应的样本数据。这样处理的好处是:可以最大程度利用客流数据的潜在规律进行数据填充,从而保证填充数据的准确率,进而保证样本数据的准确率。
45.s230、在确定所述全量客流量样本数据存在第二异常样本数据的情况下,对所述全量客流量样本数据进行数据清洗。
46.其中,第二异常样本数据可以是需要进行数据清洗的异常样本数据。
47.在本发明实施例中,如果确定全量客流量样本数据存在第二异常样本数据,表明全量客流量样本数据存在异常的样本数据。例如,当前样本数据与其他样本数据的差值超过了设定的阈值,则当前样本数据均可以确定为第二异常样本数据。相应的,如果确定全量客流量样本数据存在第二异常样本数据,则可以对全量客流量样本数据进行数据清洗处理,具体可以是删除第二异常样本数据。
48.在本发明的一个可选实施例中,所述对所述全量客流量样本数据进行数据清洗,可以包括:在确定所述全量客流量样本数据服从正态分布的情况下,计算所述全量客流量样本数据的标准差;根据所述全量客流量样本数据的标准差对所述全量客流量样本数据进行数据清洗;在确定所述全量客流量样本数据不服从正态分布的情况下,确定所述全量客流量样本数据的基准参考数据;其中,所述基准参考数据根据所述全量客流量样本数据的平均值确定;根据所述基准参考数据对所述全量客流量样本数据进行数据清洗。
49.其中,基准参考数据可以是根据全量客流量样本数据确定的一个数据阈值,用于对全量客流量样本数据进行异常值筛选。
50.可以理解的是,通常批量数据具有一定的分布规律。因此,在对全量客流量样本数据进行数据清洗时,可以首先判断全量客流量样本数据是否存在可循的分布规律。可选的,如果确定全量客流量样本数据服从正态分布,则可以根据全量客流量样本数据的正太分布情况进行数据清洗。图3是本发明实施例二提供的一种数据服从正态分布的效果示意图。如图3所示,正太分布图也即(表示标准差)原则,原则具体为:如果数据超过3倍标准差,那么可以将其视为异常值。在正太分布中,正负的概率是99.7%,那么距离之外的值出现的概率为,属于极个别的小概率事件。因此,如果确定全量客流量样本数据服从正态分布,则具体可以计算全量客流量样本数据的标准差,并以标准差的3或6倍作为数据筛选的基准阈值,将全量客流量样本数据中数据值
小于基准阈值的样本数据作为异常数据进行删除。
51.相应的,如果确定全量客流量样本数据不服从正态分布,则可以直接确定全量客流量样本数据的基准参考数据。例如,可以计算全量客流量样本数据的平均值,并将平均值的设定倍数(如3倍或5倍等)对应的数值作为基准参考数据。图4是本发明实施例二提供的一种历史客流量数据分布效果示意图,如图4所示,在确定基准参考数据之后,如果确定全量客流量样本数据存在大于基准参考数据的样本数据,表明该样本数据波动幅度过大,数据可能存在异常,则可以将该样本数据作为异常数据进行删除。
52.除上述数据清洗方式之外,还可以采用其他的方法进行数据清洗,如箱线图等图形法或线性回归、聚类算法以及k近邻算法等建模方法,本发明实施例对此并不进行限制。
53.需要说明的是,图2仅是一种实现方式的示意图,可以先实施步骤s220,再实施步骤s230,也可以仅实时步骤s220,或者,也还可以跳过步骤s220,直接实施步骤s230,还可以两者均不实施,本发明实施例对此并不进行限制。
54.s240、根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
55.可以理解的是,在经过数据预处理之后,全量客流量样本数据已经初步具备建模的条件。但是为了更深入地挖掘数据样本,寻找出与实际业务更契合的特征,还需要对全量客流量样本数据的已有特征进行衍生,以得到样本数据的更优特征。
56.具体的,当前时刻的目标地理区域的客流量x(k)在当前日期的维度上与其所处时间段有关,在当前周的维度上与其所属是周几有关,在当前月的维度上与其日期有关,同时还与其是否是节假日有关。另外,当前时刻的目标地理区域的客流量还与其横向及纵向的变化趋势有关,也就是与当前时刻的前p个时刻的客流量有关,也与历史客流量有关。因此,客流量样本数据的时序特征变量可以描述为:最后,将目标地理区域的通行班次信息以及天气信息与上述的时序特征变量结合,即可得到最终的全量客流量样本数据的时序特征变量:相应的,在本发明的一个可选实施例中,所述预设客流量预测模型可以基于如下公式表达:其中,^y表示目标地理区域在k时刻的客流量预测值,x表示所述全量客流量样本
数据的时序特征变量,也为预设客流量预测模型的多维输入特征,k表示时间,n表示目标地理区域标识,time(n)表示目标地理区域历史客流时间,weekday(n)和isholiday(n)表示客流量影响日期数据(工作日周末表示、是否法定节假日),yn(k-p)表示第k-p时刻的历史客流量,yn(k-p+1)表示第k-p+1时刻的历史客流量,yn(k-1)表示第k-1时刻的历史客流量,arrivecnt(k)表示k时刻到达目标地理区域的客流量,leavecnt(k)表示k时刻离开目标地理区域的客流量,arrivenum(k)表示k时刻到达目标地理区域的通行班次数量,leavenum(k)表示k时刻离开目标地理区域的通行班次数量,istfyj(n)、isbyyj(n)和isdwyj(n)表示不同类型气象预警,weather(n)表示天气数据。
57.在本发明实施例中,预设客流量预测模型可以利用xgboost(extreme gradient boosting,极端梯度提升)算法的思想预测目标地理区域在k时刻的客流量预测值。xgboost算法的具体思想是:不断地添加树以拟合上一轮预测的残差,同时进行特征分裂来生长一棵树。当训练完成得到k棵树,要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。
58.在本发明的一个可选实施例中,所述根据所述全量客流量样本数据训练预设客流量预测模型,可以包括:根据目标函数和所述全量客流量样本数据训练预设客流量预测模型;其中,所述目标函数可以基于如下公式表达:其中,j(f)表示所述目标函数,其目标可以是最小化与客流量测试和客流量实际值之间的误差,l(f)和表示训练损失函数,ω(f)和ω(f
t
)表示正则项,可以减少预测数据过拟合的现象,γ表示权重参数,可以根据实际需求配置,t表示极端梯度提升算法中树的叶子节点数,wj表示每个叶子节点权重。第i次迭代后,预设客流量预测模型的预测值为 i-1次预设客流量预测模型的预测值与第t棵树的预测值之间的和值,因此有:。
59.为了对目标函数求出最优解,可以引入二阶泰勒展开公式对目标函数进行变形。相应的,j(f)具体可以变形为:
根据上述公式可以进一步推出:其中:。
60.最后,可求出wj的最优解为,此时,目标函数的数值最小,客流量预测值和实际值之间的误差最小,则预设客流量预测模型有最优解。
61.相应的,即可根据预设客流量预测模型利用全量客流量样本数据的时序特征变量数据进行训练,得到多维度客流量预测模型。
62.s250、根据所述全量客流量样本数据确定全量客流量测试集样本数据以及所述全量客流量测试集样本数据对应的客流量真实数据。
63.其中,全量客流量测试集样本数据可以是根据全量客流量样本数据划分的测试集数据,如将30%的全量客流量样本数据作为全量客流量测试集样本数据。
64.为了对多维度客流量预测模型的预测效果进行客观评价,可以对全量客流量样本数据划分一定比例的全量客流量测试集样本数据,同时获取全量客流量测试集样本数据对应的客流量真实数据,以根据全量客流量测试集样本数据测试得到的预测数据与客流量真实数据进行对比计算。
65.s260、将所述全量客流量测试集样本数据输入至所述多维度客流量预测模型,得到预测数据测试结果。
66.其中,预测数据测试结果可以是利用多维度客流量预测模型对全量客流量测试集样本数据进行客流量预测得到的测试结果。
67.具体的,可以将全量客流量测试集样本数据输入至多维度客流量预测模型中,以通过多维度客流量预测模型预测得到预测数据测试结果。
68.s270、计算所述预测数据测试结果与所述客流量真实数据之间的预测误差值;其中,所述预测误差值包括可靠性误差值和/或相对平均偏离误差值。
69.s280、根据所述预测误差值对所述多维度客流量预测模型进行评价。
70.其中,预测误差值可以是预测数据测试结果与客流量真实数据之间的差值。可靠
性误差值可以体现预测数据测试结果的可靠性程度,相对平均偏离误差值可以体现预测数据测试结果的相对平均偏离程度。
71.相应的,在得到预测数据测试结果之后,即可计算预测数据测试结果与客流量真实数据之间的可靠性误差值和/或相对平均偏离误差值等预测误差值,以根据预测误差值对多维度客流量预测模型进行评价。可以理解的是,可靠性程度和相对平均偏离程度的数值越小,则说明预测可靠性程度越高且预测相对偏离程度越低。
72.可选的,可以计算预测数据测试结果与客流量真实数据之间的平均绝对百分比误差作为可靠性误差值。可以计算预测数据测试结果与客流量真实数据之间的均方百分比误差作为相对平均偏离误差值。
73.可选的,平均绝对百分比误差可以基于如下公式计算:可选的,均方百分比误差可以基于如下公式计算:上述公式中,p
mape
表示平均绝对百分比误差,p
msp
表示均方百分比误差,yi表示客流量真实数据,表示预测数据测试结果,n表示预测数据测试结果的数量。
74.本发明实施例通过对获取的目标地理区域的全量客流量样本数据进行数据填充和数据清洗等数据预处理,以利用数据预处理后的全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型,可以提高多维度客流量预测模型的精准度,进而提高客流数据预测的准确性。
75.需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
76.实施例三图5是本发明实施例三提供的一种数据预测方法的流程图,本实施例可适用于利用多维度客流量预测模型预测客流量数据的情况,该方法可以由数据预测装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中。相应的,如图5所示,该方法包括如下操作:s310、获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项。
77.其中,全量客流量实时数据可以是包括实时客流量数据以及客流量影响因素的多维度的实时数据。预测关联因素实时数据可以是影响客流量的环境因素的实时数据,可以包括但不限于天气数据、客流量影响日期数据以及通行班次数据等。
78.在本发明实施例中,在预先训练得到多维度客流量预测模型之后,可以利用多维
度客流量预测模型对目标地理区域的客流量进行预测。相应的,首先需要获取目标地理区域的包括实时客流量以及天气数据、客流量影响日期数据以及通行班次数据等预测关联因素实时数据的全量客流量实时数据。
79.在本发明的一个可选实施例中,获取目标地理区域的实时客流量数据,可以包括:获取所述目标地理区域的用户实时位置;根据所述用户实时位置确定所述实时客流量数据。
80.其中,用户实时位置可以通过用户位置信令数据等可以确定用户实时位置的相关数据确定。
81.在本发明实施例中,可选的,可以采用用户位置实时数据确定实时客流量数据,具体的,可以基于运营商的用户位置快照数据,从原始、实时的用户位置信令数据中提取出目标地理区域的实时客流量时间序列,即获得实时客流量的数据集。可选的,用户位置信令数据可以按照5分钟的采集周期进行采集。同时,还需要实时获取目标地理区域的短期天气数据、节假日信息、通信工具数量等多维度信息,结合实时客流量数据建立多维度的实时数据。
82.表1是本发明实施例三提供的一种目标地理区域实时客流表,表2是本发明实施例三提供的一种目标地理区域通信班次信息表,表3是本发明实施例三提供的一种目标地理区域的天气信息汇总表。在一个具体的例子中,如表1-表3所示,可以按照一定的数据采集周期(如5分钟)采集全量客流量实时数据。表4是本发明实施例三提供的一种对全量客流量实时数据进行采样处理得到的全量客流量实时数据列表。如表4所示,在采集得到全量客流量实时数据之后,可以进一步对全量客流量实时数据进行采样处理,得到多维度客流量预测模型的实时输入数据。
83.表1 目标地理区域实时客流表表2 目标地理区域通信班次信息表
表3 目标地理区域的天气信息汇总表表4全量客流量实时数据列表在表4中,user_cnt表示实时驻留人数,user_in表示实时流入人数,user_out表示实时流出人数,weather_type_12表示12小时短时预报天气,fltno_in表示进入班次数量,fltno_out表示驶出班次数量。如表4所示,可以按照半小时的周期对全量客流量实时数据进行采样处理,得到模型的实时输入数据。
84.在本发明的一个可选实施例中,在所述获取目标地理区域的全量客流量实时数据之后,还可以包括:在确定所述全量客流量实时数据存在第一异常实时数据的情况下,对所述全量客流量实时数据进行数据填充;和/或,在确定所述全量客流量实时数据存在第二异常实时数据的情况下,对所述全量客流量实时数据进行数据清洗。
85.其中,第一异常实时数据可以是需要进行数据填充的异常实时数据。第二异常实时数据可以是需要进行数据清洗的异常实时数据。
86.在本发明实施例中,针对全量客流量实时数据进行数据处理的方式与模型训练过程中对全量客流量样本数据进行数据预处理过程相同。具体的,如果确定全量客流量实时数据存在第一异常实时数据,表明全量客流量实时数据存在缺失的实时数据。例如,当前实时数据与上一相邻数据之间时间间隔较大,或当前统计周期内的当前实时数据为空等情况下,当前实时数据均可以确定为第一异常实时数据。相应的,如果确定全量客流量实时数据存在第一异常实时数据,则可以对全量客流量实时数据进行数据填充处理,具体可以对第一异常实时数据进行数据填充处理。如果确定全量客流量实时数据存在第二异常实时数据,表明全量客流量实时数据存在异常的实时数据。例如,当前实时数据与其他实时数据的差值超过了设定的阈值,则当前实时数据均可以确定为第二异常实时数据。相应的,如果确定全量客流量实时数据存在第二异常实时数据,则可以对全量客流量实时数据进行数据清洗处理,具体可以是删除第二异常实时数据。
87.在本发明的一个可选实施例中,所述对所述全量客流量实时数据进行数据填充,可以包括:获取所述第一异常实时数据对应的实时采集时间;根据所述实时采集时间以及预设数据填充规则对所述全量客流量实时数据进行数据填充。
88.其中,实时采集时间可以是全量客流量实时数据的采集时间。例如,对原始的位置信令数据按照5分钟采集周期进行采集,并根据采集的位置信令数据确定历史客流量数据。或者,对统计的原始的历史客流量数据按照5分钟采集周期进行采集,从而得到历史客流量数据。预设数据填充规则可以是预先制定的数据填充规则,用于对全量客流量实时数据中的缺失值进行填充。
89.具体的,对存在第一异常实时数据的全量客流量实时数据进行数据填充时,可以确定采集全量客流量实时数据时的实时采集时间,以根据实时采集时间以及预先设定的预设数据填充规则对全量客流量实时数据进行数据填充处理。
90.在本发明的一个可选实施例中,所述根据所述实时采集时间以及预设数据填充规则对所述全量客流量实时数据进行数据填充,可以包括:确定所述第一异常实时数据对应的目标实时采集时间;其中,所述目标实时采集时间对应的实时数据为空;确定所述目标实时采集时间与所述目标实时采集时间的前一时刻实时采集时间之间的时间差值;在确定所述时间差值小于或等于时间差值阈值的情况下,获取所述前一时刻实时采集时间对应的实时数据,并根据所述前一时刻实时采集时间对应的实时数据填充所述目标实时采集时间对应的实时数据;在确定所述时间差值大于所述时间差值阈值的情况下,获取间隔设定周期的实时采集时间对应的实时数据,并根据所述间隔设定周期的实时采集时间对应的实时数据填充所述目标实时采集时间对应的实时数据。
91.其中,目标实时采集时间可以为存在缺失值的实时采集时间。时间差值阈值可以根据实时采集时间以及实际需求设定,如实时采集时间为5分钟时,时间差值阈值可以设置为15分钟,本发明实施例并不对时间差值阈值的具体数值进行限定。设定周期同样可以根据实际需求设定,如24小时,本发明实施例同样不对设定周期的具体数值进行限定。
92.具体的,在对全量客流量实时数据进行数据填充时,可以首先确定第一异常实时数据对应的目标实时采集时间。在本发明实施例中,可以采用多种不同的方式确定第一异
常实时数据对应的目标实时采集时间。
93.可选的,可以直接根据每个实时采集时间是否存在实时数据的情况确定第一异常实时数据对应的目标实时采集时间。示例性的,假设实时采集时间为5分钟,全量客流量实时数据中其中4条实时数据对应的实时采集时间分别为:5分钟、10分钟、15分钟以及20分钟。如果第10分钟和第15分钟对应的实时数据为空,则可以确定为第一异常实时数据,且第10分钟和第15分钟的实时采集时间可以确定为目标实时采集时间。
94.可选的,也还可以根据已经采集的实际存在的实时数据分析计算第一异常实时数据对应的目标实时采集时间。示例性的,假设实时采集时间为5分钟,全量客流量实时数据中其中3条实时数据对应的实时采集时间分别为:5分钟、15分钟以及30分钟(都真实存在实时数据),则可以将第15分钟以及第30分钟采集的实时数据确定为第一异常实时数据。以15分钟采集的实时数据作为第一异常实时数据具体说明:第5分钟和第15分钟之间的第10分钟的实时采集时间可以确定为目标实时采集时间,该目标实时采集时间对应的实时数据为空。
95.相应的,在确定需要填充数据的目标实时采集时间之后,可以确定目标实时采集时间与目标实时采集时间的前一时刻实时采集时间,以计算目标实时采集时间与前一时刻实时采集时间之间的时间差值。示例性的,假设实时采集时间为5分钟,全量客流量实时数据中其中4条实时数据对应的实时采集时间分别为:5分钟、10分钟、15分钟以及20分钟。如果第10分钟和第20分钟采集的实时数据为空,则第10分钟采集的实时数据的前一时刻实时采集时间为第5分钟。相应的,第10分钟采集的实时数据的前一时刻实时采集时间对应的实时数据为第5分钟采集的实时数据。同理,第20分钟采集的实时数据的前一时刻实时采集时间为第15分钟。相应的,第20分钟采集的实时数据的前一时刻实时采集时间对应的实时数据为第15分钟采集的实时数据。
96.在确定目标实时采集时间与目标实时采集时间的前一时刻实时采集时间之间的时间差值之后,即可根据时间差值的具体取值填充数据。可选的,如果时间差值小于或等于时间差值阈值,表明目标实时采集时间与前一时刻实时采集时间对应的实时采集时间相近,可以直接复制前一时刻实时采集时间对应的实时数据填充目标实时采集时间对应的实时数据。如果时间差值大于时间差值阈值,表明目标实时采集时间与前一时刻实时采集时间对应的实时采集时间相远,此时可以获取间隔设定周期的实时采集时间对应的实时数据,如目标实时采集时间的前24小时相同时间点的实时数据,并复制间隔设定周期的实时采集时间对应的实时数据填充目标实时采集时间对应的实时数据。这样处理的好处是:可以最大程度利用客流数据的潜在规律进行数据填充,从而保证填充数据的准确率,进而保证实时数据的准确率。
97.在一个具体的例子中,以运营商手机信令数据作为用户位置数据为例说明。表5是本发明实施例三提供的一种信令数据更新频率列表,如表5所示,运营商手机信令数据通常为5分钟更新一次,但由于网络时延等问题,造成信令数据的更新频率并不固定,通过前期数据质量分析可以发现,存在部分信令数据的相邻时间点差值不等于5分钟。
98.表5 信令数据更新频率列表
因此,针对更新频率不为5min的信令数据,需进行补数填充,填充规则需根据不同的场景采用不同的方法进行填充,具体填充规则如表6所示:表6 信令数据补数规则列表在本发明的一个可选实施例中,所述对所述全量客流量实时数据进行数据清洗,可以包括:在确定所述全量客流量实时数据服从正态分布的情况下,计算所述全量客流量实时数据的标准差;根据所述全量客流量实时数据的标准差对所述全量客流量实时数据进行数据清洗;在确定所述全量客流量实时数据不服从正态分布的情况下,确定所述全量客流量实时数据的基准参考数据;其中,所述基准参考数据根据所述全量客流量实时数据的平均值确定;根据所述基准参考数据对所述全量客流量实时数据进行数据清洗。
99.其中,基准参考数据可以是根据全量客流量实时数据确定的一个数据阈值,用于对全量客流量实时数据进行异常值筛选。
100.可以理解的是,通常批量数据具有一定的分布规律。因此,在对全量客流量实时数据进行数据清洗时,可以首先判断全量客流量实时数据是否存在可循的分布规律。可选的,如果确定全量客流量实时数据服从正态分布,则可以根据全量客流量实时数据的正太分布情况进行数据清洗,具体可以计算全量客流量实时数据的标准差,并以标准差的3倍或6倍作为数据筛选的基准阈值,将全量客流量实时数据中数据值小于基准阈值的实时数据作为异常数据进行删除。
101.相应的,如果确定全量客流量实时数据不服从正态分布,则可以直接确定全量客流量实时数据的基准参考数据。例如,可以计算全量客流量实时数据的平均值,并将平均值的设定倍数(如3倍或5倍等)对应的数值作为基准参考数据。在确定基准参考数据之后,如果确定全量客流量实时数据存在大于基准参考数据的实时数据,表明该实时数据波动幅度过大,数据可能存在异常,则可以将该实时数据作为异常数据进行删除。
102.除上述数据清洗方式之外,还可以采用其他的方法进行数据清洗,如箱线图等图
形法或线性回归、聚类算法以及k近邻算法等建模方法,本发明实施例对此并不进行限制。
103.需要说明的是,可以首先对全量客流量实时数据进行数据填充处理后在进行数据清洗处理,也还可以仅对全量客流量实时数据进行数据填充处理或仅对全量客流量实时数据进行数据清洗处理,或者,还可以直接跳过数据预处理操作,本发明实施例对此并不进行限制。
104.s320、将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据。
105.其中,所述多维度客流量预测模型通过任一实施例所述的预测模型训练方法训练获得。客流量预测数据可以包括目标地理区域在未来设定时间段(如3小时等)内的实时进入客流量和实时离开客流量的预测数据。可选的,可以按照一定的预测周期输出预测数据。示例性的,预测周期可以为30分钟等,具体可以根据实际需求设定,本发明实施例对此并不进行限制。
106.图6是本发明实施例三提供的一种多维度客流量预测模型对客流量的拟合效果示意图。在一个具体的例子中,以某一机场作为目标地理区域应用多维度客流量预测模型进行客流量预测,并利用后续获取的真实客流量数据进行对比,可以得到如图6所示的客流量拟合效果。在图6中,实线表示多维度客流量预测模型的客流量预测数据,虚线表示后续获取的真实客流量数据。根据图6所示的效果可以表明多维度客流量预测模型对客流量的拟合效果较好。
107.为了进一步验证多维度客流量预测模型的准确性,模型预测未来3小时数据并与真实值进行对比,结果如下表7所示:表7 模型预测未来3小时数据并与真实值对比列表根据表7记录的数据可以进一步计算得到多维度客流量预测模型未来3小时的客流量预测数据的均方百分比误差为0.0504,平均绝对误差为0.0447。由此可见,本发明实施例所训练的多维度客流量预测模型具有较高的预测精度和鲁棒性。
108.本发明实施例通过利用获取的目标地理区域的全量客流量样本数据训练预设客流量预测模型,可以得到多维度客流量预测模型。其中,多维度客流量预测模型可以用于根据目标地理区域的全量客流量实时数据预测目标地理区域的客流量预测数据。由于全量客流量样本数据包括历史客流量数据、天气数据、客流量影响日期数据以及通行班次数据等多种非线性特征数据,因此多维度客流量预测模型可以综合考虑多种客流量影响因素进行客流量预测,解决现有非线性客流预测方法存在的客流数据预测的准确性较低等问题,从而提高客流数据预测的准确性。
109.实施例四图7是本发明实施例四提供的一种预测模型训练装置的示意图,如图7所示,所述
装置包括:全量客流量样本数据获取模块410以及预设客流量预测模型训练模块420,其中:全量客流量样本数据获取模块410,用于获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;预设客流量预测模型训练模块420,用于根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
110.本发明实施例通过利用获取的目标地理区域的全量客流量样本数据训练预设客流量预测模型,可以得到多维度客流量预测模型。其中,多维度客流量预测模型可以用于根据目标地理区域的全量客流量实时数据预测目标地理区域的客流量预测数据。由于全量客流量样本数据包括历史客流量数据、天气数据、客流量影响日期数据以及通行班次数据等多种非线性特征数据,因此多维度客流量预测模型可以综合考虑多种客流量影响因素进行客流量预测,解决现有非线性客流预测方法存在的客流数据预测的准确性较低等问题,从而提高客流数据预测的准确性。
111.可选的,预测模型训练装置还可以包括:第一数据填充模块,用于在确定所述全量客流量样本数据存在第一异常样本数据的情况下,对所述全量客流量样本数据进行数据填充;第一数据清洗模块,用于在确定所述全量客流量样本数据存在第二异常样本数据的情况下,对所述全量客流量样本数据进行数据清洗。
112.可选的,第一数据填充模块具体用于:获取所述全量客流量样本数据对应的样本采集时间;根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充。
113.可选的,第一数据填充模块具体用于:确定所述第一异常样本数据对应的目标样本采集时间;其中,所述目标样本采集时间对应的样本数据为空;确定所述目标样本采集时间与所述目标样本采集时间的前一时刻样本采集时间之间的时间差值;在确定所述时间差值小于或等于时间差值阈值的情况下,获取所述前一时刻样本采集时间对应的样本数据,并根据所述前一时刻样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据;在确定所述时间差值大于所述时间差值阈值的情况下,获取间隔设定周期的样本采集时间对应的样本数据,并根据所述间隔设定周期的样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据。
114.可选的,第一数据清洗模块具体用于:在确定所述全量客流量样本数据服从正态分布的情况下,计算所述全量客流量样本数据的标准差;根据所述全量客流量样本数据的标准差对所述全量客流量样本数据进行数据清洗;在确定所述全量客流量样本数据不服从正态分布的情况下,确定所述全量客流量样本数据的基准参考数据;其中,所述基准参考数据根据所述全量客流量样本数据的平均值确定;根据所述基准参考数据对所述全量客流量样本数据进行数据清洗。
115.可选的,所述预设客流量预测模型基于如下公式表达:
其中,^y表示目标地理区域在k时刻的客流量预测值,x表示所述全量客流量样本数据的时序特征变量,k表示时间,n表示目标地理区域标识,time(n)表示目标地理区域历史客流时间,weekday(n)和isholiday(n)表示客流量影响日期数据(工作日周末表示、是否法定节假日),yn(k-p)表示第k-p时刻的历史客流量,yn(k-p+1)表示第k-p+1时刻的历史客流量,yn(k-1)表示第k-1时刻的历史客流量,arrivecnt(k)表示k时刻到达目标地理区域的客流量,leavecnt(k)表示k时刻离开目标地理区域的客流量,arrivenum(k)表示k时刻到达目标地理区域的通行班次数量,leavenum(k)表示k时刻离开目标地理区域的通行班次数量,istfyj(n)、isbyyj(n)和isdwyj(n)表示不同类型气象预警,weather(n)表示天气数据。
116.可选的,预设客流量预测模型训练模块420具体用于:根据目标函数和所述全量客流量样本数据训练预设客流量预测模型;其中,所述目标函数基于如下公式表达:其中,j(f)表示所述目标函数,l(f)和表示训练损失函数,ω(f)和ω(f
t
)表示正则项,γ表示权重参数,t表示极端梯度提升算法中树的叶子节点数,wj表示每个叶子节点权重。
117.可选的,预测模型训练装置还可以包括:模型评价模块,用于:根据所述全量客流量样本数据确定全量客流量测试集样本数据以及所述全量客流量测试集样本数据对应的客流量真实数据;将所述全量客流量测试集样本数据输入至所述多维度客流量预测模型,得到预测数据测试结果;计算所述预测数据测试结果与所述客流量真实数据之间的预测误差值;其中,所述预测误差值包括可靠性误差值和/或相对平均偏离误差值;根据所述预测误差值对所述多维度客流量预测模型进行评价。
118.上述预测模型训练装置可执行本发明任意实施例所提供的预测模型训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本
发明任意实施例提供的预测模型训练方法。
119.由于上述所介绍的预测模型训练装置为可以执行本发明实施例中的预测模型训练方法的装置,故而基于本发明实施例中所介绍的预测模型训练方法,本领域所属技术人员能够了解本实施例的预测模型训练装置的具体实施方式以及其各种变化形式,所以在此对于该预测模型训练装置如何实现本发明实施例中的预测模型训练方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中预测模型训练方法所采用的装置,都属于本技术所欲保护的范围。
120.实施例五图8是本发明实施例五提供的一种数据预测装置的示意图,如图8所示,所述装置包括:全量客流量实时数据获取模块510以及客流量预测数据获取模块520,其中:全量客流量实时数据获取模块510,用于获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;客流量预测数据获取模块520,用于将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过上述任一所述的预测模型训练方法训练获得。
121.本发明实施例通过利用获取的目标地理区域的全量客流量样本数据训练预设客流量预测模型,可以得到多维度客流量预测模型。其中,多维度客流量预测模型可以用于根据目标地理区域的全量客流量实时数据预测目标地理区域的客流量预测数据。由于全量客流量样本数据包括历史客流量数据、天气数据、客流量影响日期数据以及通行班次数据等多种非线性特征数据,因此多维度客流量预测模型可以综合考虑多种客流量影响因素进行客流量预测,解决现有非线性客流预测方法存在的客流数据预测的准确性较低等问题,从而提高客流数据预测的准确性。
122.可选的,全量客流量实时数据获取模块510具体用于:获取所述目标地理区域的用户实时位置;根据所述用户实时位置确定所述实时客流量数据。
123.可选的,数据预测装置还可以包括:第二数据填充模块,用于在确定所述全量客流量实时数据存在第一异常实时数据的情况下,对所述全量客流量实时数据进行数据填充;第二数据清洗模块,用于在确定所述全量客流量实时数据存在第二异常实时数据的情况下,对所述全量客流量实时数据进行数据清洗。
124.可选的,第二数据填充模块具体用于:获取所述第一异常实时数据对应的实时采集时间;根据所述实时采集时间以及预设数据填充规则对所述全量客流量实时数据进行数据填充。
125.可选的,第二数据填充模块具体用于:确定所述第一异常实时数据对应的目标实时采集时间;其中,所述目标实时采集时间对应的实时数据为空;确定所述目标实时采集时间与所述目标实时采集时间的前一时刻实时采集时间之间的时间差值;在确定所述时间差值小于或等于时间差值阈值的情况下,获取所述前一时刻实时采集时间对应的实时数据,并根据所述前一时刻实时采集时间对应的实时数据填充所述目标实时采集时间对应的实时数据;在确定所述时间差值大于所述时间差值阈值的情况下,获取间隔设定周期的实时
采集时间对应的实时数据,并根据所述间隔设定周期的实时采集时间对应的实时数据填充所述目标实时采集时间对应的实时数据。
126.可选的,第二数据清洗模块具体用于:在确定所述全量客流量实时数据服从正态分布的情况下,计算所述全量客流量实时数据的标准差;根据所述全量客流量实时数据的标准差对所述全量客流量实时数据进行数据清洗;在确定所述全量客流量实时数据不服从正态分布的情况下,确定所述全量客流量实时数据的基准参考数据;其中,所述基准参考数据根据所述全量客流量实时数据的平均值确定;根据所述基准参考数据对所述全量客流量实时数据进行数据清洗。
127.上述数据预测装置可执行本发明任意实施例所提供的数据预测方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的数据预测方法。
128.由于上述所介绍的数据预测装置为可以执行本发明实施例中的数据预测方法的装置,故而基于本发明实施例中所介绍的数据预测方法,本领域所属技术人员能够了解本实施例的数据预测装置的具体实施方式以及其各种变化形式,所以在此对于该数据预测装置如何实现本发明实施例中的数据预测方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中数据预测方法所采用的装置,都属于本技术所欲保护的范围。
129.实施例六图9为本发明实施例六提供的一种计算机设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图9显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
130.如图9所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
131.总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industry standard architecture,isa)总线,微通道体系结构(micro channel architecture,mca)总线,增强型isa总线、视频电子标准协会(video electronics standards association,vesa)局域总线以及外围组件互连(peripheral component interconnect,pci)总线。
132.计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
133.存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(random access memory,ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(compact disc-read only memory,cd-rom)、数字视盘(digital video disc-read only memory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储
器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
134.具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
135.计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(input/output,i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(local area network,lan),广域网wide area network,wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图9中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、(redundant arrays of independent disks,raid)系统、磁带驱动器以及数据备份存储系统等。
136.处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,实现本发明实施例所提供的预测模型训练方法:获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
137.实施例七本实施例七是本发明实施例提供的一种用于执行本发明任一实施例所提供的数据预测方法的设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所提供的数据预测方法:获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量数据以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过任一实施例所述的预测模型训练方法训练获得。其具体结构以及细节内容可参照图9和实施例六。
138.实施例八本发明实施例八还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述任一实施例所述的预测模型训练方法:获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
139.本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(read only memory,rom)、可擦式可编程只读存储器((erasable programmable read only memory,eprom)或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
140.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
141.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、射频(radio frequency,rf)等等,或者上述的任意合适的组合。
142.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
143.实施例九本发明实施例九还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述实施例所述的数据预测方法:获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量数据以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过任一实施例所述的预测模型训练方法训练获得。其具体的细节内容描述可参照实施例八。
144.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1