1.本发明涉及城市交通领域,尤其是涉及一种共享单车位置预测方法、设备及存储介质。
背景技术:2.城市交通流量预测是预测进入(流入)或离开(流出)城市每个区域的乘客数量。有效预测城市交通流量对于许多商业应用至关重要,例如移动营销、路线优化、为交通方式的巨大转变做好准备、或减缓covid-19等病毒的流行传播。以移动营销为例;移动技术允许企业获取乘客的实时位置信息,并提供针对乘客位置和时间的个性化促销信息,例如向附近剧院的潜在消费者发送优惠券信息。了解和预测乘客在城市中的移动方式,尤其是利用规律性和情境模式,有助于在正确的地点和时间采取正确的行动,这对于移动营销的成功至关重要,包括更高的兑换概率、更快的赎回行为和更高的交易金额。目前已经提出了许多方法来预测城市交通流量,包括时间序列方法和深度学习方法到专为城市交通预测设计的深度学习方法。
3.然而,现有技术没有考虑到城市中人类流动的层次性质。每个人都是独一无二的,其生活超越了社区的界限。在最近的nature论文研究中,alessandretti等人观察到人类的移动性(人类运动)表现出层次模式。在跨区域活动的过程中,人类以邻里、区域、城市和国家的特征等级结构迁移,不同层次之间的迁移趋势指导着未来区域之间的迁移,迁移形式可分为层内(本地)迁移和层间(全局)迁移。
4.基于人类流动的层次结构,可结合这种层次结构来预测城市交通流量。首先,提出了一种层次迭代模糊c均值聚类算法来对位置进行分组,考虑了相邻位置和远距离位置之间的迁移趋势,但具有显着的相关性。例如,如果仅考虑空间邻近性,餐厅可能类似于附近的住宅区。但是,如果在更高级别聚合信息(例如,将客户通常在餐厅后光顾的位置进行聚类),人们可能会观察到餐厅与酒吧的相似度很高,而酒吧可能比住宅区更远。这种相关性之所以存在,是因为人们通常在晚餐后去酒吧喝酒。即使酒吧和餐厅相距甚远,但它们仍然紧密相连。
5.如图2所示,将人员流动模式分为三个级别:最低级别(空间邻近性)、中等级别(道路网络)和最高级别(人员流动流量)。人们倾向于访问附近的地点(例如,从步行距离内的购物中心购买食物),这些位置(例如,住宅区和购物中心)可以基于它们的邻近信息进行聚类。使用图2中的p循环来显示此类簇(三个簇分别为a、b和c)。还有两个彼此远离且不属于任何簇的独立点(d和e)。大多数常用的聚类算法,如k-means,只能根据位置的接近度对位置进行聚类。接下来,考虑通过城市中的主要道路相互连接的集群。道路网络,尤其是高速公路和高速公路,为乘客在主要地点群之间出行提供了便利;因此,城市交通流遵循此类道路网络的可能性更高。使用图2中的q线来显示连接我们在第一步后获得的集群的高速公路或高速公路。接下来,用q循环将它们分组以显示更高级别的集群。最后,需要探索隐藏的人类流动模式。就像在上一段中展示的例子一样,就城市交通流量而言,一组餐馆和一组酒吧
通常具有很强的相关性,因为人们通常会在晚饭后去喝酒,即使他们离得很远也不在与城市的主要道路相连,如图2所示,其中r线来显示了这种高级隐藏的人类移动流模式。
6.在分析城市交通流量过程中,其具有一定的层次结构,这个层次结构不仅仅是空间和时间上的,而是更高层次的迁移趋势。而目前现有技术对于共享单车的位置预测没有从迁移趋势层面上进行考虑,所采用的分析层面有一定局限性。
技术实现要素:7.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确度高的、紧贴实际的共享单车位置预测方法、设备及存储介质。
8.本发明的目的可以通过以下技术方案来实现:
9.根据本发明的第一方面,提供了一种共享单车位置预测方法、设备及存储介质,该方法基于迁移趋势,将站点与该相关簇间的迁移趋势矩阵作为特征值融入到站点位置信息中,采用模糊c均值聚类fcm算法对共享单车数据集进行迭代聚类,从而输出共享单车移动预测结果;
10.所述方法具体包括以下步骤:
11.步骤s1:获取共享单车数据集,并进行数据预处理;
12.步骤s2:根据共享单车站点进行模糊c均值聚类fcm,获得相关簇;
13.步骤s3:基于流入流出数据生成每小时簇与簇之间的双通道矩阵;
14.步骤s4:将双通道矩阵融合至时空残差网络模型,预测区域间共享单车移动结果,当预测误差大于与预设阈值时,转至步骤s5;否则,转至步骤s6;
15.步骤s5:基于步骤s2中获得的相关簇,获取当前站点与该相关簇间的迁移趋势矩阵,并将降维后的矩阵作为特征值加入到车站站点的地理位置信息中,转步骤s2进行模糊c均值聚类迭代,直到结果稳定迭代结束;
16.步骤s6:输出共享单车移动预测结果。
17.优选地,所述步骤s1中的共享单车数据集包括出行间隔时间、行程开始时间、行程结束时间、行程开始地理位置和结束地理位置信息。
18.优选地,所述步骤s2中初次模糊c均值聚类fcm包括以下子步骤:
19.步骤s21:随机初始化权重;
20.步骤s22:基于隶属度的加权平均值计算模糊c均值聚类fcm算法中的质心;
21.步骤s23:更新模糊伪分区,包括权重和隶属度。
22.优选地,所述隶属度为概率函数,表示每个数据样本对每个簇的强度;所述隶属度更新满足:样本点离质心越近,隶属度越高。
23.优选地,所述步骤s2中的模糊c均值聚类算法中每个数据样本属于且仅属于一个聚类。
24.优选地,所述步骤s3中的流入流出双通道矩阵,其参照图片rgb通道模型,用作时空残差网络的输入,进行共享单车移动比例的预测。
25.优选地,所述步骤s4中的预测误差为rmse均方根误差。
26.优选地,所述步骤s5中的降维过程采用斐波那契范式将迁移趋势矩阵降维。
27.根据本发明的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器
上存储有计算机程序,所述处理器执行所述程序时实现上述的方法。
28.根据本发明的第三方面,一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的方法。
29.与现有技术相比,本发明具有以下优点:
30.传统预测模型基于栅格生成矩阵,近邻区域相似性较大,而本发明通过趋势聚类后,较远的区域仍然具有相似性,这种相似性是趋势相似性,预测的精度得到了改善。
附图说明
31.图1为本发明的共享单车时空残差预测方法流程图;
32.图2为本发明层次分析意图;
33.图3为本发明技术框架示意图;
34.图4为本发明层次迭代模糊c均值聚类算法示意图;
35.图5为本发明双通道模型融合时空残差网络模型示意图。
具体实施方式
36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
37.本发明通过观察,发现在分析城市交通流量过程中,其具有一定的层次结构,这个层次结构不仅仅是空间和时间上的,而是更高层次的迁移趋势,本发明的方法具有广泛的商业应用价值。本发明以共享单车研究为例,可延展到人员流动模式,使用本发明可以捕捉区域间人员流动模式并准确预测人们在城市中的移动方式,可以帮助营销人员做出在正确的地点和时间采取正确行动的决策,这对移动营销的成功至关重要。
38.如图1所示,本发明提出了一种共享单车位置预测方法,该方法基于迁移趋势,将站点与该相关簇间的迁移趋势矩阵作为特征值融入到站点位置信息中,采用模糊c均值聚类fcm算法对共享单车数据集进行迭代聚类,从而输出共享单车移动预测结果。图3给出了本发明技术框架示意图。所述方法具体包括以下步骤:
39.步骤s1:获取共享单车数据集,包括出行间隔时间、行程开始时间、行程结束时间、行程开始地理位置和结束地理位置信息,进行数据预处理;
40.步骤s2:根据共享单车站点进行模糊c均值聚类fcm,获得相关簇,具体为:
41.步骤s2中初次模糊c均值聚类fcm包括以下子步骤:
42.步骤s21:随机初始化权重;
43.步骤s22:基于隶属度的加权平均值计算模糊c均值聚类fcm算法中的质心;
44.步骤s23:更新模糊伪分区,包括权重和隶属度,其中隶属度为概率函数,表示每个数据样本对每个簇的强度,其更新条件满足样本点离质心越近,隶属度越高;
45.所述模糊c均值聚类算法中每个数据样本属于且仅属于一个聚类
46.步骤s3:基于流入流出数据生成每小时簇与簇之间的双通道矩阵,其参照图片rgb通道模型,用作时空残差网络的输入,进行共享单车移动比例的预测;
47.步骤s4:将双通道矩阵融合至时空残差网络模型,预测区域间共享单车移动结果,当预测误差大于与预设阈值时,转至步骤s5;否则,转至步骤s6;
48.步骤s5:基于步骤s2中获得的相关簇,获取当前站点与该相关簇间的迁移趋势矩阵,并将斐波那契范式降维后的迁移趋势矩阵作为特征值加入到车站站点的地理位置信息中,转步骤s2进行模糊c均值聚类迭代,直到结果稳定迭代结束;
49.步骤s6:输出共享单车移动预测结果。
50.该方法具体为:
51.所述数据集是共享单车出行记录,记录包含出行间隔时间,行程开始时间和结束时间,行程开始地理位置和结束地理位置(纬度、经度)等信息,本发明验证数据集是纽约共享单车数据集,因此与国内共享单车系统有所区别,开始和结束位置为固定共享单车站点,站点数量有限;
52.所述模糊c均值聚类算法,既能将地理位置(纬度和经度)进行聚类,又能再此基础上额外增加特征维度进行聚类;
53.所述模糊c均值聚类算法区别于其他聚类算法,如ap聚类算法,高斯混合模型聚类算法,k-means聚类算法和谱聚类算法,模糊c均值聚类算法优势在于其中每个数据样本属于一个且仅一个聚类。模糊c均值中的隶属函数提供了概率,这些概率基本上表示每个数据样本对每个簇的强度;
54.由于聚类算法仅能对低维数组处理,因此依据步骤5所述增加聚类特征维度,这里使用斐波那契范式将迁移趋势矩阵降维,获得新的聚类,依次迭代,直到稳定迭代终止;
55.本发明参照图片rgb通道模型,建立流入流出双通道模型,作为时空残差网络的输入,来预测共享单车移动比例;
56.所述步骤s2具体为:
57.步骤s21:随机初始化,即随机选择权重,需要在第一步中设置簇的数量;
58.步骤s22:计算fcm中的质心,它基于隶属度的加权平均值;
59.步骤s23:更新模糊伪分区(更新权重或隶属度)。样本点离质心越近,隶属度越高,反之亦然。
60.对于层次迭代聚类算法的详细设置,如图4所示。给定位置x={x1,x2,...,xm},在第一步中,模糊c均值聚类完全基于每个位置的地理信息:
[0061][0062]
其中,(x
i.lat
,x
i.lon
)分别为第i个位置的经度、纬度信息;
[0063]
第一次迭代后,模糊c均值聚类位置基于其地理信息和迁移趋势:
[0064][0065]
其中为t时刻迁移趋势矩阵的斐波那契范式;
[0066]
依次迭代,直到稳定迭代终止,稳定迭代判定条件为:当预测误差小于预设阈值时;所述预测误差为rmse均方根误差,当均方根误差波动稳定在0.01时,迭代稳定,算法终止。
[0067]
所述的步骤s3和s4:根据流入和流出生成每小时簇与簇间的双通道矩阵,获得的双通道矩阵与时空残差网络模型融合,预测区域间共享单车移动的具体过程为:
[0068]
从步骤s2获得输出矩阵后,采用融合模型,将跨簇的流入和流出转化为一个双通道的类似图像的矩阵,作为时空残差网络的输入。如图5所示,使用2-channel矩阵存储簇与簇之间迁移的流入和流出,就像图片rgb通道(rgb图像具有三个通道:r、g、b)一样。接下来,获得每小时双通道矩阵,其中包含每个簇之间每小时的城市交通流量。
[0069]
实施融合模型后,使用每小时城市交通双通道矩阵作为输入,通过时空残差网络预测城市交通。时空残差网络由三个主要组成部分组成:趋势、周期和近邻性。这三个组件共享相同的网络架构:cnn后跟一系列残差单元。该结构捕捉了相邻区域和非相邻区域之间的空间依赖性。
[0070]
所述的步骤s5:根据步骤s2中获得的簇,获得当前站点与簇之间的迁移趋势矩阵,使用范式对矩阵降维,作为特征值加入到车站站点的地理位置信息中,进行迭代模糊c均值聚类,重复步骤s2,步骤s3和步骤s4,直到结果稳定迭代结束,具体过程为:
[0071]
斐波那契范式如下所示:
[0072][0073]
其中,a
ij
为迁移趋势矩阵,||a||f为迁移趋势矩阵的斐波那契范式。
[0074]
本发明验证数据集是纽约共享单车数据集,其开始和结束位置为固定共享单车站点,站点数量有限。下表给出了本发明的方法与现有技术对比结果。
[0075]
表1
[0076][0077]
从表中可以发现,相较于现有的算法,本发明预测的均方根误差rmse为4.43,预测精度得到了极大的改善。
[0078]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0079]
本发明电子设备包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的计算机程序指令或者从存储单元加载到随机访问存储器(ram)中的计算机程序指令,来执行各种适当的动作和处理。在ram中,还可以存储设备操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0080]
设备中的多个部件连接至i/o接口,包括:输入单元,例如键盘、鼠标等;输出单元,例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0081]
处理单元执行上文所描述的各个方法和处理,例如方法s1~s6。例如,在一些实施例中,方法s1~s6可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法s1~s6的一个或多个步骤。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法s1~s6。
[0082]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
[0083]
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0084]
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0085]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。