本发明属于城市热点区域探测领域。
背景技术:
随着网约车出行方式的兴起,网约车平台积累了大量的网约车订单数据。通常而言,网约车订单数据记录了订单的起止位置、时间以及相关的司乘等信息。基于这些数据,可以挖掘网约车流动特征、热点区域等。poi是地理信息领域的一个专业术语,指地理空间中的兴趣点,poi可以是一个火车站、一个餐馆、一所学校等等。城市热点poi是城市中受欢迎的poi位置,通常是公众出行的重要目的地或关键地点。对城市热点poi进行探测可以为出行推荐、发展规划、建筑选址等提供决策支持。基于网约车订单数据分析热点poi或区域一般采用密度估计方法,在某一poi或区域周围的订单越多,热度越高。然而这种密度估计方法忽略了网约车出行是一种动态变换的过程,存在一定的局限性。
技术实现要素:
本发明提供了一种基于网约车订单数据的城市热点poi探测方法和装置,用于解决现有的空间密度方法无法考虑车流量动态变化特征的问题。
为了解决上述技术问题,本发明提供了一种基于网约车订单数据的城市热点poi探测方法,包括以下步骤:
s1:获取待分析城市区域的poi数据,记为p={p1,p2,p3,...,pn-1,pn,},其中pn为第n个poi点,n为poi的个数,并对获取到的poi点数据进行预处理。
s2:获取poi点之间的距离d={d12,d13,...,dij},dij表示poi点pi到达poi点pj的距离,构建距离矩阵
接着依次取矩阵d每一列向量dn进行标准化,合并标准化后的列向量得到最终的距离权重矩阵k如下式
k=(k1,k2,…,kn)
s3:获取网约车订单数据,所述订单数据应至少包含订单的起点位置、终止位置的属性字段。根据订单数据的终止位置关联到最近poi点位置,得到poi的邻接矩阵a和poi之间的订单数量o。
s4:改进节点排序算法pagerank,构建poi转移矩阵g。算法改造主要考虑订单流量权重因素和空间距离因素。poi转移矩阵g=df+(1-d)k,其中d为引入阻尼系数d(0≤d≤1),f为订单流量权重矩阵,k为距离权重矩阵。
s5:针对poi转移矩阵g利用幂法求解的各poi的pagerank值,其中pagerank值的越大代表该poi点热度越高,pagerank值越小代表该poi点热度越低。
可选地,对获取到的poi点数据进行预处理具体包括:
对空间位置字段、poi类型字段、poi名称缺失的数据项进行清除;
对空间位置数据偏差过大的数据进行清除;
对相似重复的poi数据进行去除冗余。
优选的,阻尼系数取值为0.8至0.85。
在一种实施方式中,s3具体包括:
s3.1:基于欧式距离计算距离订单数据中起点位置和终止位置最近距离的poi点位置;
s3.2:筛除最近距离超过关联阈值距离的订单数据;
s3.3:构建poi邻接矩阵
s3.4:统计eij=1的pi与pj之间的订单数量o={o12,o13,...,oij},oij表示为由poi点pi到达poi点pj的订单数量。
在一种实施方式中,s4具体包括:
s4.1:订单流量权重矩阵f由邻接矩阵a与订单数量o计算得到,订单流量权重矩阵
s4.2:引入阻尼系数d,用于表述网约车空载与非空载状态下的转移概率,其中,df代表网约车非空载状态下的基于订单流量权重的转移概率,(1-d)k代表空载情况下由随机转移的概率。poi流量矩阵将两个概率矩阵进行相加得到:
g=df+(1-d)k
在s5中具体包括:
s5.1:获取到poi转移矩阵g,设置初始列向量gi=(1,1,...,1)t,其中列向量gi的元素个数为n,初始i=0。
s5.2:计算下列公式hi+1=ggi,并计算hi+1进行范化,范化公式为
s5.3:迭代计算s5.2,直至|gi+1-gi|<ε,迭代结束,输出gi+1,其中ε为设定的阈值;
s5.4:获取s5.3中输出的gi+1,进行标准化处理,处理输出pr=(pr1,pr2,pr3,...,prn)t,pr的计算公式如下:
基于同样的发明构思,本发明还提供了一种基于网约车订单数据的城市热点poi探测装置,包括:
数据获取模块,用于获取待分析城市区域内poi数据、网约车订单数据,并基于关系型数据库对数据进行存储;
数据处理模块,用于对poi数据、订单数据进行预处理,用于poi点之间距离矩阵计算处理,用于poi数据与订单数据集的关联和筛除处理;
算法分析模块,用于幂法求解poi转移矩阵的poi热度结果;
结果可视模块,用于对poi热度进行可视化效果展示。
本发明还提供了一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行上述技术方案的基于网约车订单数据的城市热点poi探测方法。
本发明的上述的技术方案的有益效果如下:本发明解决了传统空间密度估计方法中忽略了网约车动态运行的问题,有效利用网约车订单大数据挖掘城市热点poi位置,能够更加科学、有效、真实地反映poi之间的连接状态和热度,可以有效挖掘潜在的热点poi,有助于进一步分析为出行推荐、发展规划、建筑选址等提供决策支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中一组样本poi数据、订单流量数据及空间距离数据示意图;
图2为本发明一实施例中提供的一种基于网约车订单数据的城市热点poi探测方法的流程示意图;
图3为本发明一实施例中所用的装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实例中,进行城市热点poi探测的数据包括待分析城市poi数据和待分析城市的网约车订单数据,网约车订单数据至少包含订单的起点位置、终止位置的属性字段。图1(a)为实施例中的一组样本poi数据,所述样本poi数据中a、b、c、d、e为某一poi位置,poi之间的数字代表处理得到的poi之间存在的订单数量。图1(b)为实施例中的样本poi数据之间的空间连接关系,poi之间的数字代表poi之间的空间距离。
本实施例将基于上述样本数据对基于网约车订单数据的城市热点poi探测方法做进一步详细描述,流程如图2所示,具体步骤包括:
s1:获取待分析城市区域的poi数据,记为p={a,b,c,d,e}。
可选地,对获取到的poi数据进行预处理,包括:
对空间位置字段、poi类型字段、poi名称缺失的数据项进行清除;
对空间位置数据偏差过大的数据进行清除;
对相似重复的poi数据进行去除冗余;
s2:获取网约车订单数据,所述订单数据包含订单的起点位置、终止位置等属性字段。根据订单数据的终止位置关联到最近poi点位置,得到poi的邻接矩阵a和poi之间的订单数量o。如下表1为网约车订单数据的部分样本数据
s3:获取poi点位数据之间的距离d={d12,d13,...,dij},dij表示poi点pi到达poi点pj的距离,构建距离矩阵
接着依次取矩阵d每一列向量dn进行标准化,合并标准化后的列向量得到最终的距离权重矩阵k如下式
k=(k1,k2,…,kn)
由图1(b)实施例中的样本poi数据之间的空间距离即可计算得到相应的距离权重矩阵k如下式所示。
s4:改进节点排序算法pagerank,构建poi转移矩阵g。算法改造主要考虑订单流量权重因素和空间距离因素。poi转移矩阵g=df+(1-d)k,其中d为引入阻尼系数d(0≤d≤1),f为订单流量权重矩阵,k为距离权重矩阵。
优选的,阻尼系数取值为0.85。
s5:针对poi转移矩阵g利用幂法求解的各poi的pagerank值,其中pagerank值的越大代表该poi点热度越高,pagerank值越小代表该poi点热度越低。
在一种实施方式中,s2具体包括:
s2.1:基于欧式距离计算距离订单数据中起点位置和终止位置最近距离的poi点位置;
s2.2:筛除最近距离超过关联阈值距离的订单数据;
s2.3:构建poi邻接矩阵
s2.4:统计eij=1的pi与pj之间的订单数量o={o12,o13,...,oij},oij表示为由poi点pi到达poi点pj的订单数量。
在一种实施方式中,s4具体包括:
s4.1:订单流量权重矩阵f由邻接矩阵a与订单数量o计算得到,订单流量权重矩阵
由图1(a)实施例数据可得到相应的订单流量权重f如下式所示:
s4.2:引入阻尼系数d,用于表述网约车空载与非空载状态下的转移概率,其中,df代表网约车非空载状态下的基于订单流量权重的转移概率,(1-d)k代表空载情况下由随机转移的概率。poi流量矩阵将两个概率矩阵进行相加得到:
g=df+(1-d)k
在s5中具体包括:
s5.1:获取到poi转移矩阵g,设置初始列向量gi=(1,1,...,1)t,其中列向量gi的元素个数为n,初始i=0。
s5.2:计算下列公式hi+1=ggi,并计算hi+1进行范化,范化公式为
s5.3:迭代计算s5.2,直至|gi+1-gi|<ε,迭代结束,输出gi+1,其中ε为设定的阈值;
s5.4:获取s5.3中输出的gi+1,进行标准化处理,处理输出pr=(pr1,pr2,pr3,...,prn)t,pr的计算公式如下:
最终在本发明实施例中,得到最终poi的pr值结果,pr=(0.3019,0.0818,0.1457,0.2810,0.1896)t,热点集中在a、d位置。
基于同样的发明构思,本发明提供了一种基于网约车订单数据的城市热点poi探测装置,用于实现上述实施例的基于网约车订单数据的城市热点poi探测方法,如图3所示包括:
数据获取模块,用于获取待分析城市区域内poi数据、网约车订单数据,并基于关系型数据库对数据进行存储;
数据处理模块,用于对poi数据、订单数据进行预处理,用于poi点位置间距离矩阵计算处理,用于poi数据与订单数据集的关联和筛除处理以及用于订单流量权重矩阵的计算;
算法分析模块,用于利用幂法求解poi转移矩阵的pagerank结果,结果为城市热点poi的评分结果;
结果可视模块,用于对poi热度进行可视化效果展示。
由于本发明实施例所介绍的装置,为实施本发明实施例中所采用的装置,故而基于本发明实施例二所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例二的方法所采用的装置都属于本发明所欲保护的范围。
本发明还提供了一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行上述实施例的基于网约车订单数据的城市热点poi探测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
综上,本发明充分考虑到了poi之间的订单流向流量和空间距离对网约车空载转移的影响,设计和改进了pagerank算法。本发明有效利用网约车订单大数据挖掘城市热点poi位置,能够更加科学、有效、真实地反映poi热度,挖掘潜在的热点poi,有助于进一步为出行推荐、发展规划、建筑选址等提供决策支持。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。