1.本申请实施例涉及智能公交技术领域,具体涉及一种基于分布式机器学习的行车站点优化更新方法和系统。
背景技术:2.在地图上展示公交行驶线路往往是依据公交公司所给出的线路文件,当公交公司对公交线路进行调整变更后,原始站点数据信息往往不能及时更新,或是站点数据本身就存在误差,从而导致实际行车线路与地图数据库内站点位置偏差较大。目前更新站点信息大致有以下三种方式:向公交公司申请获得最新的线路文件;通过调用第三方地图服务商的api接口;经用户反馈,进行手工标注。上述三种更新站点信息的方式,都存在及时性的问题。如采用第一种方式,则公交公司没有通知到应用方线路已变更的义务;采用第二种方式,虽然不需要考虑站点更新问题,第三方地图服务商会维护站点数据,但时效性也不强,他们往往也是依赖第三种方式,即根据用户反馈来进行人工站点标注。而一旦涉及到用户反馈,也就会存在时间上的延迟和人工成本等问题。
技术实现要素:3.本申请实施例的目的在于提出了一种基于分布式机器学习的行车站点优化更新方法和系统,解决现有技术中公交站更新存在时间的延迟和人工成本等技术问题。
4.第一方面,本申请实施例提供了一种基于分布式机器学习的行车站点优化更新方法,该方法包括:
5.s1:将固定时间段内单条线路全部行车的车况信息进行站内和上下行分类,获得上下行分类所对应的疑似单行站点数据;
6.s2:以单辆行车为单位,将疑似单行站点数据通过bisecting k
‑
means算法进行第一层聚类处理,获得每辆行车对应的初始单行站点数据;
7.s3:利用k
‑
means算法对初始单行站点数据进行第二层聚类处理,获得每辆行车的最终单行站点数据,基于时间顺序将最终单行站点数据进行串联处理,获得每辆行车的实际行驶线路;以及
8.s4:将实际行驶线路与原始线路进行差异度计算,以更新差异度小于设定阈值的原始线路的站点位置信息,获得优化后的行车站点线路。
9.在该方法中,基于bisecting k
‑
means算法进行第一层聚类处理后,在利用k
‑
means算法进行第二层聚类处理后获得实际行车的最终站点数据,该方法减少对公交公司线路文件的依赖,而且可以动态更新公交站点信息,实现对异常线路及时发现,大幅缩短公交公司对线路调整的发现时间,降低用户反馈问题站点的可能性,经由人工审核,可对有问题的线路做进一步处理和校验,同时也解决了现有技术中公交站更新存在时间的延迟和人工成本等技术问题。
10.在一些实施例中,s2步骤前还包括利用墨卡托投影将疑似单行站点数据的经纬度
坐标轴转化为墨卡托单元。墨卡托投影便于更准确的展示平面坐标分布,也方便后续运用欧式距离进行聚类算法的计算。
11.在一些实施例中,s3步骤还包括对最终单行站点数据中的每个最终单行站点和对应的原始线路站点的进行平均误差函数计算,具体的计算公式如下:
[0012][0013]
其中,n表示最终单行站点的个数,y
i
表示第i个最终单行站点的向量值,x
i
表示第i个原始线路站点的向量值,i表示自然数,且i≤n。
[0014]
在一些实施例中,s3步骤后还包括对实际行驶线路和原始线路进行线路特征转换成两个行向量。行向量的便于后续实际行驶线路与原始线路进行差异度比较。
[0015]
在一些实施例中,s4步骤还包括响应于将全部行车的实际行驶线路根据对应的差异度大小进行降序排序,选取差异度最小的实际行驶线路作为最优匹配线路,并根据最优匹配线路更新对应的站点信息。
[0016]
第二方面,本申请实施例提供了一种基于分布式机器学习的行车站点优化更新系统,该系统包括:
[0017]
疑似单行站点模块,配置用于将固定时间段内单条线路全部行车的车况信息进行站内和上下行分类,获得上下行分类所对应的疑似单行站点数据;
[0018]
初始单行站点模块,配置用于以单辆行车为单位,将疑似单行站点数据通过bisecting k
‑
means算法进行第一层聚类处理,获得每辆行车对应的初始单行站点数据;
[0019]
实际行驶线路模块,配置用于利用k
‑
means算法对初始单行站点数据进行第二层聚类处理,获得每辆行车的最终单行站点数据,基于时间顺序将最终单行站点数据进行串联处理,获得每辆行车的实际行驶线路。
[0020]
优化行车站点模块,配置用于将实际行驶线路与原始线路进行差异度计算,以更新差异度小于设定阈值的原始线路的站点位置信息,获得优化后的行车站点线路。
[0021]
在一些实施例中,实际行驶线路模块还包括对最终单行站点数据中的每个最终单行站点和对应的原始线路站点的进行平均误差函数计算,具体的计算公式如下:
[0022][0023]
其中,n表示最终单行站点的个数,y
i
表示第i个最终单行站点的向量值,x
i
表示第i个原始线路站点的向量值,i表示自然数,且i≤n。
[0024]
在一些实施例中,优化行车站点模块还包括响应于将全部行车的实际行驶线路根据对应的差异度大小进行降序排序,选取差异度最小的实际行驶线路作为最优匹配线路,并根据最优匹配线路更新对应的站点信息。
[0025]
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0026]
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程
序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0027]
本申请实施例提供的一种基于分布式机器学习的行车站点优化更新方法和系统,从数据源中获取数据,这部分数据集中应能够获取行车时间、车牌号、线路信息、经纬度、上下行类型、开关门状态等特征,但是,真实数据集中可能存在各种各样的问题,比如线路信息陈旧,所以与实际行车的线路不一致。数据集按天为单位读取后经过数据清洗和特征工程等数据准备工作后,喂入本申请的基于分布式机器学习的行车站点优化更新系统的ai模型管线,最终输出结果。其是基于bisecting k
‑
means算法进行第一层聚类处理后,在利用k
‑
means算法进行第二层聚类处理,减少对公交公司线路文件的依赖,动态更新公交站点信息,对异常线路及时发现,大幅缩短公交公司对线路调整的发现时间,降低用户反馈问题站点的可能性,经由人工审核,可对有问题的线路做进一步处理和校验。解决了现有技术中公交站更新存在时间的延迟和人工成本等技术问题。
附图说明
[0028]
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0029]
图1是根据本申请的一种基于分布式机器学习的行车站点优化更新方法的一个实施例的流程图;
[0030]
图2是根据本申请的一种基于分布式机器学习的行车站点优化更新方法的模型策略图;
[0031]
图3是根据本申请的a模型效果分析图;
[0032]
图4是根据本申请的上行站点墨卡托坐标效果分析图;
[0033]
图5是根据本申请的c模型效果分析图;
[0034]
图6是根据本申请的d模型效果分析图;
[0035]
图7是根据本申请的b、c、d模型处理后的站点数量变化直方图;
[0036]
图8是根据本申请的e模型效果分析图;
[0037]
图9是根据本申请的f模型效果分析图;
[0038]
图10是根据本申请的某班次的实际行驶线路和原始线路喂入f模型处理后的样例数据图;
[0039]
图11是根据本申请的g模型处理后的样例数据图;
[0040]
图12是根据本申请的一种基于分布式机器学习的行车站点优化更新系统的一个实施例的结构示意图;
[0041]
图13是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0042]
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0043]
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0044]
参考图1,其示出了根据本申请的一种基于分布式机器学习的行车站点优化更新方法的一个实施例的流程图100。该方法包括以下步骤:
[0045]
步骤101,将固定时间段内单条线路全部行车的车况信息进行站内和上下行分类,获得上下行分类所对应的疑似单行站点数据。
[0046]
在本实施例中,将某天某条线路的行车车况信息进行站内分类和上、下、环行分类,其中,行车车况信息具体包括记录时间、位置经度、位置纬度、上下行、上一站编号、下一站编号和开关状态等。可根据行车的开门信息的开关状态来判断该行车是否处于站点内,而上、下、环行分类是根据行车数据中的上下行类型判断,最后获得已分类好上下行类别的对应疑似单行站点数据。
[0047]
步骤102,以单辆行车为单位,将疑似单行站点数据通过bisecting k
‑
means算法进行第一层聚类处理,获得每辆行车对应的初始单行站点数据。
[0048]
在本实施例中,将步骤101识别到的疑似单行站点数据分别以单辆行车为单位,进一步针对站点位置缩小站点选择范围。利用墨卡托投影将单辆行车的疑似单行站点数据的经纬度坐标轴转化为墨卡托单元,同时为了避免进入局部最小值,采用bisecting k
‑
means对离散站点群进行簇中心计算,所得结果为初始单行站点数据集。
[0049]
步骤103,利用k
‑
means算法对初始单行站点数据进行第二层聚类处理,获得每辆行车的最终单行站点数据,基于时间顺序将最终单行站点数据进行串联处理,获得每辆行车的实际行驶线路。
[0050]
在本实施例中,同样用来进行站点识别,但除此之外需要对站点的选择进一步优化,以增加站点位置识别精度,采用k
‑
means算法进行聚类,获得最终单行站点数据。并将最终单行站点数据采用时间顺序方式串联成站点识别线路,获得每辆行车的实际行驶线路。
[0051]
进一步优选的,对最终单行站点数据中的每个最终单行站点和对应的原始线路站点的进行平均误差函数计算,具体的计算公式如下:
[0052][0053]
其中,n表示最终单行站点的个数,y
i
表示第i个最终单行站点的向量值,x
i
表示第i个原始线路站点的向量值,i表示自然数,且i≤n。
[0054]
步骤104,将实际行驶线路与原始线路进行差异度计算,以更新差异度小于设定阈值的原始线路的站点位置信息,获得优化后的行车站点线路。
[0055]
在本实施例中,在进行差异度计算前,需要将实际行驶线路和原始线路进行线路特征变换处理,最后转换成两个行向量,而相关特征计算用于生成线路特征矩阵,主要是将实际行驶线路和原始线路向量化输出,然后将实际行驶线路与原始线路进行差异度计算,并更新差异度小于设定阈值的原始线路的站点位置信息,获得优化后的行车站点线路。
[0056]
进一步优选的,响应于将全部行车的实际行驶线路根据对应的差异度大小进行降序排序,选取差异度小于设定阈值且差异度最小的实际行驶线路作为最优匹配线路,并根据最优匹配线路更新对应的站点信息,将最优匹配线路更新至公交站点数据库中。
[0057]
更进一步优选的,为了区别某些车辆路线异常还是该线路异常,需要将全部行车的实际行驶线路汇总为车辆路径集,若仅有少数车辆的实际行驶线路与原始线路极不相
同,则将不匹配车辆汇总为车辆路径异常集,若全部车辆的实际行驶线路与原始线路都极不相同,则将该原始线路判定为线路异常,并将车辆路径异常集和线路异常反馈给告警模块,进行相应的告警处理,最后由人工处理。如该单条线路有10辆行车航行,仅有1
‑
3辆行车的实际行驶线路与原始线路不匹配,则将不匹配的实际行驶线路对应的行车汇总成车辆路径异常集,若10辆行车的实际行驶线路都与原始线路不匹配,则判断该原始线路为异常线路。
[0058]
继续参考图2,图2示出了根据本申请的一种基于分布式机器学习的行车站点优化更新方法的模型策略图。该行车站点优化更新方法依次包括a、b、c、d、e、f、g模型,其中,a模型用来区分公交车是否停在停车站点内,并将捕获到的公交站的疑似站点数据经过b模型进行上、下和环行站点的分类,将经b模型分类好的上行站点数据、下行站点数据和环形站点数据,以单辆车为单位的分别经过c模型的第一层聚类处理,再分别进入d模型进行第二层聚类处理后,获得上、下和环行对应的最终站点数据,将每辆车的最终站点数据导入e模型根据时间顺序串联成每辆车的实际行驶线路,将每辆车的实际行驶线路和对应的原始记录线路分别输入f模型进行线路特征变换后,一起喂入g模型进行差异度匹配,获得更新站点的位置信息、车辆路径异常信息和线路异常信息。
[0059]
在一些具体的实施例中,参考表1
‑
表3和图3,图3示出了根据本申请的a模型效果分析图。表1为某条线路某天(9:00~17:00)的部分公交车况信息样例数据,表2为过a模型数据处理的部分疑似站点样例数据,表3为针对表1和表2的各个特征的说明。在a模型中输入表1的公交车况数据,使其根据开关状态捕获如表2的疑似站点数据,如果将疑似站点数据以x轴表示纬度位置,y轴表示经度位置的方向呈现(如图3所示),图中散点均为开门停车点,假定散点为疑似站点,从图3可知,上行站点与下行站点存在些许差异。
[0060]
表1:
[0061]
rcrd_timelo_lgtlo_lttup_dnprvs_stn_cdnext_stn_cdswtc_st2020
‑
10
‑
12 10:00:00:530119.31248226.1115471null200000000000000000002020
‑
10
‑
12 10:00:07:423119.31226826.1111731null200000000000000000002020
‑
10
‑
12 10:00:08:670119.31224026.1110781null200000000000000000002020
‑
10
‑
12 10:00:09:943119.31222026.1109651null200000000000000000002020
‑
10
‑
12 10:00:11:188119.31219726.1108521null200000000000000000002020
‑
10
‑
12 10:00:12:450119.31214026.1106071null200000000000000000002020
‑
10
‑
12 10:00:13:721119.31211226.1104801null200000000000000000002020
‑
10
‑
12 10:00:14:967119.31209526.1103651null200000000000000000002020
‑
10
‑
12 10:00:16:231119.31202326.1101001null200000000000000000002020
‑
10
‑
12 10:00:18:767119.31198526.1098381null200001000000000000002020
‑
10
‑
12 10:00:20:023119.31195826.1097221null200001000000000000002020
‑
10
‑
12 10:00:21:280119.31193726.1096081null200001000000000000002020
‑
10
‑
12 10:00:22:532119.31191026.1093701null200001000000000000002020
‑
10
‑
12 10:00:23:825119.31190026.1092471null200001000000000000002020
‑
10
‑
12 10:00:25:064119.31188226.1091251null200001000000000000002020
‑
10
‑
12 10:00:26:306119.31183326.1088801null200001000000000000002020
‑
10
‑
12 10:00:27:559119.31181326.1087531null200001000000000000002020
‑
10
‑
12 10:00:31:313119.31174226.1082901null200001000000000000002020
‑
10
‑
12 10:00:33:815119.31174726.1081131null200001000000000000002020
‑
10
‑
12 10:00:35:062119.31176526.1080321null200000000000000000002020
‑
10
‑
12 10:00:36:303119.31175726.1079631null20000000000000000000
2020
‑
10
‑
12 10:00:37:583119.31175726.1079631null200000000000000000002020
‑
10
‑
12 10:00:38:838119.31175726.1079631null200000000000000000002020
‑
10
‑
12 10:00:55:362119.31175726.1079631null200000000000000000002020
‑
10
‑
12 10:00:56:636119.31175726.1079631null20000000000000000000
[0062]
表2:
[0063]
rcrd_timelo_lgtlo_lttup_dnprvs_stn_cdnext_stn_cd2020
‑
10
‑
12 10:02:12:404119.30531726.0821231792020
‑
10
‑
12 10:02:14:766119.30531726.0821231792020
‑
10
‑
12 10:02:17:286119.30531726.0821231792020
‑
10
‑
12 10:03:52:492119.30654526.07753518102020
‑
10
‑
12 10:03:53:739119.30654526.07753518102020
‑
10
‑
12 10:03:54:983119.30654526.07753518102020
‑
10
‑
12 10:05:02:277119.30732826.07360019112020
‑
10
‑
12 10:05:03:527119.30732826.07360019112020
‑
10
‑
12 10:05:04:797119.30732826.07360019112020
‑
10
‑
12 10:05:08:805119.30732826.0736001911
[0064]
表3:
[0065]
分类特征名含义备注基础信息rcrd_time记录时间格式:yyyy
‑
mm
‑
dd hh24:mi:ss:ms基础信息lo_lgt位置经度重要特征且存在null数据基础信息lo_ltt位置纬度重要特征且存在null数据基础信息up_dn上下行0
‑
上行;1
‑
下行;2
‑
环形,注:重要特征且存在null数据。基础信息prvs_stn_cd上
‑
站点编号存在null数据基础信息next_stn_cd下
‑
站点编号存在null数据车身swtc_st开关状态9到11位分别为:前门信号、中门信号和后门信号。
[0066]
在一些具体的实施例中,参考表4、表5和图4,图4示出了根据本申请的上行站点墨卡托坐标效果分析图。表4和表5为过b模型数据处理的部分疑似单行站点样例数据。将经过a模型处理后的疑似站点数据输入b模型进行上、下和环行分类,并利用墨卡托投影将疑似单行站点数据的经纬度坐标轴转化为墨卡托单元(如图4所示),其以上行站点为例,并且增加了两个特征:x和y,这两个特征是由经纬度坐标系转换到墨卡托坐标系形成的,通过这样的坐标系统变换,可以更准确的展示平面坐标分布,同时方便后续运用欧式距离进行聚类算法的运算。
[0067]
表4:
[0068]
rcrd_timelo_lgtlo_lttup_dnprvs_stn_cdnext_stn_cdxy2020
‑
10
‑
12 10:00:48:835119.31675726.04755709111.328228063234476e73004972.27478779762020
‑
10
‑
12 10:00:51:348119.31675726.04755709111.328228063234476e73004972.27478779762020
‑
10
‑
12 10:00:53:876119.31675726.04755709111.328228063234476e73004972.27478779762020
‑
10
‑
12 10:00:56:383119.31675726.04755709111.328228063234476e73004972.27478779762020
‑
10
‑
12 10:00:58:898119.31675726.04755709111.328228063234476e73004972.27478779762020
‑
10
‑
12 10:01:01:418119.31675726.04755709111.328228063234476e73004972.27478779762020
‑
10
‑
12 10:06:39:074119.31575526.061095010121.3282169090214984e73006649.790580949
[0069]
表5:
[0070]
rcrd_timelo_lgtlo_lttup_dnprvs_stn_cdnext_stn_cdxy
2020
‑
10
‑
12 10:06:41:557119.31575526.061095010121.3282169090214984e73006649.7905809492020
‑
10
‑
12 10:06:44:045119.31575526.061095010121.3282169090214984e73006649.7905809492020
‑
10
‑
12 10:06:46:531119.31575526.061095010121.3282169090214984e73006649.7905809492020
‑
10
‑
12 10:09:57:722119.31542726.066447011131.3282132577422004e73007313.01914217742020
‑
10
‑
12 10:10:00:273119.31542726.066447011131.3282132577422004e73007313.01914217742020
‑
10
‑
12 10:10:02:791119.31542726.066447011131.3282132577422004e73007313.01914217742020
‑
10
‑
12 10:10:05:308119.31542726.066447011131.3282132577422004e73007313.01914217742020
‑
10
‑
12 10:10:07:810119.31542726.066447011131.3282132577422004e73007313.01914217742020
‑
10
‑
12 10:12:53:929119.31219726.067698012141.3281773015466742e73007468.049470206
[0071]
在一些具体的实施例中,参考图5,图5示出了本申请的c模型效果分析图。将经过b模型上、下和环行分类和墨卡托单位转换后的疑似单行站点数据喂入c模型进行第一层聚类,c模型使用bisecting k
‑
means算法进行第一层聚类,以缩小d模型站点的搜索空间。在具体实践过程中我们期望c模型输出站点将b模型聚类后的站点全部覆盖,并且在不丢失实际站点的条件下数量上较b模型有显著下降,即在同一个实际站点上识别的站点数量只多不少。在图5中可以看到经过c模型处理的浅灰色c点集将经过b模型处理的深灰色b点集全部覆盖,部分点还可看出c点在对应b点的中心处。
[0072]
在一些具体的实施例中,参考图6,图6示出了本申请的d模型效果分析图。将经过c模型第一层聚类处理后的初始单行站点数据喂入d模型进行第二层聚类,d模型使用k
‑
means算法进行第二层聚类,以确定最终的站点位置。在具体实践过程中我们期望d模型输出站点将c模型聚类后的站点全部覆盖,并且识别后的站点数量不多不少恰好为实际站点数量。从图6可知,经d模型处理后的d点在对应的b模型和c模型处理后的b点集、c点集的中心且没有丢失站点信息。经过c模型和d模型的第一层聚类和第二层聚类,可将经过b模型识别到的站点数量大幅度下降,具体参考图7,图7示出了本申请的b、c、d模型处理后的站点数量变化直方图。由图7可知,b模型处理后的上行、下行或环行的疑似单行站点数据最多,经过c模型进行第一层聚类后,输出的数量下降了1/3有余,再经过d模型进行第二层聚类后,输出的站点数量相较于第一层聚类后更下降2/3,使得d模型的最终站点数量为我们所需的实际站点数。虽然单纯从量化指标上并不能完全代替站点图像的整体观察,但对于后期算法自动优化和模型性能评价依然具有重要的数学意义,下面给出站点平均误差函数,最终单行站点数据中的每个最终单行站点和对应的原始线路站点的进行平均误差函数计算,具体的计算公式如下:
[0073][0074]
其中,n表示最终单行站点的个数,y
i
表示第i个最终单行站点的向量值,x
i
表示第i个原始线路站点的向量值,i表示自然数,且i≤n。
[0075]
在一些优选的实施例中,如果利用上述误差函数计算站点平均误差为10.03米;由于gps本身存在一定的误差且驾驶员停车点会落在某个区间,计算后各站点平均误差在11米内,而且这个距离在人肉眼的可视范围,所以可认定该模型效果较为理想。
[0076]
在一些具体的实施例中,参考表6、表7和图8,图8示出了根据本申请的e模型效果分析图。表6和表7为经过d模型处理后的部分最终单行站点样例数据,其中,表6和表7中的prediction列的值是d模型站点的顺序,但不是实际顺序,将一趟班次数据分组并按照纪元秒的最小值聚合,最后以最小纪元秒升序排列,即可得到如图8所示的站点实际顺序。如图8
所示,散点即为进站数据,纵坐标为进站的日期时间信息,横坐标为对应纵坐标数据的纪元秒数据,纪元秒数据的设置主要是为了将时间信息在横轴上均匀分布,避免因时间进制的问题导致趟次间隔异常。从图8可以明显看出,在9:00~17:00期间,该行车共有两次上行航班。为了保证航班的站点数据的完整性,在此定义纪元秒间隔大于3600秒即一小时的前后站点为线路的首末站点,从这个阈值条件来挖掘一趟班次信息。同时针对班次不完整的情况使用原始站点文件中的站点数量进行校验,如果不匹配,则说明该趟班次数据可能不完整;接着进行下一趟班次的匹配,如果所有趟次的站点信息都与原始站点数量不同,则该线路可能有实际的线路调整,应交人工审核。
[0077]
表6:
[0078]
predictionfeaturexfeatureymin(epochsecond)231.3283899106421404e73002431.8354561245160908042061.3283953541652402e73002665.1086868676160908072041.3283823297848172e73003173.0452892045160908078021.3283607894633489e73004001.8872790081609081140161.3283184880568475e73004055.1627452021609081320241.3283165399657585e73004488.1880333911609081380101.3282979496107958e73004568.7234884661609081500211.3282800828325238e73004527.83620206160908156051.328249136014083e73004732.8932969471609081740221.3282284027589228e73004961.185343084160908180001.3282162411045536e73006647.93179993151609082220121.3282126232211027e73007302.2377190691609082280181.3281764443865951e73007467.67769392771609082400141.328131174460339e73007622.792294291609082520151.3281223987738151e73008298.00417695571609082640
[0079]
表7:
[0080]
predictionfeaturexreatureymin(epochsecond)31.3281156639446221e73008697.69319191609082640111.3281037527591072e73009233.727527636160908282091.3280885019888684e73009860.2621276695160908300081.3280182037304323e73010155.8768694151609083240131.327920149812292e73010033.7878752667160908348071.3278537291827854e73009904.2631028421609083600201.3278280143804122e73009793.95105450231609083660171.327792058184886e73010123.65023177021609083780191.327790499712015e73010405.0159848463160908384011.327785800005512e73011448.5057892811609083960
[0081]
在一些具体的实施例中,参考图9和图10,图9示出了根据本申请的f模型效果分析图,图10示出了根据本申请的某班次的实际行驶线路和原始线路喂入f模型处理后的样例
数据图。将经过e模型时间顺序排序处理的实际行驶线路的数据喂入f模型进行线路特征变换处理,同时,将原始线路也导入f模型进行线路特征变换处理,经过f模型后,一般形成两条向量,一条为原始线路文件的站点坐标向量,另一条为该趟班次经过计算后的站点向量,具体样例数据内容可参考如图10所示。在此,以原始线路为例说明,原始的线路数据是由多个坐标点所组成的,可表示为x和y两列向量所组成的矩阵。假设有25个站点,那该线路矩阵就有25个行向量,经过f模型特征变换后,这个矩阵将被压扁为一个如图9所示的具有25个元组,每个元组有2个组元即为横纵坐标,最终形成的行向量一共有50个元素。
[0082]
在一些具体的实施例中,可以使用向量间距离计算的方式来计算实际行驶线路与原始线路的差异度,其差异度最终计算的结果越接近0则判定实际行驶线路与原始线路越相似。将f模型生成的两个向量导入g模型进行差异度计算,经过计算后的差异度值为69.32;为了形成对比,将实际行驶线路的上行班次向量进行反向处理,模拟一次下行班次向量,具体样例数据如图11所示,其与原始线路文件的上行向量计算差异度的结果为33914.42。可见,上下行线路差距较大,在实际使用时可设定阈值来判断线路是否存在差异,比如可设定k*10为设定阈值,其中,k为已知的站点数量。经过g模型处理,若实际行驶线路与原始线路的差异度小于等于设定阈值,则将该线路上全部行车的实际行驶线路汇总成车辆路径集,便于后续车辆路径异常判断,若实际行驶线路与原始线路的差异度大于设定阈值,则判断实际行驶线路为线路异常,并将线路异常反馈给告警模块,进行相应的告警处理,最后由人工处理。
[0083]
在一些具体的实施例中,h模型负责收集g模型的产出,最终选取最优的线路来更新旧的线路数据,并对接后续的异常告警模块,将异常行驶线路的车辆抓取出来,以进行进一步处理。从c模型开始到g模型结束,实则为对车辆行驶信息的遍历过程,即给c模型投喂的数据以单辆车为单位。因为如果是以其他车辆进行输入,如按照线路进行投喂,则数据中混入多辆车的信息,这就有可能发生某辆车实际行驶的线路与数据中不相符的问题,如果有这种情况的发生,则会对cd模型进行干扰,故以单辆车为单位来过模型管线。
[0084]
继续参考图12,其示出了根据本申请的一种基于分布式机器学习的行车站点优化更新系统的一个实施例的结构示意图,如图12所示,行车站点优化更新系统1200包括以下单元。
[0085]
疑似单行站点模块1201,配置用于将固定时间段内单条线路全部行车的车况信息进行站内和上下行分类,获得上下行分类所对应的疑似单行站点数据;
[0086]
初始单行站点模块1202,配置用于以单辆行车为单位,将疑似单行站点数据通过bisecting k
‑
means算法进行第一层聚类处理,获得每辆行车对应的初始单行站点数据;
[0087]
实际行驶线路模块1203,配置用于利用k
‑
means算法对初始单行站点数据进行第二层聚类处理,获得每辆行车的最终单行站点数据,基于时间顺序将最终单行站点数据进行串联处理,获得每辆行车的实际行驶线路。
[0088]
优化行车站点模块1204,配置用于将实际行驶线路与原始线路进行差异度计算,以更新差异度小于设定阈值的原始线路的站点位置信息,获得优化后的行车站点线路。
[0089]
在一些具体的实施例中,实际行驶线路模块1203还包括对最终单行站点数据中的每个最终单行站点和对应的原始线路站点的进行平均误差函数计算,具体的计算公式如下:
[0090][0091]
其中,n表示最终单行站点的个数,y
i
表示第i个最终单行站点的向量值,x
i
表示第i个原始线路站点的向量值,i表示自然数,且i≤n。
[0092]
在一些具体的实施例中,优化行车站点模块1204还包括响应于将全部行车的实际行驶线路根据对应的差异度大小进行降序排序,选取差异度最小的实际行驶线路作为最优匹配线路,并根据最优匹配线路更新对应的站点信息
[0093]
下面参考图13,其示出了适于用来实现本申请实施例的电子设备的计算机系统1300的结构示意图。图13示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0094]
如图13所示,计算机系统1300包括中央处理单元(cpu)1301,其可根据存储在只读存储器(rom)1301中的程序或者从存储部分1308加载到随机访问存储器(ram)1303中的程序而执行各种适当的动作和处理。在ram 1303中存储系统1300操作所需的各种程序和数据。cpu 1301、rom 1301以及ram 1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。
[0095]
以下部件连接至i/o接口1305:包括输入部分1306、输出部分1307、存储部分1308、通信部分1309、驱动器1310、可拆卸介质1311。驱动器1310可根据需要连接至i/o接口1305,可拆卸介质1311根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
[0096]
特别地,根据本公开的实施例,上文参考流程图描述的过程可被实现为计算机软件程序。可以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码。程序代码可完全地在训练者计算机上执行、部分地在训练者计算机上执行、作为一个独立的软件包执行、部分在训练者计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到训练者计算机,或者可连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0097]
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0098]
描述于本申请实施例中所涉及到的模块可通过软件的方式实现,也可通过硬件的方式来实现。所描述的模块也可设置在处理器中,例如,可描述为:一种处理器包括疑似单行站点模块、初始单行站点模块、实际行驶线路模块和优化行车站点模块。其中,这些模块
的名称在某种情况下并不构成对该单元本身的限定,例如,疑似单行站点模块还可被描述为“将固定时间段内单条线路全部行车的车况信息进行站内和上下行分类,获得上下行分类所对应的疑似单行站点数据”。
[0099]
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将固定时间段内单条线路全部行车的车况信息进行站内和上下行分类,获得上下行分类所对应的疑似单行站点数据;以单辆行车为单位,将疑似单行站点数据通过bisecting k
‑
means算法进行第一层聚类处理,获得每辆行车对应的初始单行站点数据;利用k
‑
means算法对初始单行站点数据进行第二层聚类处理,获得每辆行车的最终单行站点数据,基于时间顺序将最终单行站点数据进行串联处理,获得每辆行车的实际行驶线路;以及将实际行驶线路与原始线路进行差异度计算,以更新差异度小于设定阈值的原始线路的站点位置信息,获得优化后的行车站点线路。
[0100]
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。