本发明涉及互联网领域,尤其涉及一种城市共享单车异常的检测方法。
背景技术:
在“互联网+”的大政策背景下,共享经济获得了蓬勃发展,尤其以共享单车的发展最为迅速。自2007年8月起,北京开始将公共自行车引入国内市场,以政府为主导,分城市统一管理的城市公共自行车的发展一直不温不火,不少城市的经营糟糕,亏损严重。直到2014年北大毕业生戴威创立ofo以来,共享单车便呈现井喷式增长。截止2017年5月,据不完全统计,共享单车运营企业已超过30多家,累计投放单车数量超过1000万辆,注册用户超1亿人次,累计服务超过10亿人次。共享单车的产生极大方便了公众短距离出行和公共交通接驳换乘,在更好地满足公众出行需求、有效解决城市交通出行“最后一公里”问题、缓解城市交通拥堵、构建绿色出行体系等方面发挥了积极作用,推动了共享经济的发展。
然而,在实际运营过程中,共享单车的使用也面临着挑战,如:单车被恶意的损害造成无法使用、单车骑行速度过快容易影响骑行行车安全、单车被同一个骑行者私自占用、单车因骑行里程过长而造成技术状况下降等等异常情况的出现,由于单车的投放量和使用是惊人的,这些异常的检测无法依靠人工逐车逐人排查。
技术实现要素:
本发明的目的在于提供一种城市共享单车异常的检测方法,解决了现有单车异常需要人工逐车逐人排查,造成的成本过高、无法精准排除异常的缺陷。
为了达到上述目的,本发明采用的技术方案是:
本发明提供的一种城市共享单车异常的检测方法,根据单车骑行数据,通过统计法检测单车的异常,其中,单车的异常包括骑行速度的异常fn(pn)、骑行时长的异常ff(pn)、骑行计费的异常fc(pn)、骑行者同车使用频率的异常fe(pn)、单车保修的异常fg(pn)、骑行间隔的异常fh(pn)、单车位置的异常fi(pv)、单车使用频率的异常fi(pv)和骑行里程或骑行次数的异常fk(pv);
单车的骑行数据包括具体包括骑行者idpn、单车的二维码pv、骑行起始时间pa、骑行结束时间pb、骑行的起始地po、骑行的目的地pd、骑行的里程pe、骑行的时长pf和骑行费用pc。
优选地,骑行速度异常fn(pn)的检测方法:随机抽取骑行者的一次骑行,根据式(1)对骑行者的骑行速度进行判断,令骑行者的速度异常标记为fn(pn),当fn(pn)=1时,则表示骑行速度异常;当fn(pn)=0时,则表示骑行速度正常:
其中,v为平均骑行速度,
优选地,骑行时长的异常ff(pn)检测方法:随机抽取骑行者的一次骑行,根据式(2)对该次骑行的骑行时长进行判断,令骑行者的时长异常标记为ff(pn),当ff(pn)=1时,则表示异常骑行时长;当ff(pn)=0时,表示正常骑行时长:
其中,tf1为短时阈值;tf2为长时阈值。
优选地,骑行计费的异常fc(pn)检测:根据式(3)对该次骑行的骑行计费进行判断,令骑行者的计费异常标记为fc(pn),当fc(pn)=1表示骑行计费异常;当fc(pn)=0表示骑行计费正常:
其中,ca和cb分别表示实际支付费用和应支付费用。
优选地,骑行者同车使用频率的异常fe(pn)检测:随机抽取骑行者的若干次骑行次数作为观测次数,在观测次数内,筛选出骑行者骑行次数最多的相同单车,则将该单车的骑行次数与观测次数的比值定义为骑行者的同车使用频率;根据式(4)对同车使用频率的异常进行判断,当骑行者的同车使用频率大于阈值t1时,令同车使用频率异常标记fe(pn)=1,表示骑行者的同车使用频率为异常;当骑行者的同车使用频率小于等于阈值t1时,令同车使用频率异常标记fe(pn)=0,表示骑行者的同车使用频率为正常:
其中,nu为观测次数,表示骑行者pn的最近的n次骑行;na表示观测次数内使用次数的最多的单车的使用次数;na和nu的比值定义为同车使用频率。
优选地,单车保修的异常fg(pn)检测:随机取骑行者的若干次骑行次数作为观测次数,在观测次数内,骑行者的保修次数与观测次数的比值定义为单车报修频率,根据式(5)对单车保修异常进行检测,当报修频率大于阈值t2时,令单车报修的异常标记fg(pn)=1,表示单车报修异常;当报修频率小于等于阈值t2时,令单车报修的异常fg(pn)=0,表示单车报修正常:
其中,nb表示观测次数内骑行者报修的次数;na和nu的比值定义为报修频率。
优选地,骑行间隔的异常fh(pn)检测:随机取单车的若干次骑行次数作为观测次数,在观测次数内,计算单车的骑行间隔,通过骑行间隔筛选出骑行体验不佳的单车;骑行间隔定义为:相邻两次骑行中,前次骑行结束时间和下次骑行开始时间的差值;
根据式(6)对骑行间隔异常进行检测,当相邻的两次骑行间隔大于阈值t3时,令骑行间隔异常标记fh(pn)=1,表示骑行间隔的异常;当相邻两次骑行间隔小于等于阈值t3时,令骑行间隔异常标fh(pn)=0,表示骑行间隔的正常:
其中,oti+1(pn)表示骑行者pn的第i+1次骑行的开始时间;dti(pn)表示骑行者pn的第i次骑行的结束时间。
优选地,单车位置的异常fi(pv):若单车的地理位置超出正常地理位置时,令单车使用频率异常标记fi(pv)=1,表示单车的地理位置异常;若单车的地理位置超出正常地理位置时,令单车使用频率异常标记fi(pv)=0,表示单车的地理位置正常;
其中,正常的地理位置具体是通过统计法统计得到:统计一段时间内出现频率在80%以上的地理位置作为正常地理位置数据库,且该地理位置需要及时进行更新。
优选地,单车使用频率的异常fi(pv)检测:单车使用频率定义为在观测时间段内单车的使用次数,根据式(7)对单车使用频率的异常进行检测;若单车使用频率小于阈值t4时,令单车使用频率异常标记fi(pv)=1,表示单车使用频率异常;若单车使用频率大于等于阈值t4时,令单车使用频率异常标记fi(pv)=0,表示单车使用频率正常:
其中,nv表示观测时间段内单车pv的使用次数;t4的取值为统计正常地理位置中抽样单车在观测时段内的平均的使用次数。
优选地,骑行里程或骑行次数的异常fk(pv)检测,根据式(8)对骑行里程或骑行时长的异常进行检测:
当单车的累计骑行里程或累计骑行时长超过门限值t5或t6时,令单车里程异常标记fk(pv)=1,表示骑行里程或骑行次数异常;当单车的累计骑行里程或累计骑行时长不超过门限值t5或t6时,令单车里程异常标记令fk(pv)=0,表示骑行里程或骑行次数正常:
其中,lv(pv)和lt(pv)分别表示单车pv的累计骑行里程和累计骑行时长。
与现有技术相比,本发明的有益效果是:
本发明提供的一种城市共享单车异常骑行的检测方法,以单车骑行数据为研究对象,通过大数据挖掘技术和统计法,对异常骑行数据进行检测,其中,单车的异常包括骑行速度的异常fn(pn)、骑行时长的异常ff(pn)、骑行计费的异常fc(pn)、骑行者同车使用频率的异常fe(pn)、单车保修的异常fg(pn)、骑行间隔的异常fh(pn)、单车位置的异常fi(pv)、单车使用频率的异常fi(pv)和骑行里程或骑行次数的异常fk(pv)。本发明一方面可以从骑行数据自动检测出单车的异常骑行,为单车的调度和经营管理提供支持;另一方面分别以骑行者和单车为研究对象,从单次骑行和多次骑行统计多交通分析异常的骑行,可以达到快速、鲁棒检测异常骑行的目的。不仅能简化单车的管理,也可以提高单车的行车安全。
具体实施方式
下面对本发明作进一步的详细说明。
本发明提出了一种城市共享单车异常骑行的检测方法,以单车骑行数据为研究对象,通过大数据挖掘技术,对异常骑行数据进行检测,不仅能简化单车的管理,也可以提高单车的行车安全。
而单车异常的因素包括骑行速度的异常、骑行时长的异常、骑行计费的异常、骑行者同车使用频率的异常、单车保修的异常、骑行间隔的异常、单车位置的异常、单车使用频率的异常和骑行里程或骑行次数的异常。
具体地,通过单车的骑行数据对以上异常进行检测,其中,单车的骑行数据包括具体包括骑行者id(即电话号码)pn、单车的二维码pv、骑行起始时间pa、骑行结束时间pb、骑行的起始地po、骑行的目的地pd、骑行的里程pe、骑行的时长pf和骑行费用pc。
具体的检测步骤如下:
步骤s1,骑行速度的异常检测:
单车骑行速度的异常为单车的骑行速度过快或过慢,一方面是由骑行人的异常骑行引起的,对骑行安全极其不利;另一方面也有可能是由于定位数据误差过大或系统时间出错引起的。
对于骑行速度异常的检测具体为:随机抽取骑行者的一次骑行,根据式(1)对骑行者的骑行速度进行判断,令骑行者的速度异常标记为fn(pn),当fn(pn)=1时,则表示骑行速度异常;当fn(pn)=0时,则表示骑行速度正常:
其中,v为平均骑行速度,
步骤s2,骑行时长的异常检测:
骑行时长的异常主要表现为骑行时间过长或过短,引起骑行时长过短或过长的原因主要为单车故障和出行者的异常占用等。
骑行时长异常的检测具体为:随机抽取骑行者的一次骑行,根据式(2)对该次骑行的骑行时长进行判断,令骑行者的时长异常标记为ff(pn),当ff(pn)=1时,则表示异常骑行时长;当ff(pn)=0时,表示正常骑行时长:
其中,tf1为短时阈值,设定tf1取值为1min;tf2为长时阈值,设定tf2取值为180min(=3h)。
步骤s3,骑行计费的异常检测:
引起骑行计费异常原因主要是系统出现崩溃,通过对骑行计费的异常检测,便于后续追费或退费处理;骑行计费异常表现为骑行者实际支付的骑行费用与应支付的骑行费用不一致。
令骑行者的计费异常标记为fc(pn),当fc(pn)=1表示骑行计费异常;当fc(pn)=0表示骑行计费正常。
其中,ca和cb分别表示实际支付费用和应支付费用。
步骤s4:骑行者同车使用频率的异常检测:
随机抽取骑行者的若干次骑行次数作为观测次数,在观测次数内,筛选出骑行者骑行次数最多的相同单车,则将该单车的骑行次数与观测次数的比值定义为骑行者的同车使用频率,根据骑行者的同车使用频率可以检测出单车是否为异常占用或使用次数过低;根据实际需要,观测次数的取值为10-100次。
当骑行者的同车使用频率大于一定值时,令同车使用频率异常标记fe(pn)=1,表示骑行者的同车使用频率为异常;当骑行者的同车使用频率小于等于一定值时,令同车使用频率异常标记fe(pn)=0,表示骑行者的同车使用频率为正常。
其中,nu为观测次数,表示骑行者pn的最近的n次骑行;na表示观测次数内使用次数的最多的单车的使用次数;na和nu的比值定义为同车使用频率;t1为阈值,可取定值为0.2~0.4,也可根据历史数据,统计多名骑行者的使用频率的均值来确定t1的取值。
步骤s5:单车报修的异常检测:
通过单车保修的异常判断骑行者是否为恶意误报,随机取骑行者的若干次骑行次数作为观测次数,在观测次数内,骑行者的保修次数与观测次数的比值定义为单车报修频率;根据实际需要,观测次数取值为10-100次。
当报修频率大于一定值时,令单车报修的异常标记fg(pn)=1,表示单车报修异常;当报修频率小于等于一定值时,令单车报修的异常fg(pn)=0,表示单车报修正常。
其中,nb表示观测次数内骑行者报修的次数;na和nu的比值定义为报修频率;t2为阈值,可取定值为0.2~0.4,也可根据历史数据,统计多名骑行者的报修频率的均值来确定t2的取值。
步骤s6:骑行间隔的异常检测:
随机取单车的若干次骑行次数作为观测次数,在观测次数内,计算单车的骑行间隔,通过骑行间隔筛选出骑行体验不佳的单车。骑行间隔定义为:相邻两次骑行中,前次骑行结束时间和下次骑行开始时间的差值;根据实际需要,观测次数取值为10-100次。
当相邻的两次骑行间隔大于一定值时,令骑行间隔异常标记fh(pn)=1,表示骑行间隔的异常;当相邻两次骑行间隔小于等于一定值时,令骑行间隔异常标fh(pn)=0,表示骑行间隔的正常:
其中,oti+1(pn)表示骑行者pn的第i+1次骑行的开始时间;dti(pn)表示骑行者pn的第i次骑行的结束时间;t3为阈值,其取值为0.5~2min。
步骤s7:单车位置的异常检测:
当单车被骑行至偏远位置时,会影响单车的使用频率,需要及时调度,因此需要对单车位置的异常进行检测。
若单车的地理位置超出正常地理位置时,令单车使用频率异常标记fi(pv)=1,表示单车的地理位置异常;若单车的地理位置超出正常地理位置时,令单车使用频率异常标记fi(pv)=0,表示单车的地理位置正常。其中,该正常的地理位置通过统计一段时间内(如:10天)出现频率在80%以上的地理位置作为正常地理位置数据库,该地理位置需要及时进行更新。
步骤s8:单车使用频率的异常检测:
影响单车使用频率的因素主要有:地理位置过偏或单车故障;通过对单车的使用频率进行异常检测,可以及时调度和维修单车,以便单车公司的更好运营。
单车使用频率定义为在观测时间段内单车的使用次数,观测时段根据需要选择为1-30天。若单车使用频率小于一定值(该值由历史数据统计确定)时,令单车使用频率异常标记fi(pv)=1,表示单车使用频率异常;若单车使用频率大于等于一定值时,令单车使用频率异常标记fi(pv)=0,表示单车使用频率正常。
其中,nv表示观测时间段内(如:1天)单车pv的使用次数;t4为阈值,可统计正常地理位置中抽样单车在观测时段内的平均的使用次数作为t4的取值。
步骤s9:骑行里程或骑行时长的异常检测:
当单车的累计骑行里程或累计骑行总时长过长时,单车的技术状况将会下降,出现故障的概率也较大,及时关注单车的累计骑行里程和累计骑行时长有助于提升单车的性能。当单车的累计骑行里程或累计骑行时长超过一定值(该值由历史数据统计确定)时,令单车里程异常标记fk(pv)=1,表示骑行里程或骑行次数异常;当单车的累计骑行里程或累计骑行时长超过一定值时,令单车里程异常标记令fk(pv)=0,表示骑行里程或骑行次数正常。
其中,lv(pv)和lt(pv)分别表示单车pv的累计骑行里程和累计骑行时长;t5和t6表示门限值,可由统计80%的故障车辆的累计骑行里程或累计骑行时长分别作为t5和t6的取值。
步骤s10:算法结束。
相对于现有技术,本发明具有如下的优点:
一是可以从骑行数据自动检测出单车的异常骑行,为单车的调度和经营管理提供支持。
二是分别以骑行者和单车为研究对象,从单次骑行和多次骑行统计多交通分析异常的骑行,可以达到快速、鲁棒检测异常骑行的目的。