一种滞留规则库构建方法及数据滞留分析方法与流程

文档序号:18318975发布日期:2019-08-03 10:16阅读:322来源:国知局
一种滞留规则库构建方法及数据滞留分析方法与流程

本发明涉及一种数据处理技术领域,尤其涉及一种滞留规则库构建方法及数据滞留分析方法。



背景技术:

目前,广东省电子标签的套装用户接近900多万,达到全国的1/9左右。因此,这带来了非现金车辆与etc车辆的通行次数大幅度提高,二者在总车流量中所占的比例也得到大幅度提高,目前非现金支付与etc支付的通行次数所占比例在广东省分别达到了高速公路车辆总体通行次数的45%与34%左右,etc车辆的通行次数占到了非现金车辆的76%左右。

广东联合电子服务股份有限公司(以下简称:联合电服),作为广东省高速公路联网收费的清分结算机构,承担着将所有高速公路的每一笔车辆通行收费记录,按照业务逻辑规则准确地、及时地拆分给相关的每一条高速公路公司,如果有跨省通行车辆的话,还要将跨省交易记录进行省间结算。清分结算的及时性、准确性要求,使得每条高速公路公司都要将生成的车辆收费通行记录及时地传送到联合电服。否则,一旦发生通行记录数据滞留在高速公路公司的收费系统,会严重地影响到给联合电服清分结算工作的准确性与及时性,还会带来非常复杂的后续处理工作,并且还会给相关的高速公路业主公司造成损失。

但在实际中,广东省高速公路发生过多起etc车道的收费数据滞留在etc车道,没有上传到联合电服。原因在于,首先,高速公路车道收费系统采用的是脱机的交易方式;其次,数据上传采用的是收费车道、收费站、路段中心、联合电服这四级的逐级上传。第三,mtc车道与etc车道的开发商通常是不同的,etc车道的出口流水由etc车道上传到收费站的etc数据库,然后再由etc数据库发送到收费站数据库。这就存在着如果etc车道的收费流水上传环节发生了故障,就会造成收费站数据库、高速公路路段中心数据库中有可能收不到etc收费流水,进而这些流水也不会上传到联合电服。

因此,如何使用海量数据挖掘与分析技术,在全省一个月高达1.7亿条左右的海量车辆通行收费记录中进行数据挖掘与分析,有效地、准确地、及时地挖掘分析出哪些etc车道存在着数据滞留,并建立一套后续处理机制来进行排查,变得非常紧迫与需要。



技术实现要素:

为了克服现有技术的不足,本发明的目的之一在于提供一种滞留规则库构建方法,其能滞留规则库构建的技术问题。

本发明的目的之二在于提供一种电子设备,其能滞留规则库构建的技术问题。

本发明的目的之三在于提供一种计算机可读存储介质,其能滞留规则库构建的技术问题。

本发明的目的之四在于提供一种数据滞留分析方法,其能解决数据滞留判断的技术问题。

本发明的目的之五在于提供一种计算机可读存储介质,其能解决数据滞留判断的技术问题。

本发明的目的之一采用如下技术方案实现:

一种滞留规则库构建方法,包括以下步骤:

第一获取步骤:获取一时间段内各收费点的车流信息和时间信息,所述车流信息包括总车流量、非现金车流量和etc车流量,所述时间信息为车流信息所对应的星期;

第二获取步骤:获取一时间段中星期一至星期天的各收费点的平均车流信息,所述平均车流信息包括平均总车流量、平均非现金车流量和平均etc车流量;

计算步骤:将车流信息与平均车流信息分别比对以得到相对变化率,将相对变化率迭加车流信息以生成基础数据库;

分类挖掘步骤:对基础数据库进行分类算法分析以得到滞留规则库。

进一步地,在所述得到相对变化率之后还包括如下步骤:根据平均车流信息查询滞留数据文件,对查询到的数据增加数据滞留标识,并增加数据滞留标识后的数据存储至基础数据库中。

进一步地,在所述第一获取步骤中,所述一时间段为三个月。

进一步地,在聚类步骤之后还包括回归验证步骤:对滞留规则库进行数据验证,并输出验证结果。

进一步地,在所述聚类步骤中,通过决策树分类算法来对基础数据库进行数据挖掘以生成滞留规则库,在第一获取步骤和第二获取步骤中,所述收费点为各收费站和/或各收费站工班。

本发明的目的之二采用如下技术方案实现:

一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明目的之一中任意一项所述的一种滞留规则库构建方法。

本发明的目的之三采用如下技术方案实现:

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的一种滞留规则库构建方法。

本发明的目的之四采用如下技术方案实现:

一种数据滞留分析方法,包括如下步骤:

每隔预设时间获取一时间段内各收费点的车流信息和时间信息,所述车流信息包括总车流量、非现金车流量和etc车流量,所述时间信息为车流信息所对应的星期;

获取一时间段中星期一至星期天的各收费点的平均车流信息,所述平均车流信息包括平均总车流量、平均非现金车流量和平均etc车流量;

将车流信息与平均车流信息分别比对以得到相对变化率;

根据得到的相对变化率将其与滞留规则库中的规则进行比对,以判断对应数据是否为滞留数据,如果是,则进行输出预警结果数据。

进一步地,所述预设时间为一周,所述一时间段为一个月。

本发明的目的之五采用如下技术方案实现:

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之三中任意一项所述的一种数据滞留分析方法。

相比现有技术,本发明的有益效果在于:

本发明的滞留规则库构建方法通过构建有效的判断规则为联合电服省却了不少非常复杂的应对etc数据滞留的额外工作与业务,而且还会为相关的etc车道收费系统开发商省却了大量的赔偿资金。

附图说明

图1为实施例一的滞留规则库构建方法的流程图;

图2为实施例一的滞留规则库构建方法的具体流程图;

图3为实施例四的滞留数据分析方法的流程图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

目前,业界并没有发现etc数据滞留的有效解决方法。经过对广东省高速公路近二年高达40亿条左右的海量车辆通行收费记录,进行大量的专业的数据统计与分析、数据挖掘,同时也进行了大量的算法研究与实现,不仅发现了etc收费记录中的终端机交易序列号的跳变规律,也发现了广东省高速公路车流量存在的内在模式。通过对车流量周期性数据挖掘来进行内在模式的确定,从自主开发的车流量周期性判断模型数据获取系统的生成结果数据,建立数据挖掘模型,这里使用了聚类分析中的两种算法,k-means算法和twostep算法对输入数据进行处理,挖掘出高速公路车辆通行收费数据中的隐含的内在模式。这样的内在模式具体是车流量在周一到周日之间会存在有明显的差异化,聚类结果能够发现出这样的趋势,故而在进行设计的时候,对其进行分类处理就显得尤其重要,如果不进行分类,则无法形成有效的判断条件。当发现有这样的内在模式之后,则可以开始设置对应的条件来进行数据模型的构建。

并且,广东省高速公路的etc车道中,61%以上的etc车道使用2张以上的psam卡,有的甚至于一条etc使用了6张psam,但是只有每一张psam卡对应生成的etc收费记录中的终端机交易序列号理论上是连续的,所以如果有1张或者1张以上的psam卡生成的etc流水出现一直不上传的情况,那么是无法用终端机交易序列号理论上的连续性来进行etc数据滞留计算的。

如图1和图2所示,本实施例提供了一种滞留规则库构建方法,包括以下步骤:

s101:获取一时间段内各收费点的车流信息和时间信息,所述车流信息包括总车流量、非现金车流量和etc车流量,所述时间信息为车流信息所对应的星期;所述一时间段为三个月,所述收费点为各收费站和/或各收费站工班。这一步需要进行数据的准备,在进行后续的聚类分析以及数据处理中都需要本步骤中集合的数据,本步骤具体的先从oltp业务数据库中计算出了从2018年2月9日至4月30日近三个月期间每个收费站在每个工班的车辆通行收费汇总数据(这一步处理时,要将曾经发生过滞留的通行数据剔除),包含每个收费站每个工班的车流量、非现金车流量、etc车流量以及工班所在星期几这些信息;并将这些信息记录为数据集a;

s102:获取一时间段中星期一至星期天的各收费点的平均车流信息,所述平均车流信息包括平均总车流量、平均非现金车流量和平均etc车流量;在本步骤中再计算出2018年2月9日至4月30日近三个月期间每个收费站在星期一到星期日的平均车流量、平均非现金车流量、平均etc车流量(同样在第二步处理时,要将曾经发生过滞留的通行数据剔除)。这样的话,就可以计算出在这一时间段内的平均数据信息。将其记录为数据集b;

s103:将车流信息与平均车流信息分别比对以得到相对变化率,将相对变化率迭加车流信息以生成基础数据库;这里的相对变化率即是(车流信息/平均车流信息-1)。由于在本实施例中步骤针对的是这样一种数据滞留情况:比如一般的数据在某个收费站其在3天之内就应该发送至联合电服进行数据解算,可是当其出现故障的时候,则其可能会在30天之后才上传,这就对结算造成了比较大的影响。通过分析相对变化率则能够有效的检测到这样的差异化,故而通过分析相对变化率能够有效的提升检测效果。

除了相对变化率这样的数据条件外,还可以有如下的方式进行辅助检测“”根据平均车流信息查询滞留数据文件,对查询到的数据增加数据滞留标识,并增加数据滞留标识后的数据存储至基础数据库中。也就是查询历史滞留信息,然后分析处历史滞留信息中的数据来进一步聚类来看是否有提高识别准确率的条件。

这一步具体的:生成etc数据滞留判断规则模型所需要的数据。从第一步获取的收费站在每个工班的车辆通行收费汇总数据中取出记录,根据所在的星期从第二步获取的数据中找到其所对应周几的周平均车流量数据,然后计算机出每个收费站每个工班对应于所在星期几的平均车流量、平均非现金车流量、平均etc车流量的变化率;然后再根据滞留数据文件,写下收费站在某工班的数据滞留标识is_zhiliu。也即是从数据集a中读取一条记录a1;从b中找寻a1所在某天的三种平均车流量,计算a1的三种车流量相对于这三种车流量平均值的变化率,叠加a1的信息,生成记录c1;根据记录c1中收费站、工班信息,查询滞留数据文件,增加数据滞留标识;最后判断数据集a中的所有记录是否都已完成,如果完成,则可以执行步骤s104。

s104:对基础数据库进行分类算法分析以得到滞留规则库。通过决策树分类算法来对基础数据库进行数据挖掘以生成滞留规则库,通过聚类得到能够进行滞留规则判断的数据库。在进行数据构建的过程中,发现当总车流量在-40%到-45%,非现金车流量在-40%到-45%时,能够检测到数据滞留的概率为45%;这样的数据对于我们在进行滞留检测时,是一个比较大的概率,是非常有意义的。

s105:对滞留规则库进行数据验证,并输出验证结果。通过验证结果来一步判断我们是否采用这样的规则数据库去进行后期的判断。

对于只要有1张或者1张以上的psam卡生成的etc流水出现一直不上传的情况,那么是无法用终端机交易序列号的连续性来进行etc数据滞留计算的。对于这种情况,则采取了基于数据挖掘与维度旋转技术的高速公路etc数据滞留分析,它包含了4个子系统,“数据内在模式挖掘子系统”、“etc数据滞留规则库挖掘子系统”“回归测试子系统”和“etc数据滞留分析子系统”。etc数据滞留规则库挖掘子系统,负责对自主开发的回归测试数据获取子系统的生成结果,建立数据挖掘模型,生成etc数据滞留判断规则库。这里使用了决策树的分类算法。然后通过挖掘出发生etc数据滞留的判断规则库作为判断依据,每周对最近一个月全省范围内的通行数据进行数据挖掘与分析,生成全省范围内可能存在的etc交易数据滞留的预警结果数据。

“数据内在模式挖掘子系统”对经过算法获取的通行数据及派生数据按照数据挖掘中的两种算法分别进行聚类分析,发掘出通行明细数据隐含的内在模式;“etc数据滞留规则库挖掘子系统”通过对以前发生过etc交易数据滞留的历史数据,按照“数据内在模式挖掘子系统”发掘出的内在模式,生成每个收费站在每个工班的车流量、非现金车流量、etc车流量基于所在的星期几的各自的平均值的变化率,然后进行数据挖掘,通过决策数分类算法来挖掘etc交易数据的滞留规则库;“回归测试子系统”负责对以前发生过的etc交易数据滞留的全省工班段范围内的通行数据进行回归测试,来评估挖掘生的etc交易数据的滞留规则库的命中率;“etc数据滞留分析子系统”则每周进行最近一个月全省范围内的通行数据依照滞留规则库进行数据分析,生成全省范围内可能存在的etc交易数据滞留的预警结果数据。

该系统包含了4个子系统,“数据内在模式挖掘子系统”、“etc数据滞留规则库挖掘子系统”“回归测试子系统”和“etc数据滞留分析子系统”。

“数据内在模式挖掘子系统”发掘出通行明细数据隐含的内在模式;“etc数据滞留规则库挖掘子系统”通过数据挖掘,算法来挖掘etc交易数据的滞留规则库;“回归测试子系统”负责对以前发生过的etc交易数据滞留的全省工班段范围内的通行数据进行回归测试,来评估挖掘生的etc交易数据的滞留规则库的命中率;“etc数据滞留分析子系统”则每周进行最近一个月全省范围内的通行数据进行数据挖掘与分析,生成全省范围内可能存在的etc交易数据滞留的预警结果数据。

在本软件完成之前,没有方法对全省高速公路的etc数据滞留进行判断的方法。经过多年的探索研究,使得基于数据挖掘与维度旋转技术的高速公路etc数据滞留分析软件的开发完成,为业内解决这个问题提供了一个有效的方案解决方式。不仅为联合电服省却了不少非常复杂的应对etc数据滞留的额外工作与业务,而且还会为相关的etc车道收费系统开发商省却了大量的赔偿资金。

实施例二

实施例二公开了一种电子设备,该电子设备包括处理器、存储器以及程序,其中处理器和存储器均可采用一个或多个,程序被存储在存储器中,并且被配置成由处理器执行,处理器执行该程序时,实现实施例一的一种滞留规则库构建方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种计算机可读存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的一种滞留规则库构建方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述基于内容更新通知装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

实施例四

如图3所示,本实施例提供了一种数据滞留分析方法,包括如下步骤:

s201:每隔预设时间获取一时间段内各收费点的车流信息和时间信息,所述车流信息包括总车流量、非现金车流量和etc车流量,所述时间信息为车流信息所对应的星期;所述预设时间为一周,所述一时间段为一个月

s202:获取一时间段中星期一至星期天的各收费点的平均车流信息,所述平均车流信息包括平均总车流量、平均非现金车流量和平均etc车流量;前两步与实施例一中的数据获取基本一致,这样是为了获取到对应的数据来进行后期的判断。

s203:将车流信息与平均车流信息分别比对以得到相对变化率;

s204:根据得到的相对变化率将其与滞留规则库中的规则进行比对,以判断对应数据是否为滞留数据,如果是,则进行输出预警结果数据。

当规则数据库完成构建的时候,则可以投入运营,每周对一个月内的数据进行分析,当发现有异常的时候,及时反馈预警,使得使用者可以及时发现故障点从而排除故障以使得数据可以有效上传进行结算。

实施例五

实施例五公开了一种计算机可读存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的一种数据滞留分析方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述基于内容更新通知装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1