一种初次入城车辆数据管理方法及系统与流程

文档序号:14396363阅读:1331来源:国知局

本发明属于数据分析技术领域,具体涉及一种初次入城车辆数据管理方法及系统。



背景技术:

车辆大数据分析是当前研究的热点,一般包括初次入城分析、套牌车分析、高危地区车辆查询等相关内容,这些研究有利于管理部门了解车辆相关情况,能为可能出现的犯罪行为提供数据支持。然而随着车辆的大量使用以及人类工作、生活半径的增加,采集的车辆相关数据变得越来越多且越来越频繁,如何在大量数据中高效、准确提取对管理部门有用的信息成为当务之急。

以初次入城分析为例,现有技术一般包括两种,一种是单独建立一个初次入城车辆数据库,此库中对每辆机动车有且仅有一条记录,大大降低了数据的保有量,解决了传统过车信息数据量巨大,无法实时定位初次入城车辆以及历史查询慢的问题,而且由于不同时间范围内的初次入城结果往往是不同的,而本方法无法提供一定时间范围内的初次入城查询分析,则查询结果不准确。另一种方法是在一个系统中保存有所有数据,根据一定的查询时间范围统计所有车辆的出城次数,对于出进城次数为1的车辆信息,还要再向前分析一段时间,如前一段时间有该车的记录则说明为非首次入城,否则为首次入城。但这种方法效率不高,每一次查询都要对所有数据进行统计。

另外,现有的技术一般都无法支持大数据量下的存储,从而无法支持大数据量的业务。在实际应用中,城市车辆数据增量过多带来的服务性能横向扩展。无法支持大数据量下的实时查询分析,分析速度较慢。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的是提供一种初次入城车辆数据管理方法及系统,能够应用于大数据业务场合,提高初次入城车辆查询的效率及一定范围内的分析真实性、有效性及实时性。

为达到以上目的,本发明采用的技术方案是:

一种初次入城车辆数据管理方法,包括以下步骤:

采集过车数据到基于大数据的数据仓库;

设置定时周期,当达到定时周期时,统计该定时周期内出现过的车辆信息;

以定时周期的起始时间为基础点,设置向前分析时间范围,统计该时间范围内出现过的车辆相关信息;

若某车在定时周期内出现,在向前分析时间范围内没有出现,则判断该车为初次入城,并将其信息写入数据仓库;

当查询初次入城的车辆时,直接调用数据仓库进行查询。

进一步的,采集过车数据到所述数据仓库的方法包括:将原始过车数据通过etl工具入库到所述数据仓库。

进一步的,所述数据仓库包括:impala、hive。

进一步的,若判断某车为初次入城且有多条信息时,仅保留入城时间最早的对应信息,并将其写入数据仓库。

进一步的,在所述数据仓库中建立至少两个数据库,用于分别存储原始过车数据及初次入城车辆数据;或者,在所述数据仓库中的一个数据库中建立至少两张表,用于分别存储原始过车数据及初次入城车辆数据。

相应的,本发明还公开了一种初次入城车辆数据管理系统,包括:

数据采集模块,用于采集过车数据到基于大数据的数据仓库;

第一统计模块,用于设置定时周期,当达到定时周期时,统计该定时周期内出现过的车辆信息;

第二统计模块,用于以定时周期的起始时间为基础点,设置向前分析时间范围,统计该时间范围内出现过的车辆相关信息;

判断模块,用于比较第一统计模块及第二统计模块的车辆信息,若某车在定时周期内出现,在向前分析时间范围内没有出现,则判断该车为初次入城,并将其信息写入数据仓库;

查询模块,用于当查询初次入城的车辆时,直接调用数据仓库进行查询。

进一步的,所述数据采集模块的工作方法包括:将原始过车数据通过etl工具入库到所述数据仓库。

进一步的,所述数据仓库包括:impala、hive。

进一步的,所述判断模块还用于若判断某车为初次入城且有多条信息时,仅保留入城时间最早的对应信息,并将其写入数据仓库。

本发明与现有技术相比的有益效果在于:由于过车数据已经提前分析,并将初次入城的数据直接写入到数据仓库,因此在需要查询时是对分析结果的查询,而不是对原始数据的查询,避免了每次查询都要对所有数据进行统计分析,查询效率低的问题。另外,基于大数据的数据仓库结构,能通过增加服务器数量以提高对大数据的分析性能,降低集群的负载压力,提高了查询结果的实时性。而且,由于能提供一定时间范围内的初次入城查询分析,也在一定范围内保证了的数据分析的真实性、有效性。

附图说明

图1是本发明一种初次入城车辆数据管理方法的流程图。

图2是本发明一种初次入城车辆数据管理系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白,下面结合实施例进行进一步详细说明。应该理解的是,此实施例仅仅是本发明应用的一个方面,并不用于限定本发明。

在一些实施例中,如图1所示,一种初次入城车辆数据管理方法,包括以下步骤:

s101,采集过车数据到基于大数据的数据仓库。

由于本申请基于大数据的数据仓库,因此可以采用etl(extract-transform-load)来完成将过车数据从来源端经过抽取(extract)、转换(transform)、加载(load)至数据仓库的整个过程。

本申请的数据仓库可以为impala、hive。可以根据实际系统设计选择合适的数据仓库。比如impala能提供sql语义,能查询存储在hadoop的hdfs(分布式文件系统)和hbase(分布式文件数据库)中的pb级数量的大数据。而hive系统虽然也提供了sql语义,但由于hive底层执行使用的是mapreduce引擎,仍然是一个批处理过程,难以满足查询的交互性,相比之下,impala的执行效率更高。

但是,hive也有优势,即学习成本低,可以通过类sql语句快速实现简单的mapreduce统计,不必开发专门的mapreduce应用,十分适合数据仓库的统计分析。

采集的过车数据可以包括:卡口编号、车牌号、入城时间等车辆相关信息。

s102,设置定时周期,当达到定时周期时,统计该定时周期内出现过的车辆信息。

比如以1天为一个定时周期,在第二天的零时前完成前一天的进城车辆数据的统计分析。

s103,以定时周期的起始时间为基础点,设置向前分析时间范围,统计该时间范围内出现过的车辆相关信息。

比如将分析时间范围设置为前一个月。

s104,若某车在定时周期内出现,在向前分析时间范围内没有出现,则判断该车为初次入城,并将其信息写入数据仓库。

实际操作中所述数据仓库中可以建立至少两个数据库,用于分别存储原始过车数据及初次入城车辆数据;或者,在所述数据仓库中的一个数据库中建立至少两张表,用于分别存储原始过车数据及初次入城车辆数据。这样对初次入城车辆数据的统计分析不会影响原始过车数据。

若判断某车为初次入城且有多条信息时,仅保留入城时间最早对应信息,并将其写入数据仓库。

s105,当查询初次入城的车辆时,直接调用数据仓库进行查询。

更具体的,比如昨天是2017年10月1日,在2017年10月2日凌晨时就完成对10月1日一整天出现过的车辆信息的统计分析。然后统计分析2017年9月1日—2017年9月30日这一个月出现过的车辆信息的。如果某车在2017年10月1日出现,在2017年9月1日—2017年9月30日范围内没有出现,则判断该车为初次入城,并将其信息写入数据仓库。在本实施例中,可以每天将昨天的初次入城车辆分析出来,将分析结果写到数据仓库。这样分析任务就不会重复的进行,以后都是对分析结果的查询分析,而不是对原始数据的分析。

本发明对过车数据进行了提前分析,并将初次入城的数据直接写入到数据仓库,因此在需要查询时是对分析结果的查询,而不是对原始数据的查询,避免了每次查询都要对所有数据进行统计分析,查询效率低的问题。另外,基于大数据的数据仓库结构,能通过增加服务器数量以提高对大数据的分析性能,降低集群的负载压力,提高了查询结果的实时性。而且,由于能提供一定时间范围内的初次入城查询分析,也在一定范围内保证了的数据分析的真实性、有效性。

在另一些实施例中,如图2所示,一种初次入城车辆数据管理系统,包括:数据采集模块10、第一统计模块20、第二统计模块30、判断模块40及查询模块50,其中:

数据采集模块10,用于采集过车数据到基于大数据的数据仓库。

可以将原始过车数据通过etl工具入库到impala、hive等数据仓库。

第一统计模块20,用于设置定时周期,当达到定时周期时,统计该定时周期内出现过的车辆信息。

第二统计模块30,用于以定时周期的起始时间为基础点,设置向前分析时间范围,统计该时间范围内出现过的车辆相关信息。

判断模块40,用于比较第一统计模块20及第二统计模块30的车辆信息,若某车在定时周期内出现,在向前分析时间范围内没有出现,则判断该车为初次入城,并将其信息写入数据仓库。所述判断模块40还用于若判断某车为初次入城且有多条信息时,仅保留入城时间最早的对应信息,并将其写入数据仓库

查询模块50,用于当查询初次入城的车辆时,直接调用数据仓库进行查询。

更具体的,比如昨天是2017年10月1日,在2017年10月2日凌晨时第一统计模块20就完成对10月1日一整天数据采集模块10所采集的车辆信息的统计分析。然后第二统计模块30统计分析2017年9月1日—2017年9月30日这一个月出现过的车辆信息的。判断模块40比较第一统计模块20及第二统计模块30的车辆信息,如果某车数据在第一统计模块20中,而不在第二统计模块30中,则判断该车为初次入城,并将其信息写入数据仓库。在本实施例中,可以每天将昨天的初次入城车辆分析出来,将分析结果写到数据仓库。这样分析任务就不会重复的进行,以后都是对分析结果的查询分析,而不是对原始数据的分析。

本发明对过车数据进行了提前分析,并将初次入城的数据直接写入到数据仓库,因此在需要查询时是对分析结果的查询,而不是对原始数据的查询,避免了每次查询都要对所有数据进行统计分析,查询效率低的问题。另外,基于大数据的数据仓库结构,能通过增加服务器数量以提高对大数据的分析性能,降低集群的负载压力,提高了查询结果的实时性。而且,由于能提供一定时间范围内的初次入城查询分析,也在一定范围内保证了的数据分析的真实性、有效性。

本领域技术人员应该明白,本发明所述的方法和系统并不限于具体实施方式中所述的实施例,上面的具体描述只是为了解释本发明的目的,并非用于限制本发明。本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围,本发明的保护范围由权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1