一种初次入城车辆数据管理方法及系统与流程

文档序号：14396363阅读：1331来源：国知局

本发明属于数据分析技术领域，具体涉及一种初次入城车辆数据管理方法及系统。

背景技术：

车辆大数据分析是当前研究的热点，一般包括初次入城分析、套牌车分析、高危地区车辆查询等相关内容，这些研究有利于管理部门了解车辆相关情况，能为可能出现的犯罪行为提供数据支持。然而随着车辆的大量使用以及人类工作、生活半径的增加，采集的车辆相关数据变得越来越多且越来越频繁，如何在大量数据中高效、准确提取对管理部门有用的信息成为当务之急。

以初次入城分析为例，现有技术一般包括两种，一种是单独建立一个初次入城车辆数据库，此库中对每辆机动车有且仅有一条记录，大大降低了数据的保有量，解决了传统过车信息数据量巨大，无法实时定位初次入城车辆以及历史查询慢的问题,而且由于不同时间范围内的初次入城结果往往是不同的，而本方法无法提供一定时间范围内的初次入城查询分析，则查询结果不准确。另一种方法是在一个系统中保存有所有数据，根据一定的查询时间范围统计所有车辆的出城次数，对于出进城次数为1的车辆信息，还要再向前分析一段时间，如前一段时间有该车的记录则说明为非首次入城，否则为首次入城。但这种方法效率不高，每一次查询都要对所有数据进行统计。

另外，现有的技术一般都无法支持大数据量下的存储，从而无法支持大数据量的业务。在实际应用中，城市车辆数据增量过多带来的服务性能横向扩展。无法支持大数据量下的实时查询分析，分析速度较慢。

技术实现要素：

针对现有技术中存在的缺陷，本发明的目的是提供一种初次入城车辆数据管理方法及系统，能够应用于大数据业务场合，提高初次入城车辆查询的效率及一定范围内的分析真实性、有效性及实时性。

为达到以上目的，本发明采用的技术方案是：

一种初次入城车辆数据管理方法，包括以下步骤：

采集过车数据到基于大数据的数据仓库；

设置定时周期，当达到定时周期时，统计该定时周期内出现过的车辆信息；

以定时周期的起始时间为基础点，设置向前分析时间范围，统计该时间范围内出现过的车辆相关信息；

若某车在定时周期内出现，在向前分析时间范围内没有出现，则判断该车为初次入城，并将其信息写入数据仓库；

当查询初次入城的车辆时，直接调用数据仓库进行查询。

进一步的，采集过车数据到所述数据仓库的方法包括：将原始过车数据通过etl工具入库到所述数据仓库。

进一步的，所述数据仓库包括：impala、hive。

进一步的，若判断某车为初次入城且有多条信息时，仅保留入城时间最早的对应信息，并将其写入数据仓库。

进一步的，在所述数据仓库中建立至少两个数据库，用于分别存储原始过车数据及初次入城车辆数据；或者，在所述数据仓库中的一个数据库中建立至少两张表，用于分别存储原始过车数据及初次入城车辆数据。

相应的，本发明还公开了一种初次入城车辆数据管理系统，包括：

数据采集模块，用于采集过车数据到基于大数据的数据仓库；

第一统计模块，用于设置定时周期，当达到定时周期时，统计该定时周期内出现过的车辆信息；

第二统计模块，用于以定时周期的起始时间为基础点，设置向前分析时间范围，统计该时间范围内出现过的车辆相关信息；

判断模块，用于比较第一统计模块及第二统计模块的车辆信息，若某车在定时周期内出现，在向前分析时间范围内没有出现，则判断该车为初次入城，并将其信息写入数据仓库；

查询模块，用于当查询初次入城的车辆时，直接调用数据仓库进行查询。

进一步的，所述数据采集模块的工作方法包括：将原始过车数据通过etl工具入库到所述数据仓库。

进一步的，所述数据仓库包括：impala、hive。

进一步的，所述判断模块还用于若判断某车为初次入城且有多条信息时，仅保留入城时间最早的对应信息，并将其写入数据仓库。

本发明与现有技术相比的有益效果在于：由于过车数据已经提前分析，并将初次入城的数据直接写入到数据仓库，因此在需要查询时是对分析结果的查询，而不是对原始数据的查询，避免了每次查询都要对所有数据进行统计分析，查询效率低的问题。另外，基于大数据的数据仓库结构，能通过增加服务器数量以提高对大数据的分析性能，降低集群的负载压力，提高了查询结果的实时性。而且，由于能提供一定时间范围内的初次入城查询分析，也在一定范围内保证了的数据分析的真实性、有效性。

附图说明

图1是本发明一种初次入城车辆数据管理方法的流程图。

图2是本发明一种初次入城车辆数据管理系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，下面结合实施例进行进一步详细说明。应该理解的是，此实施例仅仅是本发明应用的一个方面，并不用于限定本发明。

在一些实施例中，如图1所示，一种初次入城车辆数据管理方法，包括以下步骤：

s101，采集过车数据到基于大数据的数据仓库。

由于本申请基于大数据的数据仓库，因此可以采用etl(extract-transform-load)来完成将过车数据从来源端经过抽取(extract)、转换(transform)、加载(load)至数据仓库的整个过程。

本申请的数据仓库可以为impala、hive。可以根据实际系统设计选择合适的数据仓库。比如impala能提供sql语义，能查询存储在hadoop的hdfs(分布式文件系统)和hbase(分布式文件数据库)中的pb级数量的大数据。而hive系统虽然也提供了sql语义，但由于hive底层执行使用的是mapreduce引擎，仍然是一个批处理过程，难以满足查询的交互性，相比之下，impala的执行效率更高。

但是，hive也有优势，即学习成本低，可以通过类sql语句快速实现简单的mapreduce统计，不必开发专门的mapreduce应用，十分适合数据仓库的统计分析。

采集的过车数据可以包括：卡口编号、车牌号、入城时间等车辆相关信息。

s102，设置定时周期，当达到定时周期时，统计该定时周期内出现过的车辆信息。

比如以1天为一个定时周期，在第二天的零时前完成前一天的进城车辆数据的统计分析。

s103，以定时周期的起始时间为基础点，设置向前分析时间范围，统计该时间范围内出现过的车辆相关信息。

比如将分析时间范围设置为前一个月。

s104，若某车在定时周期内出现，在向前分析时间范围内没有出现，则判断该车为初次入城，并将其信息写入数据仓库。

实际操作中所述数据仓库中可以建立至少两个数据库，用于分别存储原始过车数据及初次入城车辆数据；或者，在所述数据仓库中的一个数据库中建立至少两张表，用于分别存储原始过车数据及初次入城车辆数据。这样对初次入城车辆数据的统计分析不会影响原始过车数据。

若判断某车为初次入城且有多条信息时，仅保留入城时间最早对应信息，并将其写入数据仓库。

s105，当查询初次入城的车辆时，直接调用数据仓库进行查询。

更具体的，比如昨天是2017年10月1日，在2017年10月2日凌晨时就完成对10月1日一整天出现过的车辆信息的统计分析。然后统计分析2017年9月1日—2017年9月30日这一个月出现过的车辆信息的。如果某车在2017年10月1日出现，在2017年9月1日—2017年9月30日范围内没有出现，则判断该车为初次入城，并将其信息写入数据仓库。在本实施例中，可以每天将昨天的初次入城车辆分析出来，将分析结果写到数据仓库。这样分析任务就不会重复的进行，以后都是对分析结果的查询分析，而不是对原始数据的分析。

本发明对过车数据进行了提前分析，并将初次入城的数据直接写入到数据仓库，因此在需要查询时是对分析结果的查询，而不是对原始数据的查询，避免了每次查询都要对所有数据进行统计分析，查询效率低的问题。另外，基于大数据的数据仓库结构，能通过增加服务器数量以提高对大数据的分析性能，降低集群的负载压力，提高了查询结果的实时性。而且，由于能提供一定时间范围内的初次入城查询分析，也在一定范围内保证了的数据分析的真实性、有效性。

在另一些实施例中，如图2所示，一种初次入城车辆数据管理系统，包括：数据采集模块10、第一统计模块20、第二统计模块30、判断模块40及查询模块50，其中：

数据采集模块10，用于采集过车数据到基于大数据的数据仓库。

可以将原始过车数据通过etl工具入库到impala、hive等数据仓库。

第一统计模块20，用于设置定时周期，当达到定时周期时，统计该定时周期内出现过的车辆信息。

第二统计模块30，用于以定时周期的起始时间为基础点，设置向前分析时间范围，统计该时间范围内出现过的车辆相关信息。

判断模块40，用于比较第一统计模块20及第二统计模块30的车辆信息，若某车在定时周期内出现，在向前分析时间范围内没有出现，则判断该车为初次入城，并将其信息写入数据仓库。所述判断模块40还用于若判断某车为初次入城且有多条信息时，仅保留入城时间最早的对应信息，并将其写入数据仓库

查询模块50，用于当查询初次入城的车辆时，直接调用数据仓库进行查询。

更具体的，比如昨天是2017年10月1日，在2017年10月2日凌晨时第一统计模块20就完成对10月1日一整天数据采集模块10所采集的车辆信息的统计分析。然后第二统计模块30统计分析2017年9月1日—2017年9月30日这一个月出现过的车辆信息的。判断模块40比较第一统计模块20及第二统计模块30的车辆信息，如果某车数据在第一统计模块20中，而不在第二统计模块30中，则判断该车为初次入城，并将其信息写入数据仓库。在本实施例中，可以每天将昨天的初次入城车辆分析出来，将分析结果写到数据仓库。这样分析任务就不会重复的进行，以后都是对分析结果的查询分析，而不是对原始数据的分析。

本领域技术人员应该明白，本发明所述的方法和系统并不限于具体实施方式中所述的实施例，上面的具体描述只是为了解释本发明的目的，并非用于限制本发明。本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围，本发明的保护范围由权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜志豪;贺珊;高云;严其松;杨光
技术所有人：武汉烽火众智数字技术有限责任公司
我是此专利的发明人

上一篇：用于在数码相框中显示同步拼贴的数码内容的设备和方法与流程
上一篇：广播接收装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。