一种涉车关系发现方法、装置、设备和介质与流程

文档序号:23539326发布日期:2021-01-05 20:46阅读:52来源:国知局
一种涉车关系发现方法、装置、设备和介质与流程

本发明涉及公路交通监控技术领域,特别涉及一种涉车关系发现方法、装置、设备和介质。



背景技术:

随着信息化的发展,业主对于平台应用也不断提出新的要求,功能需要高效、实时,通过大数据分析出更多可挖掘内容。为了适应这些不断增长的变化。并大量采集利用全国公安机关的网上警务综合信息,使用大数据平台能力对车辆、车主、关系人属性构建数据关系网进行深度分布式的数据挖掘分析,涉车关系发现是公路交通监控技术领域中的一个重要方法。

现有涉车关系发现方法仍然存在一些不足,主要面临以下问题:

1)现有的涉车关系发现算法大部分是通常基于hadoop的mapreduce计算或非分布式的计算框架,无法满足现在实际中过车数据的巨大数据量;同时,对于庞大的过车数据量直接全量计算将会面临服务器内存不足以及算法计算耗时过长的问题;

2)现有方法中之前的方法最常见的关系型数据库不能存储过车这样大数据的情况,因此参与计算的数据往往是短期几小时内数据甚至只考虑当前实时过车数据,而对于历史过车数据并没有充分存储和利用,导致分析结果的准确性不高;

3)现有其他方法由于仅基于简单关联规则的数据挖掘,例如直接用apriori算法来获取频繁项集计算车辆关系,其得到的结果仅为是否存在关系,缺乏对结果的量化,在实际应用中往往导致误判和漏判。



技术实现要素:

本发明要解决的技术问题,在于提供一种涉车关系发现方法、装置、设备和介质,在频繁项发现算法之后,通过分别计算同行和同地两种车辆关系,再通过权重调整两个关系的重要程度,并通过不同条件设置筛选得到不同强度等级的车辆关系,既可以减少误判也防止漏判。

第一方面,本发明提供了一种涉车关系发现方法,包括:

步骤10、识别路面卡口摄像头拍摄的过车图像视频,得到结构化过车数据;

步骤20、将所述结构化过车数据同步到离线分析的集群中,过滤未识别和为空的字段以及同卡口连续拍摄产生的重复数据,然后存入数据仓库;

步骤30、在每天的设定时间从数据仓库获取前24小时的结构化过车数据作为计算数据集,将计算数据集分为一定时长的时间片数据集,进行分布式计算;

步骤40、将在相同卡口设定时间内通过的车辆记为一次同行,通过频繁项挖掘算法得到频繁同行的车牌对;

步骤50、计算频繁同行的车牌对的同行次数与总卡口数量占比,将占比满足阈值条件时该频繁同行的车牌对标记为同行关系;将同卡口设定时间内到达且在之后的一定时间内没有其他卡口过车记录的频繁同行的车牌对记为同地一次,将累计同地次数达到阈值的车牌对标记为同地关系;

步骤60、根据同行关系和同地关系,按设置的条件筛选出强关联关系条件的频繁同行的车牌对或弱关联关系条件的频繁同行的车牌对。

进一步地,还包括:

步骤70、将计算结果存储在分布式数据库gbase和hive中,分别用于web查询和数据分析。

进一步地,所述结构化过车数据包括车辆外形特征、车牌号、过车时间以及过车速度。

进一步地,所述步骤60进一步具体包括:当频繁同行的车牌对对满足k同行>5且(k同行/k总)>0.3且k同地>3时,将该频繁同行的车牌对标记为强关联关系条件的频繁同行的车牌对;当频繁同行的车牌对满足k同行>5或(k同行/k总)>0.3或k同地>3时,将该频繁同行的车牌对标记为弱关联关系条件的频繁同行的车牌对;其中,k同行为两车同行的卡口数,k总为两车通过卡口的总次数,k同行为两车同地的卡口数。

第二方面,本发明提供了一种涉车关系发现装置,包括:数据识别模块、数据存储模块、数据定时获取模块、频繁项挖掘模块、同行同地计算模块以及关联关系筛选模块;

所述数据识别模块,用于识别路面卡口摄像头拍摄的图像视频数据,得到结构化过车数据;

所述数据存储模块,用于将所述结构化过车数据同步到离线分析的集群中,过滤未识别和为空的字段以及同卡口连续拍摄产生的重复数据,然后存入数据仓库;

所述数据定时获取模块,用于在每天的设定时间获取前24小时的结构化过车数据作为计算数据集,将计算数据集分为设定时间的时间片数据集,进行分布式计算;

所述频繁项挖掘模块,用于将在相同卡口设定时间内通过的车辆记为一次同行,通过频繁项挖掘算法得到频繁同行的车牌对;

所述同行同地计算模块,用于计算频繁同行的车牌对的同行次数与总卡口数量占比,将占比满足阈值条件时该频繁同行的车牌对标记为同行关系;将同卡口设定时间内到达且在之后的一定时间内没有其他卡口过车记录的频繁同行的车牌对记为同地一次,将累计同地次数达到阈值的车牌对标记为同地关系;

所述关联关系筛选模块,用于根据同行关系和同地关系,按设置的条件筛选出强关联关系条件的频繁同行的车牌对或弱关联关系条件的频繁同行的车牌对。

进一步地,还包括:数据存储模块,用于将计算结果存储在分布式数据库gbase和hive中,分别用于web查询和数据分析。

进一步地,所述结构化过车数据包括车辆外形特征、车牌号、过车时间以及过车速度。

进一步地,所述关联关系筛选模块进一步具体用于:当频繁同行的车牌对满足k同行>5且(k同行/k总)>0.3且k同地>3时,将该频繁同行的车牌对标记为强关联关系条件的频繁同行的车牌对;当频繁同行的车牌对满足k同行>5或(k同行/k总)>0.3或k同地>3时,将该频繁同行的车牌对标记为弱关联关系条件的频繁同行的车牌对;其中,k同行为两车同行的卡口数,k总为两车通过卡口的总次数,k同行为两车同地的卡口数。

第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

1、在频繁项发现算法之后,在关联分析的算法作了并行化的改进和优化,通过分别计算同行和同地两种车辆关系,然后通过权重调整两个关系的重要程度,并结合设置卡口占比阈值,得到不同强度等级的车辆关系,既可以减少误判也防止漏判

2、利用时间分片的算法策略解决了车牌大数据处理耗时太长的问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例一中方法中的流程图;

图2为本发明实施例二中装置的结构示意图;

图3为本发明实施例三中电子设备的结构示意图;

图4为本发明实施例四中介质的结构示意图;

图5为本发明实施例五中的实现流程图。

具体实施方式

实施例一

本实施例提供一种方法,如图1所示,包括;

步骤10、识别路面卡口摄像头拍摄的过车图像视频,得到结构化过车数据;

步骤20、将所述结构化过车数据同步到离线分析的集群中,过滤未识别和为空的字段以及同卡口连续拍摄产生的重复数据,然后存入数据仓库;

步骤30、在每天的设定时间从数据仓库获取前24小时的结构化过车数据作为计算数据集,将计算数据集分为一定时长的时间片数据集,进行分布式计算;

本方法对比其他方法在关联分析中的算法作了并行化的改进和优化,利用时间分片的算法策略解决了车牌大数据处理耗时太长的问题。

步骤40、将在相同卡口设定时间内通过的车辆记为一次同行,通过频繁项挖掘算法得到频繁同行的车牌对;

步骤50、计算频繁同行的车牌对的同行次数与总卡口数量占比,将占比满足阈值条件时该频繁同行的车牌对标记为同行关系;将同卡口设定时间内到达且在之后的一定时间内没有其他卡口过车记录的频繁同行的车牌对记为同地一次,将累计同地次数达到阈值的车牌对标记为同地关系;

步骤60、根据同行关系和同地关系,按设置的条件筛选出强关联关系条件的频繁同行的车牌对或弱关联关系条件的频繁同行的车牌对。

对比其他方法,本方法在频繁项挖掘算法之后,通过分别计算同行和同地两种车辆关系,再通过权重调整两个关系的重要程度,并设置多个卡口占比阈值得到不同强度等级的车辆关系,既可以减少误判也防止漏判,可以给公安侦查办案以及打防控预警等工作提供相关的情报线索和数据支撑,并可以进一步开放通用的车辆分析预警功能支持不同警种的应用服务。

在一种可能的实现方式中,还包括:

步骤70、将计算结果存储在分布式数据库gbase和hive中,分别用于web查询和数据分析。

在一种可能的实现方式中,所述结构化过车数据包括车辆外形特征、车牌号、过车时间以及过车速度。

在一种可能的实现方式中,所述步骤60进一步具体包括:当频繁同行的车牌对对满足k同行>5且(k同行/k总)>0.3且k同地>3时,将该频繁同行的车牌对标记为强关联关系条件的频繁同行的车牌对;当频繁同行的车牌对满足k同行>5或(k同行/k总)>0.3或k同地>3时,将该频繁同行的车牌对标记为弱关联关系条件的频繁同行的车牌对;其中,k同行为两车同行的卡口数,k总为两车通过卡口的总次数,k同行为两车同地的卡口数。

上述筛选条件仅为一种具体的实施方式,可根据需求调整,以获得符合要求的筛选结果。

基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。

实施例二

在本实施例中提供了一种涉车关系发现装置,如图2所示,包括:数据识别模块、数据存储模块、数据定时获取模块、频繁项挖掘模块、同行同地计算模块以及关联关系筛选模块;

所述数据识别模块,用于识别路面卡口摄像头拍摄的图像视频数据,得到结构化过车数据;

所述数据存储模块,用于将所述结构化过车数据同步到离线分析的集群中,过滤未识别和为空的字段以及同卡口连续拍摄产生的重复数据,然后存入数据仓库;

所述数据定时获取模块,用于在每天的设定时间获取前24小时的结构化过车数据作为计算数据集,将计算数据集分为设定时间的时间片数据集,进行分布式计算;

所述频繁项挖掘模块,用于将在相同卡口设定时间内通过的车辆记为一次同行,通过频繁项挖掘算法得到频繁同行的车牌对;

所述同行同地计算模块,用于计算频繁同行的车牌对的同行次数与总卡口数量占比,将占比满足阈值条件时该频繁同行的车牌对标记为同行关系;将同卡口设定时间内到达且在之后的一定时间内没有其他卡口过车记录的频繁同行的车牌对记为同地一次,将累计同地次数达到阈值的车牌对标记为同地关系;

所述关联关系筛选模块,用于根据同行关系和同地关系,按设置的条件筛选出强关联关系条件的频繁同行的车牌对或弱关联关系条件的频繁同行的车牌对。

在一种可能的实现方式中,还包括:数据存储模块,用于将计算结果存储在分布式数据库gbase和hive中,分别用于web查询和数据分析。

在一种可能的实现方式中,所述结构化过车数据包括车辆外形特征、车牌号、过车时间以及过车速度。

在一种可能的实现方式中,所述关联关系筛选模块进一步具体用于:当频繁同行的车牌对满足k同行>5且(k同行/k总)>0.3且k同地>3时,将该频繁同行的车牌对标记为强关联关系条件的频繁同行的车牌对;当频繁同行的车牌对满足k同行>5或(k同行/k总)>0.3或k同地>3时,将该频繁同行的车牌对标记为弱关联关系条件的频繁同行的车牌对;其中,k同行为两车同行的卡口数,k总为两车通过卡口的总次数,k同行为两车同地的卡口数。

由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。

实施例三

本实施例提供了一种电子设备,如图3所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。

基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质,如图4所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。

实施例五

一应用于公安领域的具体实际例如下:

本发明实际例提供了涉车关系分析的模块结构,具体包括以下几个模块:

模块1、前端设备采集数据,数据接入并经过数据清洗将非结构化数据转为结构化数据;

模块2、建立hive数据仓库,将历史数据分布式存储;

模块3、设计车辆关系算法,利用spark分布式计算获取有关系的车辆数据;

模块4、web端的涉车大数据平台展示,提供多种研判工具和车辆关系查询;

利用云计算环境下的分布式并行处理框架spark与hive存储和计算离线数据海量数据,解决了单机模式下的内存不足等问题,充分利用大量离线历史数据,在车辆关系分析发现上的性能得到了提升。

如图5所示,本发明实际例涉车关系分析的实施流程,具体包括以下几个步骤:

步骤1、将路面卡口摄像头拍摄的数据由非结构化的图像视频数据识别转成车辆外形特征、车牌号、过车时间以及过车速度等结构化的数据发送到kafka中的指定topic中;

步骤2、根据约定的kafka数据接口格式,将kafka数据同步到离线分析的集群中,过滤未识别和为空的字段,以及同卡口连续拍摄产生的重复数据,通过数据清洗后的数据存入hive中并创建数据仓库;

步骤3、通过azkaban创建定时任务,每天的凌晨会计算一次昨天的历史过车数据。

1)根据设计的同行和同地的两种关系计算规则,将全数据集切分成2.5分钟的时间片数据集把大量离线数据分割成多个小数据集利用分布式计算来优化计算时间。

2)在相同卡口规定时间内通过的车辆记为一次同行,结合频繁项发现算法得出频繁同行的车牌对(本实施例应用的是现有的fp-growth的频繁项发现的方法来作为初步车牌对筛选),然后计算有同行的卡口占比,占比满足阈值条件时被认为具有同行关系;同地关系为同卡口指定时间内到达且在之后的半小时以上没有其他卡口的过车记录被认为是同地一次,累计卡口数量达到阈值的车牌对被认为具有同地关系(累计卡口数量定义的是一天内的过车数据作为输入计算满足条件的卡口数量比例,分别为设置同行的卡口个数占当天总卡口数量比例的阈值为0.3以及同地的卡口占当天总卡口比例为0.3)。

当同时具有同行和同地关系的情况时,分为强弱两个级别关联关系,区别是强关联的同行卡口占比间差值绝对值满足小余阈值的条件,且预设的同地次数的阈值比弱关联关系更大,方法中设置:

强关联关系条件:k同行>5且(k同行/k总)>0.3且k同地>3

弱关联关系条件:k同行>5或(k同行/k总)>0.3或k同地>3

其中,k同行为两车同行的卡口数,k总为两车通过卡口的总次数,k同行为两车同地的卡口数(假设两车分别为a车和b车,两车通过卡口的总次数等于a车单独通过卡口的次数加上b车单独通过卡口的次数再加上a车和b车共同通过卡口的次数);

对于强关联关系的车牌对,可直接记录为具有同行同地关系,对于弱关联的车牌对,可统计一段时间内(比如一星期)这两个车牌被判断为弱关联的天数,弱关联的天数过半则确认两车具有关联关系。

步骤4、将计算出的车辆关系存储在分布式数据库中,本实施例选择的是gbase和hive,数据同时存储在这两个数据库中,分别用于web查询和数据分析;

步骤5、将数据库中的结果表通过web的形式展示给用户,并且提供多种自定义的查询功能和阈值可配置的功能;

车辆关系结果存储字段:

车牌号码1cph_hpzl_o

车牌号码2cph_hpzl_t

同地次数same_count

同行次数ague_count

关系级别relation_level

关系说明relation_info

计算时间calculate_date

车辆关系级别:

强关联同地同行关系

强关联同地同行关系

同地关系

同行关系

本实施例采用spark计算框架对离线的历史数据结构进行计算分析,结合公安网中大量车辆信息、业务数据和图像数据,通过业务建模和数据分析,挖掘车辆和案事件的隐藏关系,提供丰富实用的基于涉车案事件的业务实战应用,为涉车大数据平台提供研判工具的基础数据支撑,满足公安机关办案过程中的过车记录查询和车辆研判工作需要。本方法对结构化的车辆数据进行etl,数据利用hive和gbase数据库作分布式存储,同时大数据平台上多维度可配置的查询条件提供便利的查询功能,可以给公安侦查办案以及打防控预警等工作提供相关的情报线索和数据支撑,并可以进一步开放通用的车辆分析预警功能支持不同警种的应用服务。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1