本发明涉及警务大数据挖掘分析领域,尤其涉及一种基于多维数据的人员去向分析的方法及系统。
背景技术:
随着现代社会的发展,城市正在不断地建设与完善前端感知设备以及关联至社会档案的购票、住宿登记等系统,因此公安数据库能够积累这些前端感知设备采集到的数据以及购票、住宿登记等轨迹数据,这些数据是海量级的,海量的数据暗示了这是一笔待挖掘的巨大的信息化财富。现在公安侦查工作的展开,对于重点人员的监控、嫌疑犯的追踪仅利用单个维度的数据加上传统数据库技术对海量数据进行分析,没有完全实现多个维度的海量数据的价值,导致公安侦查工作效率低下。
随着大数据时代的到来,加上前端设备的多维性,以及各种购票、住宿登记系统的多样性,有必要从历史多维数据中挖掘重点人员或嫌疑人的去处为公安侦查业务决策提供有效支撑,从而更好地降低人工分析时间,指导民警缩小发现重点人员或嫌疑人的范围,提高侦查效率。
技术实现要素:
本发明的目的在于提供一种基于多维数据的人员去向分析的方法及系统,旨在用于解决现有的公安侦查工作对于重点人员的监控、嫌疑犯的追踪仅利用单个维度的数据进行分析,导致公安侦查工作效率低下的问题。
本发明是这样实现的:
一方面,本发明提供一种基于多维数据的人员去向分析的方法,包括以下步骤:
s1,获取前端设备采集的数据以及人员轨迹数据并存入大数据平台;
s2,对重点关注人员建立档案;
s3,基于大数据平台已积累数据,分别建立确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则;
s4,基于人员档案中的人员特征数据,利用确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则对大数据平台中的数据进行碰撞分析,筛选出对人员确定去处、常驻去处、可能去处进行分析所需要的数据,并进一步分析出人员确定去处、常驻去处、可能去处。
进一步地,所述步骤s1中,前端设备包括人脸卡口、电子围栏、wifi围栏、车辆卡口,人员轨迹数据包括购票、住宿信息。
进一步地,所述步骤s2中,档案包含人员姓名、身份证号码、手机号、手机mac、手机imsi、车牌号、登记照片。
进一步地,所述步骤s3中,所述确定去处数据筛选规则用于根据人员特征数据对大数据平台中的前端设备采集数据进行碰撞分析,筛选出人员最新一条前端设备采集数据,还用于根据人员特征数据对大数据平台中的人员轨迹数据进行碰撞分析,筛选出人员最近的购票、住宿信息;所述常驻去处数据筛选规则用于根据人员特征数据对大数据平台中的数据进行碰撞分析,得出人员出现频次最多的前端设备或轨迹数据;所述可能去处数据筛选规则用于根据人员特征数据对大数据平台中的数据按时间区间进行碰撞分析,得出各时间区间内人员出现频次由高到低排序的前端设备或轨迹数据。
进一步地,所述步骤s4具体包括:
基于人员档案中的人员特征数据,利用确定去处数据筛选规则筛选出人员最新一条前端设备采集数据以及人员最近的购票、住宿信息,根据人员最新一条前端设备采集数据的生产地址来确定人员最近的确定去处,根据人员最近的购票、住宿信息来确定人员未来某个时间点的确定去处;
基于人员档案中的人员特征数据,利用常驻去处数据筛选规则筛选出人员出现频次最多的前端设备或轨迹数据,利用筛选出的数据分析出人员常驻去处;
基于人员档案中的人员特征数据,利用可能去处数据筛选规则筛选出各时间区间内人员出现频次由高到低排序的前端设备或轨迹数据,利用筛选出的数据预测出某个时间区间内人员可能去处。
进一步地,该方法还包括:
s5,基于gis地图可视化分层展示人员确定去处、常驻去处、可能去处。
另一方面,本发明还提供一种基于多维数据的人员去向分析的系统,包括数据获取模块、档案建立模块、数据筛选规则建立模块以及去处分析模块;
所述数据获取模块用于获取前端设备采集的数据以及人员轨迹数据并存入大数据平台;
所述档案建立模块用于对重点关注人员建立档案;
所述数据筛选规则建立模块用于基于大数据平台已积累数据,分别建立确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则;
所述去处分析模块用于基于人员档案中的人员特征数据,利用确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则对大数据平台中的数据进行碰撞分析,筛选出对人员确定去处、常驻去处、可能去处进行分析所需要的数据,并进一步分析出人员确定去处、常驻去处、可能去处。
进一步地,所述数据筛选规则建立模块建立的确定去处数据筛选规则用于根据人员特征数据对大数据平台中的前端设备采集数据进行碰撞分析,筛选出人员最新一条前端设备采集数据,还用于根据人员特征数据对大数据平台中的人员轨迹数据进行碰撞分析,筛选出人员最近的购票、住宿信息;所述数据筛选规则建立模块建立的常驻去处数据筛选规则用于根据人员特征数据对大数据平台中的数据进行碰撞分析,得出人员出现频次最多的前端设备或轨迹数据;所述数据筛选规则建立模块建立的可能去处数据筛选规则用于根据人员特征数据对大数据平台中的数据按时间区间进行碰撞分析,得出各时间区间内人员出现频次由高到低排序的前端设备或轨迹数据。
进一步地,所述去处分析模块具体用于:
基于人员档案中的人员特征数据,利用确定去处数据筛选规则筛选出人员最新一条前端设备采集数据以及人员最近的购票、住宿信息,根据人员最新一条前端设备采集数据的生产地址来确定人员最近的确定去处,根据人员最近的购票、住宿信息来确定人员未来某个时间点的确定去处;
基于人员档案中的人员特征数据,利用常驻去处数据筛选规则筛选出人员出现频次最多的前端设备或轨迹数据,利用筛选出的数据分析出人员常驻去处;
基于人员档案中的人员特征数据,利用可能去处数据筛选规则筛选出各时间区间内人员出现频次由高到低排序的前端设备或轨迹数据,利用筛选出的数据预测出某个时间区间内人员可能去处。
进一步地,该系统还包括地图展示模块,所述地图展示模块用于基于gis地图可视化分层展示人员确定去处、常驻去处、可能去处。
与现有技术相比,本发明具有以下有益效果:
本发明提供的这种基于多维数据的人员去向分析的方法及系统,基于大数据平台支撑,采用多维数据融合技术提取有用数据,使用多维相关性模式挖掘人员特征,从三个不同角度出发建立数据筛选规则和分析模型,能够多维度地、智能化地、有目的性地分析人员确定去处、常驻去处、可能去处,本发明还以三种模式分层展示人员确定去处、常驻去处、可能去处,能够直观表达时空信息。
附图说明
图1为本发明实施例提供的一种基于多维数据的人员去向分析的方法的流程图;
图2为本发明实施例提供的一种基于多维数据的人员去向分析的系统的方框图;
图3为本发明实施例提供的利用常驻去处数据筛选规则对大数据平台中的数据进行碰撞分析的原理图;
图4为本发明实施例提供的利用可能去处数据筛选规则对大数据平台中的数据进行碰撞分析的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种基于多维数据的人员去向分析的方法,包括以下步骤:
s1,获取前端设备采集的数据以及人员轨迹数据并存入大数据平台;
s2,对重点关注人员建立档案;
s3,基于大数据平台已积累数据,分别建立确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则;
s4,基于人员档案中的人员特征数据,利用确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则对大数据平台中的数据进行碰撞分析,筛选出对人员确定去处、常驻去处、可能去处进行分析所需要的数据,并进一步分析出人员确定去处、常驻去处、可能去处。
本发明的技术方案基于大数据平台支撑,采用多维数据融合技术提取有用数据,使用多维相关性模式挖掘人员特征,从三个不同角度出发建立数据筛选规则和分析模型,能够多维度地、智能化地、有目的性地分析人员确定去处、常驻去处、可能去处。
下面对上述各步骤进行详细说明。
所述步骤s1中,前端设备包括人脸卡口、电子围栏、wifi围栏、车辆卡口中的一种或多种,所述人脸卡口用于采集人脸图像数据,所述电子围栏用于采集手机imsi,所述wifi围栏用于采集手机mac,所述车辆卡口用于采集车辆图像数据,所述人员轨迹数据包括购票、住宿信息等。获取的数据通过etl(数据抽取工具),作业调度,定时抽取、清洗数据后存入大数据平台。
所述步骤s2中,档案包含人员姓名、身份证号码、手机号、手机mac、手机imsi、车牌号、登记照片等信息,以此形成一人一档。
进一步地,所述步骤s3中,所述确定去处数据筛选规则用于根据人员特征数据对大数据平台中的前端设备采集数据进行碰撞分析,筛选出人员最新一条前端设备采集数据,还用于根据人员特征数据对大数据平台中的人员轨迹数据进行碰撞分析,筛选出人员最近的购票、住宿信息。所述常驻去处数据筛选规则用于根据人员特征数据对大数据平台中的数据进行碰撞分析,得出人员出现频次最多的前端设备或轨迹数据。所述可能去处数据筛选规则用于根据人员特征数据对大数据平台中的数据按时间区间进行碰撞分析,得出各时间区间内人员出现频次由高到低排序的前端设备或轨迹数据。
所述步骤s4中,基于人员档案中的人员特征数据,包括姓名、身份证号码、手机号、手机mac、手机imsi、车牌号、登记照片等,利用确定去处数据筛选规则从大数据平台中的前端设备采集数据中筛选出人员最新一条前端设备采集数据,根据人员最新一条前端设备采集数据的生产地址来确定人员最近的确定去处,从大数据平台中的人员轨迹数据筛选出人员最近的购票、住宿信息,根据购票、住宿信息的目的地来得出未来某个时间点的确定去处。
基于人员档案中的人员特征数据,利用常驻去处数据筛选规则对大数据平台中的数据进行碰撞分析,原理如图3所示。
由图所示,大数据集群中的n个存储空间中各存有不同前端设备或购票、住宿等数据,通过人员特征数据值进行数据相关度匹配及过滤,之后将同种类型数据分类到各个内存空间当中进行累计处理,从而得出人员出现频次最多的前端设备或者购票、住宿等轨迹信息,最后通过基于dbscan密度聚类算法对筛选出的数据进行综合分析得出人员常驻去处。
基于人员档案中的人员特征数据,利用可能去处数据筛选规则对大数据平台中的数据进行碰撞分析,原理如图4所示。
由图所示,大数据集群中的n个存储空间中各存有不同前端设备或购票、住宿等数据,通过人员特征数据值进行数据相关度匹配及过滤,之后将同种类型数据分类到各个内存空间当中,事先对时间区间进行划分,在时间段的条件里分组累计得出时间区间内人员出现频次由高到低排序的前端设备或者购票、住宿等轨迹信息,掌握人员出行习性,通过基于dbscan密度聚类算法对筛选出的数据进行综合分析预测出某个时间区间内人员可能去处。
所述基于dbscan密度聚类算法的流程如下:
设某时间段内的真实数据为样本集d=(x1,x2,…,xm),对领域参数(∈,minpts)调参,选择样本距离度量方式
(1)初始化核心对象集合
(2)对于j=1,2,…m,按下面的步骤找出所有的核心对象:
a)通过距离度量方式,找到样本xj的∈-领域子样本集n∈(xj)
b)如果子样本集样本个数满足|n∈(xj)|≥minpts,将样本xj加入核心对象样本集合:ω=ω∪{xj}
(3)如果核心对象集合
(4)在核心对象集合ω中,随机选择一个核心对象o,初始化当前簇核心对象队列ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合ck={o},更新未访问样本集合γ=γ-{o}
(5)如果当前簇核心对象队列
(6)在当前核心对象队列ωcur中取出一个核心对象o’,通过领域距离阈值∈找出所有∈-领域子样本集n∈(o’),令δ=n∈(o’)∩γ,更新当前簇样本集合ck=ck∪δ,更新未访问样本集合γ=γ-δ,更新ωcur=ωcur∪(δ∩ω)-o’,转入步骤5
通过所述流程步骤,输出簇划分c={c1,c2,…,ck},即为去处集合簇。
作为本实施例的优选,该方法还包括:
s5,基于gis地图可视化分层展示人员确定去处、常驻去处、可能去处。
本发明还基于gis地图以三种模式分层展示人员确定去处、常驻去处、可能去处,能够直观表达时空信息。
基于同一发明构思,本发明实施例还提供一种基于多维数据的人员去向分析的系统,由于该系统解决问题的原理与上述一种基于多维数据的人员去向分析的方法的原理是相似的,因此该系统的实施可以参照上述方法的实施,重复之处不在赘述
如图2所示,为本发明实施例提供的一种基于多维数据的人员去向分析的系统,用于执行上述方法实施例,该系统包括数据获取模块11、档案建立模块12、数据筛选规则建立模块13以及去处分析模块14;
所述数据获取模块11用于获取前端设备采集的数据以及人员轨迹数据并存入大数据平台;
所述档案建立模块12用于对重点关注人员建立档案;
所述数据筛选规则建立模块13用于基于大数据平台已积累数据,分别建立确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则;
所述去处分析模块14用于基于人员档案中的人员特征数据,利用确定去处数据筛选规则、常驻去处数据筛选规则、可能去处数据筛选规则对大数据平台中的数据进行碰撞分析,筛选出对人员确定去处、常驻去处、可能去处进行分析所需要的数据,并进一步分析出人员确定去处、常驻去处、可能去处。
在一个实施例中,所述前端设备包括人脸卡口、电子围栏、wifi围栏、车辆卡口中的一种或多种,所述人脸卡口用于采集人脸图像数据,所述电子围栏用于采集手机imsi,所述wifi围栏用于采集手机mac,所述车辆卡口用于采集车辆图像数据,所述人员轨迹数据包括购票、住宿信息等。获取的数据通过etl(数据抽取工具),作业调度,定时抽取、清洗数据后存入大数据平台。
所述档案建立模块12建立的档案包含人员姓名、身份证号码、手机号、手机mac、手机imsi、车牌号、登记照片等信息,以此形成一人一档。
所述数据筛选规则建立模块13建立的确定去处数据筛选规则用于根据人员特征数据对大数据平台中的前端设备采集数据进行碰撞分析,筛选出人员最新一条前端设备采集数据来确定最近的确定去处,还用于根据人员特征数据对大数据平台中的人员轨迹数据进行碰撞分析,筛选出人员最近的购票、住宿信息。所述数据筛选规则建立模块13建立的常驻去处数据筛选规则用于根据人员特征数据对大数据平台中的数据进行碰撞分析,得出人员出现频次最多的前端设备或轨迹数据。所述数据筛选规则建立模块13建立的可能去处数据筛选规则用于根据人员特征数据对大数据平台中的数据按时间区间进行碰撞分析,得出各时间区间内人员出现频次由高到低排序的前端设备或轨迹数据。
所述去处分析模块14包括确定去处分析子模块141、常驻去处分析子模块142、可能去处分析子模块143。所述确定去处分析子模块141用于基于人员档案中的人员特征数据,利用确定去处数据筛选规则从大数据平台中的前端设备采集数据中筛选出人员最新一条前端设备采集数据,根据人员最新一条数据的生产地址来确定人员最近的确定去处,从大数据平台中的人员轨迹数据筛选出人员最近的购票、住宿信息,根据购票、住宿信息的目的地来得出未来某个时间点的确定去处。所述常驻去处分析子模块142用于基于人员档案中的人员特征数据,利用常驻去处数据筛选规则从大数据平台中的数据中筛选出人员出现频次最多的前端设备或轨迹数据,利用筛选出的数据分析出人员常驻去处。所述可能去处分析子模块143用于基于人员档案中的人员特征数据,利用确定去处数据筛选规则从大数据平台中的数据中筛选出各时间区间内人员出现频次最多的前端设备或轨迹数据,利用筛选出的数据预测出某个时间区间内人员可能去处。
作为本实施例的优选,该系统还包括地图展示模块15,所述地图展示模块15用于基于gis地图可视化分层展示人员确定去处、常驻去处、可能去处。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。