一种顾及轨迹时空语义的犯罪团伙判别方法
【技术领域】
[0001] 本发明属于刑侦与警务研判、警情数据挖掘、公共安全、犯罪地理学技术领域,尤 其涉及一种顾及轨迹时空语义的犯罪团伙判别方法。
【背景技术】
[0002] 当前城市内有组织团伙化犯罪的倾向突出,从各地破获的"两抢一盗"案件看,凡 大案、要案和系列案件多为犯罪团伙所为。犯罪组织存在时间越长,结构越严密,组织成员 越多,实施的犯罪行为也越多,危害性也越大,打击的难度也就越大。因此,提早、快速、准 确辨识犯罪团伙成员,挖掘出潜在的犯罪团伙,对犯罪团伙打击效果的提高具有重要价值。 然而,通过公安的审讯和共犯情况往往难以发现那些隐藏幕后或未被抓捕到的其他犯罪同 伙。
[0003] 当前,随着传感器技术、全球定位技术的飞速发展和各类社会数据的大规模涌现, 如公安的户政数据、银行的账户转账数据、电信运营商的通讯数据、社交网络数据、卡口数 据、视频监控数据、GPS数据等,为犯罪团伙判断和潜在团伙成员的挖掘迎来重要的技术契 机。但是,仅依靠人工分析海量多源异构的社会数据以识别犯罪团伙是不可能的,迫切需要 有高效智能化的大数据分析手段来识别犯罪团伙。
[0004] 目前,对犯罪成员关系及其关系亲密度侦测的主要技术方法分为两类,利用同时 被捕或在同一地区实施犯罪的犯罪人员形成的网络进行识别;利用人员之间的通信或交易 形成的网络来进行识别。如基于社交信息和成员位置驻留信息构建犯罪分子间的相似性网 络,在该网络上通过谱聚类识别犯罪团伙;利用一段时间内同时被捕的成员或在同一区域 实施相同犯罪人员构建网络,利用k-core算法对多个犯罪团伙进行识别。
[0005] 从已有中国发明专利方面看,目前还未见涉及犯罪团伙成员和犯罪团伙辨识的专 利。经过检索,仅有以下专利与本方案有一定的关联性,中国专利号:CN104408149A,专利名 称:基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统,摘要:本发明涉及一种基于社 交网络分析的犯罪嫌疑人挖掘关联方法及系统,其特征在于包括:对用户输入数据进行预 处理,从输入数据提取关键信息;构建社交网络图模型;设置参数;运行社团发现算法;输 出发现的结果,列出犯罪嫌疑人员,本发明与现有技术相比,具有以下有益效果:能够从给 定的犯罪嫌疑人社交圈内发现潜在的关联犯罪嫌疑人,方法性能好,系统运行快,同时考虑 了真实场景的需求,在用户指定的范围进行分析,具有良好的扩展性。该专利力图通过社交 网络中人员之间的交流模式进行犯罪嫌疑人的查找,但不是对犯罪团伙或其成员的查找。
[0006] 目前来看,已有方法还存在如下不足:
[0007] 1)没有考虑特定时间、事件、位置等关键时空节点,直接采用联络/交易频繁度或 网络集聚性等指标来标识人员间的犯罪团伙关系还不够周全,因为仅仅亲戚好友的关系往 往也能让通信/交易网络中的相关人员形成集聚状态。
[0008] 2)以犯罪位置共现为基础的犯罪团伙识别研究没有考虑未留案底人员属于犯罪 团伙的可能性。
[0009] 3)人员之间的联系类型多样,已有研究未考虑不同人员关联类型对犯罪团伙成员 关系识别的重要程度,从而容易造成犯罪团伙成员关系的误判和漏判。
[0010] 4)已有研究仅能判断某成员属于单个犯罪团伙,无法判断从属若干犯罪团伙的成 员,或从相关人员网络中发现若干不属于犯罪团伙的组织而加以剔除。
[0011] 从数据来源看,随着技术的进步,目前除了有案底人员,还有大量其他可疑人员 现在也列入了警务跟踪对象范围,他们每天的社会移动数据和社会生活数据形成了大量的 人员轨迹数据,如何对这些轨迹数据进行挖掘从而提高犯罪团伙识别的准确率与覆盖率是 当面面临的重要挑战之一。就目前来看,利用轨迹数据进行团伙成员判别的技术或研究还 未见报道。
【发明内容】
[0012] 本发明的发明目的在于针对现有技术中存在的(1)标识人员间的犯罪团伙关系 指标不周全、(2)没有考虑未留案底人员属于犯罪团伙的可能性、(3)易造成犯罪团伙成员 关系的误判和漏判、(4)无法判断从属若干犯罪团伙的成员的问题,提供一种顾及轨迹时空 语义的犯罪团伙判别方法。
[0013] 为了实现上述目的,本发明采用的技术方案如下:
[0014] 一种顾及轨迹时空语义的犯罪团伙判别方法,包括以下步骤:
[0015] (1)重点人员轨迹点聚类:基于重点人员轨迹数据进行区域地理环境和空间邻近 性的轨迹点聚类,即首先将空间划分多个聚类簇,每个聚类簇代表重点人员达到的局部区 域;所述的区域地理环境和空间邻近性的轨迹点聚类ω%表示为:
[0016]
[0017] 基于所述ωι],采用DBSCAN密度聚类方法,即可得到各聚类簇;其中,11,为轨迹 点i和j,P表示1种1 .,之间的时空语义差异,d(l1,)为1满1 ,的空间距离,δ为阈 值;
[0018] (2)重点人员轨迹时空相似性计算:包括两重点人员的聚类簇正、反向物理时空 节点访问频度及两重点人员的Ρ0Ι语义时空分布差异计算;
[0019] (3)重点人员通信时空频度计算:包括两重点人员在时段t内的通信总次数和特 定时空节点的通信频度计算,所述两重点人员特定时空节点的通信频度计算公式为:
[0020]
[0021] 其中,R为特定时空节点集合,h^v为重点人员u和v在r时空节点通讯的时长;
[0022] (4)重点人员关联网络建模:通过表达重点人员之间的关联强度WUiV,进而对重点 人员关联强度Wu,v进行归一化构建重点人员关联网络,所述的Wu,v为:
[0023]
[0024] aAα2+α3= 1
[0025] 其中,αρα2、α3为权重系数;σρσ2为高斯核函数的带宽;cuv为两重点人员u 和v间在时段t内的通信总次数;au,v表示两重点人员在正向物理时空节点数或其附近汇合 的频度;bu,v表示两重点人员在反向物理时空节点或其附近汇合的频度;du,v为两重点人员 特定时空节点的通信频度;APuv表示重点人员u和v的Ρ0Ι语义时空分布差异,△QUiV表 示重点人员u和v的时空分布差异,△ UiV为重点人员u和v的物理时空分布差异;
[0026] (5)基于社交网群落发现方法的犯罪团伙识别:通过对重点人员关联网络进行数 学建模,进而解算出模型中各人员隶属的犯罪团伙概率,从而判别其所属犯罪团伙。
[0027] 进一步地,上述步骤(1)所述轨迹点1JP1 ,的时空语义差异P^的表达式为:
[0028] pcosin(Θi;Θs)
[0029] 其中,Θ廊θ,分别为锚点i和j所在区域的潜在犯罪特征,当两锚点所处社区 的潜在犯罪特征相同,Pu为〇,反之,Pu趋向于1,从而描述了两区域的潜在犯罪特征相 似性。
[0030] 进一步地,上述步骤(4)所述两重点人员在正向物理时空节点访问频度au,vS:
[0031]
[0032] 其中,P表示正向和反向时空节点集合,u和v表示两重点人员,I[hPiU,hPiV]为两 重点人员在P时空节点或其邻近处共现的次数,hPiU为用户u在位置p出现的次数,hPiV为 用户v在位置P出现的次数。
[0033] 进一步地,所述步骤(2)或(4)重点人员u和v的Ρ0Ι语义时空分布差异ΔPuv表 示为:
[0034]
[0035] 其中,T表示各语义时段集合,ptiU和ptiV分别代表重点人员u和v在时段t时对 各类Ρ0Ι的访问强度分布。
[0036] 进一步地,所述步骤(4)重点人员u和v的时空分布差异ΔQUiV表示为:
[0037]
[0038] 其中,qu和qj别为重点人员u和v在时空分布,q。和qt,v分别代表重点人员u 和v在语义时间t对聚类簇的访问强度分布。
[0039] 进一步地,所述步骤(4)重点人员u和v的物理时空分布差异AQ'uv表示为:
[0040]
[0041] 其中,q'u和V^分别为重点人员u和v的物理时空分布模式,q'tjU^PqrtjV 分别代表重点人员u和v在物理时段t对聚类簇的访问强度分布。
[0042] 进一步地,基于概率图生成模型,对上述步骤(5)所述重点人员关联网络的生成 进行数学建模,进而解算出模型中各人员隶属的犯罪团伙概率;其概率图生成模型的描述 如下:
[0043] (1)对网络中的每个节点/个体:从先验概率Dirichlet(α)中采样得到某团伙