基于广域分布交通系统的异常轨迹检测方法
【技术领域】
[0001] 本发明涉及一种异常轨迹检测方法,尤其涉及一种基于广域分布交通系统的异常 轨迹检测方法。
【背景技术】
[0002] 随着现代社会生活节奏的加快和人们生活水平的提高,汽车逐渐成为人们出行的 代步工具。汽车在道路上行驶产生了交通数据,其中最典型的就是道路上摄像头抓拍处理 后产生的车辆轨迹数据。这些数据经过图像处理、图像识别等技术后,转化成为具有固定格 式的时空轨迹数据。分布在城市各处的摄像头不间断的对道路上所有经过的车辆进行数据 采集,数据量十分庞大。时空轨迹数据不仅总量巨大,同时分布式存储在个数据源端处,因 此对数据的分析和挖掘提出了新的挑战。
[0003] 交通轨迹数据能够反映人们行为特征[潘纲,李石坚,齐观德,等.移动轨迹数 据分析与智慧城市[J]. 2012],对于车辆时空轨迹大数据的挖掘和分析具有重要意义。在车 辆时空轨迹大数据的问题中,车辆轨迹的异常检测问题与实际应用息息相关。
[0004] 异常检测通常指从给定数据集中找出不符合正常行为模式定义的特定模式的问 题[Chandola V, Banerjee A, Kumar V. Anomaly detection:A survey[J]. ACM Computing Surveys (CSUR),2009, 41 (3) : 15]。在车辆轨迹大数据中,异常轨迹的出现通常意味着车辆 所对应的行为人的行为与正常行为或我们所预期的行为不符,在实际的社会治安和监管 中,尤其应当引起人们的重视和关注。
[0005] 由于关于车辆轨迹数据的异常检测问题的重要性和挑战性,许多研宄者都提出过 关于车辆轨迹的异常检测方法[Lee J G, Han J, Li X. Trajectory outlier detection:A partition-and-detect framework[C]//Data Engineering, 2008. ICDE 2008.IEEE 24th International Conference on. IEEE, 2008:140-149]> [Bu Y1Chen L, Fu A W C, et al.Efficient anomaly monitoring over moving object trajectory streams[C]// Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009:159-168]〇
[0006] 在这些已有的异常检测方法中,所针对的通常是假定数据集中存储在某一数据中 心,并且所包含的数据都是表示车辆完整行驶路径的轨迹向量。然而,实际应用中的所采集 的数据结构和数据的存储环境常常并非如此。由于城市道路交通监控系统本身就呈现分布 在城市各处道路的特点,且数据的汇总通常也以某一地区为单位(如以城市为单位),因此 当出现针对更大地区(如针对全省)的异常轨迹检测需求时,现有异常检测方法不得不首 先将分散在各数据源节点的原始数据汇总至中心数据节点,然后在全量原始数据上开展数 据的分析。这样的操作不仅会产生巨大的通信开销,而且十分耗时,并且也对中心数据节点 的数据存储和实时处理能力提出了近乎苛刻的要求。与此同时,在实际城市道路交通监控 系统中,采集的数据通常以车辆在某时刻通过某处的形式出现,从中抽象出的数据是反映 车辆在道路某点状态的点数据向量,而并非现有异常轨迹检测方法所考虑的车辆完整行驶 路径的轨迹向量。因此,现有异常轨迹检测方法实际不能很好适应广域分布的车辆轨迹大 数据的异常检测问题。
【发明内容】
[0007] 本发明所要解决的技术问题在于克服现有技术的不足,考虑到车辆时空轨迹数据 的大规模、分布式存储在数据源端、传输数据的通信开销制约和实际采集数据的格式,提出 一种基于广域分布交通系统的异常轨迹检测方法,更符合交通系统的实际情况,并可大幅 减少数据源节点至中心节点的数据传输量,在保证算法效果的前提下提高算法的效率。
[0008] 本发明具体采用以下技术方案解决上述技术问题:
[0009] 基于广域分布交通系统的异常轨迹检测方法,所述广域分布交通系统包括中心节 点以及一系列空间分散分布的数据源节点,所述数据源节点可对所在区域的交通轨迹点数 据进行采集,并可与中心节点进行数据交互;所述异常轨迹检测方法包括以下步骤:
[0010] 步骤A、各数据源节点分别对所采集到的交通轨迹点数据进行无监督聚类,并将聚 类完成后无法归入任何簇集的交通轨迹点数据作为候选异常交通轨迹点数据;各数据源节 点将各自的无监督聚类中心以及候选异常交通轨迹点数据发送至中心节点;
[0011] 步骤B、以接收到的所有无监督聚类中心作为初始聚类中心,中心节点对接收到的 所有候选异常交通轨迹点数据进行聚类,在聚类完成后将无法归入任何簇集的候选异常交 通轨迹点数据作为最终的全局异常交通轨迹点数据输出。
[0012] 为了进一步降低数据处理及传输所需资源,各数据源节点在对所采集到的交通轨 迹点数据进行无监督聚类之前,首先对其进行以下预处理:将同一个对象的交通轨迹点数 据按照时间先后排列为时间序列,并判断该时间序列中是否存在多个连续数据在实际地理 位置上构成直线段,如存在,则将所述多个连续数据中间部分的数据删除,仅保留两端的两 个数据。
[0013] 根据相同的发明思路还可得到一种广域分布交通系统,具体如下:
[0014] -种广域分布交通系统,包括中心节点以及一系列空间分散分布的数据源节点, 所述数据源节点可对所在区域的交通轨迹点数据进行采集,并可与中心节点进行数据交 互;每个数据源节点均包括一候选异常轨迹选择单元,用于对所采集到的交通轨迹点数据 进行无监督聚类,并将聚类完成后无法归入任何簇集的交通轨迹点数据作为候选异常交通 轨迹点数据与所得到的无监督聚类中心一起发送至中心节点;中心节点包括全局异常轨迹 检测单元,用于以接收到的所有无监督聚类中心作为初始聚类中心,对接收到的所有候选 异常交通轨迹点数据进行进一步聚类,在聚类完成后将无法归入任何簇集的候选异常交通 轨迹点数据作为最终的全局异常交通轨迹点数据输出。
[0015] 进一步地,每个数据源节点还包括一数据预处理单元,用于对所采集到的交通轨 迹点数据进行预处理并将预处理后的数据发送至候选异常轨迹选择单元,预处理方法具体 如下:将同一个对象的交通轨迹点数据按照时间先后排列为时间序列,并判断该时间序列 中是否存在多个连续数据在实际地理位置上构成直线段,如存在,则将所述多个连续数据 中间部分的数据删除,仅保留两端的两个数据。
[0016] 相比现有技术,本发明具有以下有益效果:
[0017] 本发明的异常轨迹检测方法所针对的处理对象是原始的轨迹点数据,而非复杂的 车辆的行驶路径轨迹向量数据,并通过简单的聚类方式进行数据处理,算法更简单,所需的 计算及数据传输资源更少,实时性更好;
[0018] 本发明针对广域分布交通系统的实际情况,通过在数据源节点对数据聚类和在中 心节点对聚类结果汇总,考虑了大量轨迹数据分布式存储、数据传输通信开销大的实际问 题,能够更好适应分布式大数据环境,具有更好的实用性。
【附图说明】
[0019] 图1为本发明广域分布交通系统的一个优选实施例的基本架构示意图,其中11为 中心节点,12为数据源节点;
[0020] 图2为优选实施例中数据源节点对交通轨迹点数据进行处理的流程示意图;
[0021] 图3为优选实施例中中心节点对接收到的数据行处理的流程示意图。
【具体实施方式】
[0022] 下面结合附图对本发明的技术方案进行详细说明:
[0023] 图1显示了本发明广域分布交通系统一个优选实施例的基本架构。如图1所示, 整个系统包括中心节点11和以数据源节点12为代表的Z个数据源节点,图中由数据源节 点12指向中心节点11的虚线箭头表示广域网中的数据传输。数据源节点12可对所在区 域的交通轨迹点数据进行采集,并可通过广域网与中心节点11实现信息交互。数据源节点 12包括数据预处理单元和候选异常轨迹选择单元,数据预处理单元可根据车辆的轨迹的几 何特征,删除车辆轨迹点集合中对车辆行驶轨迹特征的表现作用较小的车辆轨迹点,组成 新的有待分析挖掘的数据集,减小原有车辆轨迹点集合的规模;候选异常轨迹选择单元可 通过聚类的方法对预处理后的车辆轨迹点集合进行分析处理,将聚类完成后无法归入任何 簇集的交通轨迹点数据作为候选异常交通轨迹点数据与所得到的聚类中心一起发送至中 心节点11。中心节点11包括全局异常轨迹检测单元,用于以各数据源节点12所得到的所 有聚类中心作为初始聚类中心,对各数据源节点12所筛选出的所有候选异常交通轨迹点 数据进行聚类,在聚类完成后将无法归入任何簇集的候选异常交通轨迹点数据作为最终的 全局异常交通轨迹点数据输出。
[0024] 为了便于公众理解本发明异常轨迹检测方法的技术方案,以某省道路交通监控系 统采集的车辆轨迹数据为例,数据源节点即各城市道路交通监控系统。各城市道路交通监 控系统获取并存储实际应用环境中的轨迹数据后,在本地即可展开对轨迹数据的挖掘和分 析,得到本地数据处理的中间结果。所有的数据源节点对本地数据处理的