基于时间序列的多维距离聚类异常检测方法及系统与流程

文档序号:19220733发布日期:2019-11-26 02:06阅读:321来源:国知局
基于时间序列的多维距离聚类异常检测方法及系统与流程

本发明属于航空安全技术领域,特别是涉及一种基于时间序列的多维距离聚类异常检测方法及系统。



背景技术:

随着交通运输业、gps定位、目标探测技术快速发展,越来越多的轨迹数据被应用到实验研究中。对移动对象的轨迹聚类分析在交通控制、气象监测、智能导航、反恐监测等领域都有着日趋广泛且重要的应用,通过分析这些数据,人们能够捕获到移动对象的运动特点,同时能够给社会公共基础设施的建设提供决策。近年来,轨迹数据挖掘研究已成为轨迹数据挖掘研究领域的热点,其中包括;轨迹聚类、伴随模式挖掘、频繁模式挖掘以及异常轨迹检测等。异常轨迹检测是指从轨迹数据集中找出严重偏离正常模式的对象,它是轨迹数据挖掘领域的一个重要分支,被广泛应用于出租车欺诈、飞行监测、飓风路径变化等异常行为识别。

飞行安全是民航业的最低要求,是民航工作者的最低保障任务。飞机的运动稳定性和机动性能对于飞行安全是非常重要的。国内外曾发生过多起因不稳定或进入失速导致失控的机毁事故,造成飞机飞行不稳定的原因是多种多样的。同时近年来,恐怖组织日益猖獗,恐怖袭击事件接连不断,对机场飞行安全造成严重影响。

为了保障飞机飞行安全,需要存储和分析大量的飞行相关的时空轨迹数据。民航飞行时空轨迹数据包含了经纬度坐标、记录时间、飞行高度、飞行速度、航向等多种属性。民用飞机能否重复飞行精确的轨迹对飞行安全和飞行效率有重要的影响,从民用飞机的飞行轨迹出发,研究了不同飞机按照仪表的飞行程序。在实际飞行中,民用飞机一般按照标准飞行程序,依靠地面空中交通管制人员的指挥来调配飞行。但特殊情况下,会出现实际航迹偏离标准程序的情况,通过对飞行轨迹数据的异常检测可以从实际飞行的轨迹数据集合中发掘出偏离正常飞行模式的轨迹,保障飞机按照正常轨迹飞行,确保飞行安全。



技术实现要素:

本发明要解决的技术问题是针对目前轨迹分析的异常行为检测技术以检测位置信息为主,忽略了运动轨迹的轨迹有序性及运动特性。提出了一种基于时间序列的多维特征聚类异常检测方法及系统,以提高轨迹数据异常检测技术的精确性,通过提取轨迹数据中经度、纬度、速度、方向多维特征,采用一对三的比较方式,使用hausdorff距离计算轨迹间多维距离(相似度),构造出轨迹间的相似性矩阵,并结合层次聚类方法检测轨迹中的异常行为。

为了解决上述技术问题,本发明的技术方案为:

本专利的第一发明目的是提供一种基于时间序列的多维距离聚类异常检测方法,包含下列步骤:

步骤一:数据预处理,即对轨迹数据集进行预处理,主要包括对数据进行清洗以及再整合两部分。

使用正则表达式处理明显异常的数据。对于缺失值的数据,若某条数据有多个属性缺失值,选择直接删除该元组,对于各别数据的缺失,则使用平均值来补齐数据。之后,再根据所需特征,从轨迹数据集中提取出时间、速度、方向、经度、纬度特征到新表,从而达到数据格式标准化。

步骤二:计算轨迹间多维相似度。轨迹数据可表示为tr={p1,p2,…pi,…,pn},其中pi=(loni,lati,vi,θi,ti),loni,lati为轨迹点的经度和纬度值,vi为轨迹点的速度,θi为轨迹点的方向,ti为该轨迹点的时间戳信息。轨迹集合为t={tr1,tr2,…,tri,…,trn},其中tri表示第i条轨迹数据。根据hausdorff距离定义h(a,b)=max(h(a,b),h(b,a)),其中,h(a,b)称为从a集合到b集合的单向hausdorff距离。本发明中,将速度、方向、经度、纬度融合入hausdorff距离公式中,计算任意两条轨迹之间的多维hausdorff距离。

具体如下:

(1)位置特征:posdis(ai,bi)=dist(ai,(bi,bi-1,bi+1))表示两条轨迹上的两点的经纬度距离。本发明中采用haversine公式来计算给定两个点之间的距离,具体如下:给定两点的经纬度的距离为:

其中:

haversin(θ)=sin2(θ/2)=(1-cos(θ))/2

r为地球半径,可取平均值6371km;ω1,ω2表示两点的经度;表示两点的纬度;δλ表示两点经度的差值。

(2)速度特征:表示两条轨迹上两点之间的速度欧式距离,点的速度分解为垂直速度v*sinθ、水平速度v*cosθ。

(3)方向特征:表示两条轨迹在内部方向改变程度,反应了轨迹的波动状况,使用绝对值距离来表示,具体如下:

给定两点的角度值θ1、θ2:

当|θ1-θ2|≤180时,方向的绝对值距离为|θ1-θ2|;

当|θ1-θ2|>180时,方向的绝对值距离为360-(θ1、θ2)max+(θ1、θ2)min。

即综合上述公式:

tmfd(ai,bi)=ωp×posdis+ωv×spedis+ωθ×angdis式(2)

其中,ωp+ωv+ωθ=1,且分别表示位置特征、速度特征、方向特征的权重因子,可根据应用场景的不同,可适当调整权重的选择。

轨迹点对匹配:计算两个轨迹之间的最小距离时,轨迹a中任意点ai仅与轨迹b中相对应时刻点bi以及前后相邻两点比较。

步骤三:对轨迹数据集使用基于时间序列的多维特征距离方法计算得到任意两条轨迹之间的多维相似距离h(tra,trb),进而构造出计算轨迹间的相似性矩阵r,即:

其中,rij表示第i条轨迹与第j条轨迹之间的相似距离。主对角线元素0表示轨迹自身与自身比较的相似距离。

步骤四:多维hausdorff距离的层次聚类算法。即,选择机器学习中的层次聚类算法基于步骤三中相似性矩阵对轨迹数据集进行层次聚类。表1为结合轨迹数据的多维hausdorff距离的层次聚类算法。

步骤五:为了检测算法的异常检测效果,构造出在速度、方向、经度、纬度上有异常的轨迹。构造具体的异常轨迹如下:

速度偏移:从正常数据集中抽取5条航迹,将其速度变为正常速度的1.5倍。

方向偏移:从正常数据集中抽取5条航迹,将其方向变为正常方向的相反方向。

位置偏移:结合飞行轨迹的二维图,从正常数据集中抽取5条航迹,修改轨迹点使其偏离正常飞行航迹阈值。

将构造的异常轨迹与正常轨迹通过上述层次聚类算法聚类,并选用正确率(accuracy)、精确率(precision)、召回率(recall)、f1值(f1-score)来评价多维hausdorff距离的层次聚类算法。

本专利的第二发明目的是提供一种基于时间序列的多维距离聚类异常检测系统,包括:

预处理模块:对轨迹数据集进行预处理,所述预处理包括清洗和再整合;具体为:

使用正则表达式处理明显异常的数据,对于缺失值的数据,若某条数据有多个属性缺失值,选择直接删除该元组,对于各别数据的缺失,则使用平均值来补齐数据;之后,再根据所需特征,从轨迹数据集中到新表,从而达到数据格式标准化;

相似度计算模块:计算轨迹间多维相似度;具体为:

轨迹数据表示为tr={p1,p2,…pi,…,pn},其中pi=(loni,lati,vi,θi,ti),loni,lati为轨迹点的经度和纬度值,vi为轨迹点的速度,θi为轨迹点的方向,ti为该轨迹点的时间戳信息;轨迹集合为t={tr1,tr2,…,tri,…,trn},其中tri表示第i条轨迹数据;根据h(a,b)=max(h(a,b),h(b,a)),将速度、方向、经度、纬度融合入hausdorff距离公式中,计算任意两条轨迹之间的多维hausdorff距离;

构造模块:对于上述多维hausdorff距离,构造轨迹间相似性矩阵;

层次聚类模块:多维hausdorff距离的层次聚类算法;选择机器学习中的层次聚类算法,基于上述相似性矩阵进行层次聚类;具体为:

首先根据n条轨迹数据构造n个类,每一类的平台高度均为0;

其次合并距离最近的两类为新类,修改平台高度;

再次计算新类与当前各类的距离,若类的个数已经等于1,生成具有层次结构的聚类图,否则继续合并类,并计算新类与各类的距离,直到结束;

检测模块:检测算法的异常检测效果,构造出在速度、方向、经度、纬度上有异常的轨迹,通过上述层次聚类算法将异常轨迹与正常轨迹聚类,并选用正确率、精确率、召回率、f1值来评价聚类算法。

本专利的第三发明目的是提供一种实现上述基于时间序列的多维距离聚类异常检测方法的计算机程序。

本专利的第四发明目的是提供一种实现上述基于时间序列的多维距离聚类异常检测方法的信息数据处理终端。

本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于时间序列的多维距离聚类异常检测方法。

本发明的优点及积极效果为:

本发明针对目前轨迹分析的异常行为检测技术以检测位置信息为主,忽略了运动轨迹的轨迹有序性及运动特性。提出了一种基于时间序列的多维特征异常检测方法,以提高轨迹数据异常检测技术的精确性,通过提取轨迹数据中经度、纬度、速度、方向信息,采用一对三的比较方式,利用hausdorff距离计算轨迹数据的多特征相似度,构造出轨迹间的相似性矩阵,并结合层次聚类方法检测轨迹中的异常行为。本发明通过融入轨迹的多维特征,提高了对异常数据的敏感度。

针对现有的轨迹相似度度量方法存在的不足,本发明基于时间序列的多维hausdorff距离,考虑轨迹本身就的运动有序性以及轨迹点连续性特征的基础上,从位置、速度、航向这三个方面来计算轨迹的相似度,同时针对于“轨迹点有序”这一特征,使用一对三的比较方法减少了轨迹点之间的比较次数,降低了计算复杂度。结合机器学习中的层次聚类算法,用聚类图更直观的区别出正常异常轨迹数据。增加了轨迹点多维特征提高了飞行轨迹数据的异常行为检测的精确性。在实际应用中,发现异常航迹对于查找民航飞机出现故障及漏洞有着重要的参考意义。

本发明将轨迹数据集经过预处理,抽取时间、速度、方向、经度、纬度属性,形成标准数据格式;使用hausdorff距离计算轨迹多维特征相似度;并构造出计算轨迹间的相似性矩阵,再选择机器学习中的层次聚类算法基于该相似性矩阵进行层次聚类,生成具有层次结构的聚类图。本发明提高了对异常数据的敏感度,有助于检测轨迹间的异常信息。

附图说明

图1为hausdorff中一对多匹配图;

图2为hausdorff中一对三匹配图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

一种基于时间序列的多维距离聚类异常检测方法,包含下列步骤:

步骤一:数据预处理,即对轨迹数据集进行预处理,主要包括对数据进行清洗以及再整合两部分。

使用正则表达式处理明显异常的数据。对于缺失值的数据,若某条数据有多个属性缺失值,选择直接删除该元组,对于各别数据的缺失,则使用平均值来补齐数据。之后,再根据所需特征,从轨迹数据集中提取出时间、速度、方向、经度、纬度特征到新表,从而达到数据格式标准化。

步骤二:计算轨迹间多维相似度。轨迹数据可表示为tr={p1,p2,…pi,…,pn},其中pi=(loni,lati,vi,θi,ti),loni,lati为轨迹点的经度和纬度值,vi为轨迹点的速度,θi为轨迹点的方向,ti为该轨迹点的时间戳信息。轨迹集合为t={tr1,tr2,…,tri,…,trn},其中tri表示第i条轨迹数据。根据hausdorff距离定义h(a,b)=max(h(a,b),h(b,a)),其中,h(a,b)称为从a集合到b集合的单向hausdorff距离。本发明中,将速度、方向、经度、纬度融合入hausdorff距离公式中,计算任意两条轨迹之间的多维hausdorff距离。

具体如下:

(4)位置特征:posdis(ai,bi)=dist(ai,(bi,bi-1,bi+1))表示两条轨迹上的两点的经纬度距离。本发明中采用haversine公式来计算给定两个点之间的距离,具体如下:给定两点的经纬度的距离为:

其中:

haversin(θ)=sin2(θ/2)=(1-cos(θ))/2

r为地球半径,可取平均值6371km;ω1,ω2表示两点的经度;表示两点的纬度;δλ表示两点经度的差值。

(5)速度特征:表示两条轨迹上两点之间的速度欧式距离,点的速度分解为垂直速度v*sinθ、水平速度v*cosθ。

(6)方向特征:表示两条轨迹在内部方向改变程度,反应了轨迹的波动状况,使用绝对值距离来表示,具体如下:

给定两点的角度值θ1、θ2:

当|θ1-θ2|≤180时,方向的绝对值距离为|θ1-θ2|;

当|θ1-θ2|>180时,方向的绝对值距离为360-(θ1、θ2)max+(θ1、θ2)min。

即综合上述公式:

tmfd(ai,bi)=ωp×posdis+ωv×spedis+ωθ×angdis式(2)

其中,ωp+ωv+ωθ=1,且分别表示位置特征、速度特征、方向特征的权重因子,可根据应用场景的不同,可适当调整权重的选择。

轨迹点对匹配:计算两个轨迹之间的最小距离时,轨迹a中任意点ai仅与轨迹b中相对应时刻点bi以及前后相邻两点比较。

图1中的点对匹配为计算hausdorff中使用的一对多匹配方法,本发明在其基础上改进其匹配数量,减少了计算量。图2中的点对匹配为计算hausdorff中使用的一对三匹配方法,

步骤三:对轨迹数据集使用基于时间序列的多维特征距离方法计算得到任意两条轨迹之间的多维相似距离h(tra,trb),进而构造出计算轨迹间的相似性矩阵r,即:

其中,rij表示第i条轨迹与第j条轨迹之间的相似距离。主对角线元素0表示轨迹自身与自身比较的相似距离。

步骤四:多维hausdorff距离的层次聚类算法。即,选择机器学习中的层次聚类算法基于步骤三中相似性矩阵对轨迹数据集进行层次聚类。表1为结合轨迹数据的多维hausdorff距离的层次聚类算法。

表1多维hausdorff距离的层次聚类算法

步骤五:为了检测算法的异常检测效果,构造出在速度、方向、经度、纬度上有异常的轨迹。构造具体的异常轨迹如下:

速度偏移:从正常数据集中抽取5条航迹,将其速度变为正常速度的1.5倍。

方向偏移:从正常数据集中抽取5条航迹,将其方向变为正常方向的相反方向。

位置偏移:结合飞行轨迹的二维图,从正常数据集中抽取5条航迹,修改轨迹点使其偏离正常飞行航迹阈值。

将构造的异常轨迹与正常轨迹通过上述层次聚类算法聚类,并选用正确率(accuracy)、精确率(precision)、召回率(recall)、f1值(f1-score)来评价多维hausdorff距离的层次聚类算法。

一种基于时间序列的多维距离聚类异常检测系统,包括:

预处理模块:对轨迹数据集进行预处理,所述预处理包括清洗和再整合;具体为:

使用正则表达式处理明显异常的数据,对于缺失值的数据,若某条数据有多个属性缺失值,选择直接删除该元组,对于各别数据的缺失,则使用平均值来补齐数据;之后,再根据所需特征,从轨迹数据集中到新表,从而达到数据格式标准化;

相似度计算模块:计算轨迹间多维相似度;具体为:

轨迹数据表示为tr={p1,p2,…pi,…,pn},其中pi=(loni,lati,vi,θi,ti),loni,lati为轨迹点的经度和纬度值,vi为轨迹点的速度,θi为轨迹点的方向,ti为该轨迹点的时间戳信息;轨迹集合为t={tr1,tr2,…,tri,…,trn},其中tri表示第i条轨迹数据;根据h(a,b)=max(h(a,b),h(b,a)),将速度、方向、经度、纬度融合入hausdorff距离公式中,计算任意两条轨迹之间的多维hausdorff距离;

构造模块:对于上述多维hausdorff距离,构造轨迹间相似性矩阵;

层次聚类模块:多维hausdorff距离的层次聚类算法;选择机器学习中的层次聚类算法,基于上述相似性矩阵进行层次聚类;具体为:

首先根据n条轨迹数据构造n个类,每一类的平台高度均为0;

其次合并距离最近的两类为新类,修改平台高度;

再次计算新类与当前各类的距离,若类的个数已经等于1,生成具有层次结构的聚类图,否则继续合并类,并计算新类与各类的距离,直到结束;

检测模块:检测算法的异常检测效果,构造出在速度、方向、经度、纬度上有异常的轨迹,通过上述层次聚类算法将异常轨迹与正常轨迹聚类,并选用正确率、精确率、召回率、f1值来评价聚类算法。

一种实现上述第一优选实施例中基于时间序列的多维距离聚类异常检测方法的计算机程序。

一种实现第一优选实施例中基于时间序列的多维距离聚类异常检测方法的信息数据处理终端。

一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行第一优选实施例中的基于时间序列的多维距离聚类异常检测方法。

一种基于时间序列的多维距离聚类异常检测方法,体现在两个部分,一部分抽取轨迹特征,使用hausdorff距离计算公式,计算轨迹间相似度;另一部分利用层次聚类算法,对轨迹集进行聚类,检测轨迹间的异常行为。具体表现为:首先从轨迹数据集中抽取出时间、速度、方向、经度、纬度位置及运动信息,对于任意两条轨迹,其轨迹点按照一对三匹配,其次使用hausdorff距离计算轨迹间多维距离(相似度),并构造出计算轨迹间的相似性矩阵,再选择机器学习中的层次聚类算法基于该相似性矩阵进行层次聚类,生成具有层次结构的聚类图。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1