专利名称:一种基于特征点符号聚集近似的时间序列异常挖掘方法
技术领域:
本发明涉及一种时间序列异常挖掘的技术,具体是一种基于特征点符号聚集近似的时间序列异常挖掘方法,使用时间序列的符号化方法以及在此基础上对于时间序列距离
的度量。
背景技术:
时间序列是一个由随时间变化的序列值或事件数据组成的集合,反映了属性值在时间顺序上的特征,这些记录集合往往采用等时间间隔进行度量,他们具有数据量大、维数高、更新速度快等特点,在医疗、气象、经济等领域普遍存在。在时间序列数据挖掘中,大部分挖掘任务是为了发现那些频繁出现的模式,期望发现某种规律,异常数据通常被作为噪声而忽略。但在一些领域中,尽管异常数据与正常数据相比并不是经常发生,但其发生的背后可能隐藏着一些重要的信息,异常数据的发现往往能带给人们更有价值和启发意义的知识。目前,时间序列异常挖掘的主要方法主要存在以下的不足基于距离的方法所需对时间复杂度较大,效率不能保证;生物学方法在正常数据越来越多样化的情况下,可能导致挖掘失败;基于频率的方法需要给出一组标准的参考值;支持向量机技术不仅理论复杂,而且对于建模过程要求也十分苛刻;基于TSA-tree的方法无法保证挖掘结果的全面性和正确性。
发明内容
发明目的针对现有技术中存在的问题,本发明提供一种基于特征点符号聚集近似的时间序列异常挖掘方法,在保证挖掘结果全面正确的前提下,克服基于距离的时间序 列异常挖掘方法计算量大、时间复杂度高的劣势,将复杂的时间序列分析问题尽可能地简单化。技术方案一种基于特征点符号聚集近似的时间序列异常挖掘方法,包括特征点符号聚集近似方法和符号串间距离的度量方法;所述特征点符号聚集近似方法为a)时间序列降维,通过提取时间序列的特征点来表征该序列,所述特征点由三部分构成,即序列的起点和终点、极值特征点以及均值特征点。其中,选取保持时间段与时间序列长度之比大于等于阈值L的极值点,以及包含N个极值点的分段子序列平均值作为该序列的特征点,达到降维的目的。L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为O. 0Γ0. I ;Ν的取值最小为1,最大为该序列的所有极值特征点个数。b)符号化采用符号化聚集近似(Symbolic Aggregate Approximation, SAX)方法划分若干个个等概率空间,通过对时间序列的标准化使其满足标准正态分布,然后按照上述a)中的时间序列降维方法选取合适的特征点,逐一将特征点映射到对应的一个概率区间,处于同一概率区间的序列值用相同的符号表示,最后得到一个长度与特征点个数相同的符号串。所述符号串间距离的度量方法为根据动态时间弯曲(Dynamic Time Warping,DTff)方法,采用字符间距离代替原来的欧式距离,得出两个符号串之间的距离,进而得到任意一个符号串与其余符号串之间的距离之和,称其为累积距离,从而根据该累积距离值的大小挖掘出异常数据。有益效果与现有的技术相比,本发明所提供的基于特征点符号聚集近似的时间序列异常挖掘方法,突出了符号化简便快速地表征时间序列的特点,将复杂的时间序列转化为抽象化的字符串,继而为后续的进一步挖掘节省了大量计算时间,挖掘结果不仅具有典型的代表意义,而且全部符合实际,类型多样。
图I为本发明实施例的整体框架图;图2为本发明实施例的降维方法流程图;图3为本发明实施例的符号化方法流程图;图4为本发明实施例的的距离度量方法流程图。
具体实施例方式下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图I所示,本实施例提供的时间序列异常挖掘方法包含了三个主要模块降维技术、符号化方法和距离度量方法,其中降维技术和符号化方法两部分组成了特征点符号聚集近似的主要内容。如图2所示,待提取的特征点由以下三个部分组成序列的起点和终点、符合保持极值时间段的极值特征点以及包含确定数目极值点的序列分段均值特征点。符合提取条件的极值特征点需满足下面两个条件A)此点必须是该序列的极值点;B)此点保持极值的时间段(此点前后相邻两个极值点之间的距离)与该序列长度的比值必须大于或等于阈值L。L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为O. OfO. I。极值特征点不仅需要记录值的大小,还应保存其在序列中所对应的序号,将其视为该特征点的坐标。均值特征点则是保证每段子序列包含N个极值特征点,然后照此原则划分原始序列,算出每段子序列的平均值,并将此段子序列起点和终点之和的一半作为此均值特征点的坐标。N的取值最小可为1,表示此段子序列只包含I个极值特征点,最大可为该序列的所有极值特征点个数,此时该序列的均值特征点只有一个,为该序列所有点的平均值。降维方法步骤如下
步骤101,输入待挖掘的原始时间序列;步骤102,将原始序列的起点保存为特征点,并设置一个指向第二个点的游标;步骤103,循环开始,判断游标指向的点是否为该时间序列的极值点;步骤104,若不是极值点,则游标指向下一个点;步骤105,若是极值点,则保存,游标指向下一个点;步骤106,如此循环,直至游标指向序列终点;步骤107,保存该序列终点为特征点; 步骤108,开始剩余寻找特征点,将游标置于极值点数组的第二个点;步骤109,开始循环,判断游标指向的点前后两个极值点之差与序列长度之比是否大于等于L ;步骤110,若不满足,游标指向下一个点;步骤111,若满足,则保存为特征点,游标指向下一个点;步骤112,如此循环,直至游标指向数组最后一个点;步骤113,根据N的大小,划分原始序列,算出分段平均值及其坐标;步骤114,按照坐标大小将所有特征点非递减排序;如图3所示,符号化方法的步骤如下步骤201,输入待挖掘的原始时间序列;步骤202,由于本发明中所采用的符号化方法依托符号化聚集近似(SAX)的思想,因此在进行符号化之前,需要对原始时间序列进行标准化,使其满足标准正态分布。采用零-均值方法,对于原始序列C,将其标准化为序列6 ,其中u和V分别为该序列的平均值和标准差
C1-U
Ci 二」^!
V步骤203,按照图2所示流程对序列进行降维;步骤204,确定选取的符号总数a ;步骤205,将已提取特征值的特征点序列划分到a个等概率空间,根据特征点序列的值,把处于同一概率区间的值用同一个符号表示。如符号总数a=5时,即采用A、B、C、D、E共5个符号表示序列。这样,一个特征点序列就可以转换为一个符号串。等概率区间的划分见表1,β1; β2,...,39为分位点。相应数值根据标准正态分布表计算得出,例a=3时,每个空间的概率应为1/3,查找标准正态分布表,Φ (O. 43)=0. 6664,Φ (-0. 43)=1-0. 6664=0. 3336,即得出分位点的数值。表I符号总数a = 3,4,......10时等概率区间的划分
权利要求
1.一种基于特征点符号聚集近似的时间序列异常挖掘方法,其特征在于包括特征点符号聚集近似方法和符号串间距离的度量方法; 所述特征点符号聚集近似方法为通过提取时间序列的特征点来表征所述时间序列,依据符号聚集近似方法,将时间序列划分到若干个等概率空间,得到一个可以表示时间序列的符号串; 所述符号串间距离的度量方法为根据动态时间弯曲方法,定义两个符号串之间的动态弯曲距离,从而得到符号串之间的距离。
2.如权利要求I所述的基于特征点符号聚集近似的时间序列异常挖掘方法,其特征在于特征点符号聚集近似方法包括降维和符号化; 所述降维为选取保持时间段与时间序列长度之比大于等于阈值L的极值点,以及包含N个极值点的分段子序列平均值作为该序列的特征点,达到降维的目的;其中,L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为O. 0Γ0. I ;Ν的取值最小为I,最大为该序列的所有极值特征点个数; 所述符号化采用符号化聚集近似方法划分若干个等概率空间,根据特征点的大小映射到不同的概率区间,处于同一概率区间的序列值用相同的符号表示,最后得到一个长度与特征点个数相同的符号串。
3.如权利要求I所述的基于特征点符号聚集近似的时间序列异常挖掘方法,其特征在于符号串间距离的度量方法包括,定义符号之间的距离代替动态时间弯曲中的欧氏距离,以欧氏距离为基础得到两个符号串之间的距离,进而得到任意一个符号串与其余符号串之间的距离之和,称其为累积距离。
全文摘要
本发明公开一种基于特征点符号聚集近似的时间序列异常挖掘方法,用特征点符号聚集近似方法表征时间序列,并在此基础上对符号串进行距离度量,得出异常数据。该方法包括时间序列降维技术,选取符合条件的极值点和分段平均值作为特征点表征序列;符号化方法,利用符号化聚集近似的思想,将特征点序列转化为符号串;符号串间距离度量方法,定义了一个基于符号距离的动态时间弯曲距离用于度量两个符号串之间的距离,挖掘出异常数据。本发明突出了符号化方法简便快速、高度概括的特点,为后续的进一步挖掘节省了大量计算时间,提高了效率。
文档编号G06F17/30GK102867052SQ201210337740
公开日2013年1月9日 申请日期2012年9月13日 优先权日2012年9月13日
发明者朱跃龙, 刘千, 张鹏程 申请人:河海大学