数据缺失下时间序列相似性度量方法

文档序号:6540613阅读:453来源:国知局
数据缺失下时间序列相似性度量方法
【专利摘要】本发明公开了一种能够适应缺失数据的时间序列相似性度量方法。该方法从原始的两个时间序列两两提取数据对,并根据数据缺失情况分为5种,分别计算一阶相似度区间;对一阶相似度区间,两两提取区间计算二阶相似度,并得到二阶相似度向量;最后对二阶相似度向量做平均,得到最终的两个时间序列的相似度。本发明能适应多种场景,方法简单,对数据完整性没有任何要求。
【专利说明】数据缺失下时间序列相似性度量方法
【技术领域】
[0001]本发明涉及一种计算机信息处理中的时间序列相似度计算方法,具体来说是涉及计算有一个或者多个缺失数据且数据的物理约束为[0,上限]情况下的两个时间序列之间的相似性的方法。
【背景技术】
[0002]时间序列大量存在于人类社会和自然界中,例如金融时间序列、交通时间序列、温度时间序列等,时间序列相似性能够寻找同类领域诸多相似的时间序列,从而为物理现象和社会现象的分析提供极有利的数据。目前的时间序列相似性方法主要针对没有缺失数据的情况,如果数据缺失,则利用平均值代替、趋势外推法、指数平滑法等来弥补,但是这些弥补需要先验的知识,从而难以保证数据补齐之后的相似性准确度,而且在某些情况下,数据的缺失不能仅仅解释为信息的缺少,有时恰恰能反映更多的数据特征。从而有必要在缺失数据情况下建立时间序列相似性度量方法。

【发明内容】

[0003]为了克服现有时间序列度量无法应用于缺失数据情况下,本发明提出一种能在任意缺失情况下计算时间序列相似性的方法。该方法对数据完整程度没有任何要求。
[0004]本发明解决其技术问题所采用的方法如下述,针对两个时间序列:
[0005]1)两两提取两个时间序列的数据对。
[0006]2)将每一对数据缺失情况分为五种,并根据数据缺失情况计算其一阶相似度区间。
[0007]3)对计算出的若干相似度区间再两两计算相似度得到二阶相似度向量。
[0008]4)对二阶相似度向量求平均,则得到最终两个时间序列的相似度。
[0009]本发明的有益效果:由于自然界中的时间序列大多数都有一定的约束(例如速度大于O小于路段限速),能适应多种场景,方法简单,对数据完整性没有任何要求。
【专利附图】

【附图说明】
[0010]图1是两个含有缺失值的二维向量的相似度计算示意图。
【具体实施方式】
[0011]下面对本发明做进一步的详细描述。
[0012]假设针对两个时间序列Xi = (xn, xi2...)和Xj = (Xj1, Xj2...),时间序列长度都是N,时间序列每个值都有上限X,下限为0,相似度计算方法如下:
[0013]1)两两提取两个时间序列的数据对,设分别对两个时间序列提取第m和第n个数


据,得到xjm,xjn和xim,xin共有cn2=n(n-1)/2对。且每一个数据的约束为[0,x].[0014]2 )针对这
【权利要求】
1.数据缺失下时间序列相似性度量方法,其特征在于: 假设针对两个时间序列Xi = (xn, xi2-..)和Xj = (Xj1, Xj2...),时间序列长度都是N,时间序列每个值都有上限X,下限为O,相似度计算方法如下: 1)两两提取两个时间序列的数据对,设分别对两个时间序列提取第m和第η个数据,得到xjm,xjn和xim,xin,共有
【文档编号】G06F19/00GK103886195SQ201410095671
【公开日】2014年6月25日 申请日期:2014年3月14日 优先权日:2014年3月14日
【发明者】祁宏生, 王殿海, 许骏, 叶盈, 韦薇, 郑正非, 蔡正义 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1