专利名称:提取相似子时间序列的方法和装置的制作方法
技术领域:
本发明涉及时间序列处理领域,具体涉及用于从时间序列提取与基准序列相似的子时间序列的方法和装置。
背景技术:
相似子序列提取意味着提取与给定基准类似的子序列。相似子时间序列提取是应用于时间序列预测、聚类、异常检测等任务的基础技术。例如,时间序列预测中需要提取相似子序列,以用于训练。一般而言,相似子序列提取涉及两个步骤。第一个步骤是时间序列分割,即,将时间序列分割为多个部分。第二个步骤是基于相似性计算来提取相似子序列。 对于现有的相似子序列提取技术主要存在以下三个问题(I)硬性分割使得候选设置小;(2)耗费存储空间和处理时间;以及(3)很少考虑物理意义。因此,期望提出一种能够解决上述问题的技术。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些构思,以此作为稍后论述的更详细描述的前序。本发明的一个主要目的在于,提供一种用于从时间序列提取与基准序列相似的子时间序列的方法和装置。根据本发明的一个方面,提供了一种用于从时间序列提取与基准序列相似的子时间序列的方法,包括分别根据时间序列和基准序列的变化趋势对时间序列和基准序列进行变换;将变换后的时间序列分割成多个子时间序列;针对多个子时间序列中的每个子时间序列,计算每个子时间序列与变换后的基准序列之间的编辑距离;以及根据计算出的编辑距离从多个子时间序列中提取与基准序列相似的子时间序列。根据本发明的另一个方面,提供了一种用于从时间序列提取与基准序列相似的子时间序列的装置,包括序列变换单元,被配置为分别根据时间序列和基准序列的变化趋势对时间序列和基准序列进行变换;子时间序列分割单元,被配置为将变换后的时间序列分割成多个子时间序列;编辑距离计算单元,被配置为针对多个子时间序列中的每个子时间序列,计算每个子时间序列与变换后的基准序列之间的编辑距离;以及相似子时间序列提取单元,被配置为根据计算出的编辑距离从多个子时间序列中提取与基准序列相似的子时间序列。另外,本发明的实施例还提供了用于实现上述方法的计算机程序。此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图I是示出根据本发明的实施例的用于从时间序列提取与基准序列相似的子时间序列的方法的流程图;图2是示出一周的负载时间序列的曲线图;图3是示出两个负载子时间序列与一个基准序列的曲线图; 图4是示出根据本发明的实施例的用于从时间序列提取与基准序列相似的子时间序列的装置的框图;以及图5是示出可以用于实施本发明的用于从时间序列提取与基准序列相似的子时间序列的方法和装置的计算设备的举例的结构图。
具体实施例方式下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。以下参照图I来描述根据本发明的实施例的用于从时间序列提取与基准序列相似的子时间序列的方法100。如图I所示,在步骤S102中,可以分别根据时间序列和基准序列的变化趋势对时间序列和基准序列进行变换。具体地,可以根据时间序列中的当前元素相对于前一元素或前多个元素的变化来对时间序列进行变换。此外,可以根据基准序列中的当前元素相对于前一元素或前多个元素的变化来对基准序列进行变换。可替换地,可以根据时间序列中的当前元素相对于后一元素或后多个元素的变化来对时间序列进行变换。此外,可以根据基准序列中的当前元素相对于后一元素或后多个元素的变化来对基准序列进行变换。此处,对时间序列和基准序列的变换采用相同的变换规则。此外,对时间序列和基准序列的变换不局限于以上方式,而可以采用本领域技术人员可以想到的任何其他方式来变换时间序列和基准序列,只要这种变换能够反映序列的变化趋势。接下来,在步骤S104中,可以将变换后的时间序列分割成多个子时间序列。可选地,可以按照允许与基准序列的长度不同的预定分割步长将变换后的时间序列分割成多个子时间序列。此外,可以按照允许与基准序列的长度不同的预定分割长度将变换后的时间序列分割成多个子时间序列。通过对时间序列执行这样的柔性分割,可以更加灵活地分割时间序列,以根据需要来得到相应分割结果,进而得到所需要的相似子序列。例如,可以获得与基准序列相似而长度不同于基准序列的相似子序列。接下来,在步骤S106中,可以针对多个子时间序列中的每个子时间序列,计算每个子时间序列与变换后的基准序列之间的编辑距离。可选地,可以在上述计算中,计算每个子时间序列与变换后的基准序列之间的加权编辑距离,其中可以满足以下要求中的一个或多个对于插入操作,对不同元素的插入可以允许给予不同的权重;对于删除操作,对不同元素的删除可以允许给予不同的权重;以及对于替换操作,对不同元素对的替换可以允许给予不同的权重。相比于不使用权重的一些传统方法,通过计算每个子时间序列与变换后的基准序列之间的加权编辑距离,与基准序列更加相似的子时间序列将具有到基准序列的更短的编辑距离。在步骤S108中,可以根据计算出的编辑距离从多个子时间序列中提取与基准序列相似的子时间序列。具体地,可以从多个子时间序列中提取具有小于预定阈值的编辑距离的一个或多个子时间序列作为与基准序列相似的子时间序列。可选地,从多个子时间序列中提取预定数量的、具有最小编辑距离的子时间序列作为与基准序列相似的子时间序列。当然,提取与基准序列相似的子时间序列不一定要通过以上方式执行,而可以通过本领域人员可以想到的任意其他方式来执行。以下参照图2和图3来描述从负载时间序列提取与基准序列相似的子时间序列的方法。其中,图2是示出一周的负载时间序列的曲线图,而图3是示出两个负载子时间序列与一个基准序列的曲线图。在图2和图3中,给出了与负荷相关联的时间序列。但是,很容易理解到,与负荷相关联的时间序列仅是一个例子。实际上,本发明所处理的时间序列可以是任意的时间序列而不限于图2和3的形式。首先,可以分别根据时间序列和基准序列的变化趋势对时间序列和基准序列进行变换,即通过比较当前元素与前一元素或前多个元素的变化进行多种变换。例如,时间序列
ScpCyC3, ......,Cn,其中η为大于I的整数。基准序列为bpby ......,bm,其中m为大于
I的整数。通常的情况下,m小于n,当然也不排除m大于η的情况。例如,可以根据下式⑴来变换时间序列,而根据下式⑵来变换基准序列
权利要求
1.一种用于从时间序列提取与基准序列相似的子时间序列的方法,包括 分别根据所述时间序列和所述基准序列的变化趋势对所述时间序列和所述基准序列进行变换; 将变换后的时间序列分割成多个子时间序列; 针对所述多个子时间序列中的每个子时间序列,计算所述每个子时间序列与变换后的基准序列之间的编辑距离;以及 根据计算出的编辑距离从所述多个子时间序列中提取与所述基准序列相似的子时间序列。
2.根据权利要求I所述的方法,其中,所述分别根据时间序列和所述基准序列的变化趋势对所述时间序列和所述基准序列进行变换的步骤包括 根据所述时间序列中的当前元素相对于前一元素或前多个元素的变化来对所述时间序列进行变换;以及 根据所述基准序列中的当前元素相对于前一元素或前多个元素的变化来对所述基准序列进行变换。
3.根据权利要求I所述的方法,其中,所述分别根据时间序列和所述基准序列的变化趋势对所述时间序列和所述基准序列进行变换的步骤包括 根据所述时间序列中的当前元素相对于后一元素或后多个元素的变化来对所述时间序列进行变换;以及 根据所述基准序列中的当前元素相对于后一元素或后多个元素的变化来对所述基准序列进行变换。
4.根据权利要求I所述的方法,其中,所述计算所述每个子时间序列与变换后的基准序列之间的编辑距离的步骤包括计算所述每个子时间序列与变换后的基准序列之间的加权编辑距离,其中满足以下要求中的一个或多个 对于插入操作,对不同元素的插入允许给予不同的权重; 对于删除操作,对不同元素的删除允许给予不同的权重;以及 对于替换操作,对不同元素对的替换允许给予不同的权重。
5.根据权利要求I所述的方法,其中,所述根据计算出的编辑距离从所述多个子时间序列中提取与所述基准序列相似的子时间序列的步骤包括 从所述多个子时间序列中提取具有小于预定阈值的编辑距离的一个或多个子时间序列作为与所述基准序列相似的子时间序列。
6.根据权利要求I至5中任一项所述的方法,其中,所述将变换后的时间序列分割成多个子时间序列的步骤包括 按照允许与所述基准序列的长度不同的预定分割步长和/或允许与所述基准序列的长度不同的预定分割长度将所述变换后的时间序列分割成所述多个子时间序列。
7.一种用于从时间序列提取与基准序列相似的子时间序列的装置,包括 序列变换单元,被配置为分别根据所述时间序列和所述基准序列的变化趋势对所述时间序列和所述基准序列进行变换; 子时间序列分割单元,被配置为将变换后的时间序列分割成多个子时间序列; 编辑距离计算单元,被配置为针对所述多个子时间序列中的每个子时间序列,计算所述每个子时间序列与变换后的基准序列之间的编辑距离;以及 相似子时间序列提取单元,被配置为根据计算出的编辑距离从所述多个子时间序列中提取与所述基准序列相似的子时间序列。
8.根据权利要求7所述的装置,其中,所述序列变换单元包括 时间序列变换子单元,被配置为根据所述时间序列中的当前元素相对于前一元素或前多个元素的变化来对所述时间序列进行变换;以及 基准序列变换子单元,被配置为根据所述基准序列中的当前元素相对于前一元素或前多个元素的变化来对所述基准序列进行变换。
9.根据权利要求8所述的装置,其中,所述序列变换单元包括 时间序列变换子单元,被配置为根据所述时间序列中的当前元素相对于后一元素或后多个元素的变化来对所述时间序列进行变换;以及 基准序列变换子单元,被配置为根据所述基准序列中的当前元素相对于后一元素或后多个元素的变化来对所述基准序列进行变换。
10.根据权利要求7所述的装置,其中,所述编辑距离计算单元被配置为计算所述每个子时间序列与变换后的基准序列之间的加权编辑距离,其中满足以下要求中的一个或多个 对于插入操作,对不同元素的插入允许给予不同的权重; 对于删除操作,对不同元素的删除允许给予不同的权重;以及 对于替换操作,对不同元素对的替换允许给予不同的权重。
全文摘要
本发明涉及用于从时间序列提取与基准序列相似的子时间序列的方法和装置。其中,用于从时间序列提取与基准序列相似的子时间序列的方法包括分别根据时间序列和基准序列的变化趋势对时间序列和基准序列进行变换;将变换后的时间序列分割成多个子时间序列;针对多个子时间序列中的每个子时间序列,计算每个子时间序列与变换后的基准序列之间的编辑距离;以及根据计算出的编辑距离从多个子时间序列中提取与基准序列相似的子时间序列。
文档编号G06F17/30GK102880621SQ201110203979
公开日2013年1月16日 申请日期2011年7月14日 优先权日2011年7月14日
发明者杨宇航, 孟遥, 夏迎炬, 陆应亮, 于浩 申请人:富士通株式会社