一种对时序序列进行降维处理的方法和装置制造方法

文档序号:6501254阅读:203来源:国知局
一种对时序序列进行降维处理的方法和装置制造方法
【专利摘要】本发明公开了一种对时序序列进行降维处理的方法和装置,属于计算机【技术领域】。所述方法包括:获取待处理的时序序列;对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。采用本发明,可以减少存储时序序列时所占用的存储空间。
【专利说明】一种对时序序列进行降维处理的方法和装置

【技术领域】
[0001]本发明涉及计算机【技术领域】,特别涉及一种对时序序列进行降维处理的方法和装置。

【背景技术】
[0002]随着数据库技术的飞速发展,人们开始关注如何从大规模数据中获取有价值的信息,这个过程可称作大数据分析。大数据分析在实际应用中,很多情况都是针对时序数据进行分析。时序数据是指时间序列数据,是统一指标下按时间顺序记录的数据列,例如,股票市场的交易数据,传感器网络收集到的状态数据,商店的消费统计数据,电话通信量统计数据坐坐
J/Π寸寸O
[0003]时序数据的数据量是非常庞大的,为了方便时序数据的存储和检索,会对时序数据采取降维处理,即将较多时间点的数据压缩为较少时间点的数据。PLA (PiecewiseLinear Approximat1n,分段线性近似法)是一种常用的降维处理方法。PLA是将时序数据切分成小的时间片段,在每个时间片段中,用一个具有一定斜率的线段来近似该时间片段的数据,这样,在存储处理后的时序序列时,只需要存储各时间片段对应的线段的起始和终止的时间点以及相应的线性参数(线段所属直线方程的系数),可以有效的节省存储空间。
[0004]时序数据相似性检索是大数据分析中常用的一种分析手段。其做法是,将庞大的时序数据分成大量时长相等的时序序列进行存储,根据检索的目标时序序列(目标时序序列与存储的各时序序列时长相同),在存储的各时序序列中查询与其相匹配的时序序列。例如,在心电图中,某种特征波形的出现频率可以用于判定某种疾病,可以在记录的心电图中对该特征波形进行检索,并根据检索结果进行疾病分析。为了便于检索,一般对存储的时序序列和目标时序序列都进行定长PLA处理。定长PLA即,在PLA处理的过程中,将时序序列切分成多个时长相等的时间片段。
[0005]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0006]现有技术中,对时序序列存储时,进行定长PLA处理,对于定长PLA,需要通过缩短时间片段的时长来保证数据的精度,这将会增大需要存储的数据量,对存储空间的占用较大。


【发明内容】

[0007]为了解决现有技术的问题,本发明实施例提供了一种对时序序列进行降维处理的方法和装置,以减少存储时序序列时所占用的存储空间。所述技术方案如下:
[0008]一方面,提供了一种对时序序列进行降维处理的方法,所述方法包括:
[0009]犾取待处理的时序序列;
[0010]对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。
[0011]另一方面,提供了一种对时序序列进行检索的方法,预先存储有采用如上述的对时序序列进行降维处理的方法处理的时序序列,所述方法包括:
[0012]接收携带目标时序序列的查询请求;
[0013]采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理;
[0014]在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。
[0015]另一方面,提供了一种对时序序列进行降维处理的装置,所述装置包括:
[0016]获取模块,用于获取待处理的时序序列;
[0017]处理模块,用于对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。
[0018]另一方面,提供了一种对时序序列进行检索的装置,所述装置包括:
[0019]存储模块,用于预先存储采用如上述的对时序序列进行降维处理的装置处理的时序序列;
[0020]接收模块,用于接收携带目标时序序列的查询请求;
[0021]处理模块,用于采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理;
[0022]查询模块,用于在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。
[0023]本发明实施例提供的技术方案带来的有益效果是:
[0024]本发明实施例中,采用时间片段的时长不固定且为预设的单位时长的整数倍的PLA处理方式,对时序序列进行降维处理,这样,相对于定长PLA,可以用一个时间片段替代定长PLA中的多个时间片段,从而,可以减少存储时序序列时所占用的存储空间。

【专利附图】

【附图说明】
[0025]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1是本发明实施例提供的对时序序列进行降维处理的方法流程图;
[0027]图2是本发明实施例提供的对时序序列进行检索的方法流程图;
[0028]图3是本发明实施例提供的对时序序列进行降维处理的装置结构示意图;
[0029]图4是本发明实施例提供的对时序序列进行检索的装置结构示意图。

【具体实施方式】
[0030]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0031]本发明实施例提供了一种对时序序列进行降维处理的方法,该方法是对时序序列进行降维处理并存储的方法,可以应用于需要对大量的时序序列进行存储的数据库中。如图1所示,该方法的处理流程可以包括如下的步骤:
[0032]步骤101,获取待处理的时序序列。
[0033]以数据库对实时产生的时序数据进行存储为例,随着时间的推移,会不断的产生新的时序数据,每经过一定的时长(预先设置的时序序列的时长),可以获取这段时长内产生的时序数据,作为待处理的时序序列,进而可以进行后续的降维处理的操作。另外,该步骤中也可以获取数据库中已经存储的时序序列,进行后续的降维处理,或者,该步骤中也可以获取进行时序序列检索的目标时序序列,进行后续的降维处理。
[0034]步骤102,对获取的时序序列进行PLA处理,该PLA处理的时间片段的时长不固定且时间片段的时长为预设的单位时长的整数倍。
[0035]其中,在进行单位时长的设置时,可以设置其为时序序列的时长的N分之一(N可以为任意正整数,N的取值可以根据精确度和处理速度的要求进行设置)。各时间片段的时长可以是单位时长的任意整数倍(不超过N),各时间片段的时长可以不同,这样,在PLA处理的过程中,时间片段的时长选择自由度较大,这使得此PLA处理可以尽可能的遵循PLA的根据数据变化趋势进行时间片段划分的原则,即尽可能在数据随时间的变化趋势发生改变(如由增大趋势变为减小趋势)的时间点附近进行时间片段划分(这是PLA的设计之初的原贝U,定长PLA实际在一定程度上破坏了这个原则)。
[0036]在步骤102之后,还可以包括对处理后的时序序列进行存储的步骤。
[0037]其中,处理后的时序序列即为经过上述PLA处理的降维的时序序列。该处理后的时序序列的内容可以包括按时序顺序排列的每个时间片段的起始时间点和线性参数。时间片段结束时间点是其后一个时间片段的起始时间点,所以可以不记录时间片段的结束时间点。时间片段的线性参数,可以是时间片段对应的线段所属直线的函数式中的系数,即f(x)=ax+b中的a和b,其中X为时间变量,f(x)为时间点对应的数据。
[0038]本发明实施例中,对于上述步骤102的处理过程,可以有多种不同的具体执行方法,下面给出了其中的几种执行方法。
[0039]方法一,可以包括如下的处理步骤:
[0040]步骤一,对获取的时序序列进行时间片段的时长为预设的单位时长的PLA处理。其中,时序序列的时长是所述单位时长的整数倍。
[0041]该方法中先对时序序列进行时间片段的时长为单位时长的定长PLA处理,再进行时间片段的合并处理。
[0042]步骤二,在时长为该单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对此顺序连接的多个时间片段进行合并处理。
[0043]其中,时长为该单位时长的各时间片段即上述步骤的定长PLA处理中划分出的各时间片段。近似条件即对各线段之间的近似度的要求,如果顺序连接的多个时间片段对应的线段之间满足一定的近似度的要求,则可以对这些时间片段进行合并。
[0044]此合并处理可以包括:将顺序连接的多个时间片段合并为一个时间片段,合并得到的时间片段对应的线段用于近似表示此多个时间片段对应的线段组成的折线。合并得到的时间片段的两个端点的时间点可以分别是该时间片段的起始时间点和结束时间点。合并得到的时间片段的两个端点的数据值可以分别根据该时序序列在该起始时间点和该结束时间点的数据值确定,例如,可以选取与该起始时间点的数据值的差值小于某阈值的数据值作为第一端点的数据值,选取与该结束时间点的数据值的差值小于某阈值的数据值作为第二端点的数据值。优选的,合并得到的时间片段的两个端点的数据值可以分别为该时序序列在该起始时间点和该结束时间点的数据值,也即,合并得到的时间片段对应的线段为此顺序连接的多个时间片段对应的线段的各端点中最外侧的两个端点的连线。
[0045]通过合并处理的过程,可以将合并前的多个时间片段对应的多组数据(每组数据包括起始时间点和线性参数)简化为合并后的一个时间片段对应的一组数据。
[0046]具体的,步骤二的执行过程可以是:在时长为单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段相互之间的斜率差的绝对值小于预设的第一阈值,则对所述顺序连接的多个时间片段进行合并处理。顺序连接的多个时间片段可以是两个时间片段也可以是两个以上的时间片段。这里,合并的条件可以是顺序连接的多个时间片段对应的线段两两之间的斜率差的绝对值都小于第一阈值。进一步的,该步骤在实施过程中,可以采用如下的多种执行方式。
[0047]处理方式一,其具体执行过程可以包括如下步骤:
[0048]步骤A,在时长为单位时长的各时间片段中,将位于时序序列第一端的时间片段设置为第一基准时间片段。
[0049]其中,时序序列的的两端可以定义为第一端和第二端,第一端可以是时序序列的最iu端,也可以是时序序列的最后端。
[0050]步骤B,判断第一基准时间片段是否为时序序列第二端的时间片段,如果是,则结束流程,否则,将第一基准时间片段的靠近时序序列第二端侧的相邻时间片段设置为第二基准时间片段。
[0051]其中,如果定义时序序列的第一端是时序序列的最前端,则第二端是时序序列的最后端,如果第一端是时序序列的最后端,则第二端是时序序列的最前端。第一基准时间片段的靠近时序序列第二端侧的相邻时间片段,即为与第一基准时间片段相邻的时间片段中距离时序序列第二端较近的时间片段。
[0052]步骤C,判断第一基准时间片段对应的线段和第二基准时间片段对应的线段的斜率差的绝对值是否小于预设的第一阈值,如果是,则执行步骤D,否则,执行步骤E。
[0053]其中,第一阈值的取值可以根据精确度、存储空间占用和处理速度等要求进行设置。两个线段的斜率接近,说明这两个线段所在的直线比较近似,如果进行合并,对数据精确度的影响较小,而可以减少存储空间占用。
[0054]步骤D,判断第二基准时间片段是否为时序序列第二端的时间片段,如果是,则将第一基准时间片段至第二基准时间片段的顺序连接的多个时间片段进行合并处理,并结束流程,否则,将第二基准时间片段的靠近时序序列第二端侧的相邻时间片段设置为第二基准时间片段,并转至执行步骤C。
[0055]具体的,将第一基准时间片段至第二基准时间片段的顺序连接的多个时间片段进行合并处理的过程中,如果第一基准时间片段和第二基准时间片段是相邻的时间片段,可以是对第一基准时间片段和第二基准时间片段进行合并处理,如果第一基准时间片段和第二基准时间片段不是相邻的时间片段,可以是对第一基准时间片段和第二基准时间片段以及它们之间的时间片段进行合并处理。
[0056]步骤E,判断第一基准时间片段是否为第二基准时间片段的相邻时间片段,如果是,则将第二基准时间片段设置为第一基准时间片段,并转至执行步骤B,否则,将包括第一基准时间片段和第二基准时间片段之间的时间片段以及第一基准时间片段在内的顺序连接的多个时间片段进行合并处理,将第二基准时间片段设置为第一基准时间片段,并转至执行步骤B。
[0057]上述流程中,从时序序列的一端开始向另一端,顺序的将各时间片段中的线段与第一个时间片段中的线段进行斜率比较,直到当前时间片段与第一个时间片段的斜率差达到第一阈值时,将第一个时间片段一直到当前时间片段的前一个时间片段进行合并处理,然后,把当前时间片段作为第一个时间片段重复前面的过程,直到时序序列另一端的时间片段。
[0058]下面结合一个具体的例子对上述流程进行说明:假设时序序列被划分为5个时长为单位时长的时间片段,从前到后分别是时间片段I至时间片段5。首先,可以将时间片段2中的线段与时间片段I中的线段进行斜率比较,假设斜率差小于第一阈值;然后,继续将时间片段3中的线段与时间片段I中的线段进行斜率比较,假设斜率差仍小于第一阈值;再后,继续将时间片段4中的线段与时间片段I中的线段进行斜率比较,假设这时斜率差大于第一阈值,这时,将时间片段1、时间片段2和时间片段3进行合并处理;再后,从时间片段4开始,将时间片段5中的线段与时间片段4中的线段进行斜率比较,假设斜率差小于第一阈值,这时,将时间片段4和时间片段5进行合并处理,并结束流程。
[0059]处理方式二,其具体执行过程可以包括如下步骤:
[0060]步骤H,在时长为单位时长的各时间片段中,将位于时序序列第一端的时间片段设置为第三基准时间片段。
[0061]步骤I,判断第三基准时间片段是否为时序序列第二端的时间片段,如果是,则结束流程,否则,执行步骤J。
[0062]步骤J,判断第三基准时间片段的靠近时序序列第二端侧的相邻时间片段对应的线段与第三基准时间片段对应的线段的斜率差的绝对值是否小于预设的第一阈值,如果是,则执行步骤K,否则,执行步骤L。
[0063]其中,第一阈值的取值可以根据精确度、存储空间占用和处理速度等要求进行设置。
[0064]步骤K,将包括第三基准时间片段的靠近时序序列第二端侧的相邻时间片段和第三基准时间片段在内的顺序连接的多个时间片段进行合并处理,将合并得到的时间片段设置为第三基准时间片段,并转至执行步骤I。
[0065]步骤L,将第三基准时间片段的靠近时序序列第二端侧的相邻时间片段设置为第三基准时间片段,并转至执行步骤I。
[0066]上述步骤中,从时序序列的一端开始向另一端,逐个比较时间片段中线段的斜率,如果相邻的时间片段中的线段的斜率差小于第一阈值,则对时间片段进行合并处理,并使用合并后的时间片段与后面相邻的时间片段进行斜率比较,以此类推。
[0067]下面结合一个具体的例子对上述流程进行说明:假设时序序列被划分为5个时长为单位时长的时间片段,从前到后分别是时间片段I至时间片段5。首先,可以将时间片段2中的线段与时间片段I中的线段进行斜率比较,假设斜率差小于第一阈值,则将时间片段I和时间片段2进行合并处理得到时间片段2’;然后,将时间片段3中的线段与时间片段2’中的线段进行斜率比较,假设斜率差仍小于第一阈值,则将时间片段2’和时间片段3进行合并处理得到时间片段3’ ;再后,将时间片段4中的线段与时间片段3’中的线段进行斜率比较,假设这时斜率差大于第一阈值,则从时间片段4开始进行比较,将时间片段5中的线段与时间片段4中的线段进行斜率比较,假设斜率差小于第一阈值,这时,将时间片段4和时间片段5进行合并处理,并结束流程。
[0068]方法二,可以包括如下的处理步骤:
[0069]步骤一,在获取的时序序列的时长对应的时间范围内确定时间点,这些时间点距离时序序列的起始时间点或终止时间点的时长为预设的单位时长的整数倍(这些时间点可称作单位时间点),时序序列的时长是单位时长的整数倍。
[0070]因为时序序列的时长是单位时长的整数倍,所以距离时序序列起始时间点的时长是单位时长的整数倍的时间点与时序序列终止时间点相距的时长也是单位时长的整数倍。[0071 ] 步骤二,根据时序序列的波形包括的波峰和波谷的时间点,在上述确定出的时间点中选取时间片段的分界时间点。
[0072]具体的,对于各波峰的时间点,可以在上述确定出的各时间点中,选取一个或多个与波峰的时间点的距离小于某预设时长的时间点,对于各波谷的时间点,可以在上述确定出的各时间点中,选取一个或多个与波谷的时间点的距离小于某预设时长的时间点,将选取的时间点作为时间片段的分界时间点。这样选取时间片段的分界时间点进行PLA处理,可以尽量保证根据数据变化趋势进行时间片段划分,在节省存储空间的同时,可以一定程度的保证数据精确度。
[0073]优选的,可以在上述确定出的时间点中,选取与各波峰的时间点的距离小于所述单位时长的时间点,以及与各波谷的时间点的距离小于所述单位时长的时间点,并将选取的时间点作为时间片段的分界时间点。具体的,对于每个波峰和波谷的时间点,可以选取至少一个与其距离小于单位时长的单位时间点,作为时间片段的分界时间点。对于一个波峰或波谷的时间点,如果与某个单位时间点重合,则在各单位时间点中,与该波峰或波谷的时间点距离小于单位时长的单位时间点只有一个,即为此重合的单位时间点,可以选择此单位时间点作为时间片段的分界时间点。对于一个波峰或波谷的时间点,如果位于两个单位时间点中间,则在各单位时间点中,与该波峰或波谷的时间点距离小于单位时长的单位时间点有两个,即为这两个单位时间点,可以选择其中的任一个作为时间片段的分界时间点,也可以将这两个单位时间点都选作时间片段的分界时间点。
[0074]优选的,可以在上述确定出的时间点中,选取与各波峰的时间点的距离最小的时间点,以及与各波谷的时间点的距离最小的时间点,并将选取的时间点作为时间片段的分界时间点。具体的,对于每个波峰和波谷的时间点,可以选取与其距离最小的一个单位时间点,作为时间片段的分界时间点。这样选取时间片段的分界时间点进行PLA处理,可以更有效的保证PLA处理后的时序序列的数据精确度。
[0075]步骤三,根据选取的时间片段的分界时间点,对时序序列进行PLA处理。
[0076]这种方法,处理过程较为简单,可以有效的提高步骤102的处理效率。
[0077]本发明实施例还提供了一种对时序序列进行检索的方法。该方法中,可以预先存储经过降维处理的时序序列,该降维处理的方式可以是预定的任意降维处理方式,如传统PLA处理、定长PLA处理等。优选的,可以预先存储采用上述实施例中的对时序序列进行降维处理的方法处理的时序序列,具体的处理过程可以参考上面对步骤102的详细说明,在此不再累述。如图2所示,该方法的处理流程可以包括如下的步骤:
[0078]步骤201,接收携带目标时序序列的查询请求。其中,目标时序序列的时长与存储的时序序列的时长相同。
[0079]步骤202,采用对存储的时序序列进行降维处理的相同方式对目标时序序列进行降维处理。如果采用上述实施例中的对时序序列进行降维处理的方法对目标时序序列进行降维处理,则具体的处理过程可以参考上面对步骤102的详细说明,在此不再累述。
[0080]步骤203,在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。
[0081]其中,处理后的目标时序序列和存储的每个时序序列都记录了一系列线段的数据,所以都可以表示为一条折线。处理后的目标时序序列和存储的时序序列相匹配,也即它们的数据的近似度达到一定的要求,可以理解为它们对应的折线之间的近似度达到了一定的要求。具体的,匹配的判定方式可以是判断处理后的目标时序序列与存储的时序序列之间距离的绝对值是否小于某预设的距离阈值,如果是,则判定匹配,否则判定不匹配。
[0082]两个时序序列之间距离的计算方法有很多种,优选的,可以采用如下的方法计算距离:计算处理后的目标时序序列与存储的时序序列对应的折线在它们时长范围内组成的图形的面积,这里,定义时序序列之间的距离是存在正负的,那么,相应的图形的面积也是存在正负的。具体的,对于图形的每一个封闭部分,定义如果第一时序序列的平均值大于第二时序序列的平均值,则该部分的面积为正,否则面积为负,也可以反过来,对于图形的每一个封闭部分,定义如果第一时序序列的平均值大于第二时序序列的平均值,则该部分的面积为负,否则面积为正。对于图形的一个封闭部分,在该封闭部分的时间范围内,两个时序序列对应的折线,哪个折线在上面则说明哪个折线对应的时序序列的平均值较大。计算出图形的每个封闭部分的面积后,这些面积数值是有正有负的,将这些封闭部分的面积数值相加,则可以得到整个图形的面积,该图形的面积即为此两个时序序列之间距离。
[0083]在本发明实施例中,还可以记录存储的各时序序列对应的第一距离,其中,第一距离是处理后的时序序列与预设的基准时序序列之间的距离,第一距离又可以定义为参考距离。基于此,上述步骤203的执行过程可以是:获取第二距离,第二距离为处理后的目标时序序列与基准时序序列之间的距离(第二距离又可以定义为目标距离);在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列(即获取参考距离与目标距离的距离差小于预设的第二阈值的时序序列),作为与处理后的目标时序序列相匹配的时序序列。
[0084]其中,基准时序序列的时长与存储的时序序列的时长相同,基准时序序列中的时序数据可以任意设置,优选的,为了便于计算距离,提高处理效率,可以设置基准时序序列只包括一个时间片段,且该时间片段对应的线段的斜率为O。参考距离可以在处理后的时序序列存储到数据库中之后计算得到,无需在查询的过程中再计算。
[0085]参考距离与目标距离的距离差,即为相应的存储的时序序列与处理后的目标时序序列之间的距离。在上述的查询过程中,只需要简单的计算各参考距离与目标距离的距离差,便可以确定相应的处理后的时序序列与处理后的目标时序序列之间的距离,与预设的第二阈值进行比较之后,就可以确定出符合条件的时序序列,即与处理后的目标时序序列相匹配的时序序列。相对于现有技术在查询过程中实时计算处理后的目标时序序列与存储的各时序序列之间的距离,本发明实施例提供的方法可以有效的提升查询过程的处理效率。
[0086]优选的,还可以对存储的时序序列建立R-树,并记录R-树中的每个MBR(MinimumBounding Rectangle,最小边界矩形)对应的最小边界距离,其中,最小边界距离是MBR中的各时序序列的第一距离(参考距离)的最小值。
[0087]R-树是一种基于树结构的数据描述方式,主要用来通过索引数据来提高这些数据的查询效率。R-树的核心思想是将相互类似的数据对象分组在一起,并对每组数据对象用最小边界矩形(MBR)来在更高一层的树节点上来描述这组数据对象。由于所有相似的数据对象包含在一个MBR中,当查询数据库中与目标数据对象相匹配的数据对象时,只需要从最高层开始,在每层中查找能够包含目标数据对象的MBR,直到最底层,然后在最底层的MBR内的各数据对象中查找与目标数据对象相匹配的数据对象。上述的数据对象可以是时序序列,R-树可以用于对数据库中的时序序列进行描述。参考距离和最小边界距离都可以在R-树中进行记录。
[0088]当有新的处理后的时序序列存入数据库时,加入到某MBR的范围内,则可以计算该时序序列的参考距离,并可以根据该参考距离判定是否需要对该MBR的最小边界距离进行更新,如果该参考距离小于该MBR的最小边界距离,则将该MBR的最小边界距离更新为该参考距离的数值。如果这个MBR已满,可以将其分割为两个MBR,将该时序序列插入其中的一个MBR,然后记录两个MBR的最小边界距离。
[0089]基于R-树及各MBR的最小边界距离,上述在存储的时序序列中获取对应的第一距离与第二距离的距离差小于预设的第二阈值的时序序列作为与处理后的目标时序序列相匹配的时序序列的处理过程,可以是:根据记录的R-树中的MBR对应的最小边界距离以及时序序列对应的第一距离,在存储的时序序列中,获取对应的第一距离与第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。具体处理过程可以包括:在R-树中获取最小边界距离与第二距离的距离差小于预设第二阈值的MBR;在获取的MBR中的各时序序列中,获取对应的第一距离与第二距离的距离差小于预设第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
[0090]在实施过程中,从R-树的最高层开始,在R-树的最底层之外的每层中,查询最小边界距离与目标距离的距离差小于预设的第二阈值的MBR,并在查询到的MBR中进行下一层的查询;在R-树的最底层中,获取参考距离与目标距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
[0091]在上述的查询过程中,只需要简单的计算MBR的最小边界距离与目标距离的差值,以及计算相应的参考距离与目标距离的差值,就可以进行R-树的查询过程。相对于现有技术在R-树查询过程中实时计算距离的方式,本发明实施例提供的方法可以有效的提高R-树查询的效率。
[0092]上述方法中的R-树查询的过程可以通过下面的程序来实现:
[0093]

【权利要求】
1.一种对时序序列进行降维处理的方法,其特征在于,所述方法包括: 获取待处理的时序序列; 对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。
2.根据权利要求1所述的方法,其特征在于,所述对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍,包括: 对所述时序序列进行时间片段的时长为预设的单位时长的PLA处理,所述时序序列的时长是所述单位时长的整数倍; 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理。
3.根据权利要求2所述的方法,其特征在于,所述在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理,包括: 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段相互之间的斜率差的绝对值小于预设的第一阈值,则对所述顺序连接的多个时间片段进行合并处理。
4.根据权利要求1所述的方法,其特征在于,所述对所述时序序列进行PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍,包括: 在所述时序序列的时长对应的时间范围内确定时间点,所述时间点距离所述时序序列的起始时间点或终止时间点的时长为预设的单位时长的整数倍,所述时序序列的时长是所述单位时长的整数倍; 根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点; 根据选取的时间片段的分界时间点,对所述时序序列进行PLA处理。
5.根据权利要求4所述的方法,其特征在于,所述根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点,包括: 在所述确定出的时间点中,选取与各波峰的时间点的距离小于所述单位时长的时间点,以及与各波谷的时间点的距离小于所述单位时长的时间点,并将选取的时间点作为时间片段的分界时间点。
6.根据权利要求4所述的方法,其特征在于,所述根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点,包括: 在所述确定出的时间点中,选取与各波峰的时间点的距离最小的时间点,以及与各波谷的时间点的距离最小的时间点,并将选取的时间点作为时间片段的分界时间点。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍之后,还包括: 对处理后的时序序列进行存储。
8.—种对时序序列进行检索的方法,其特征在于,预先存储有采用如权利要求1-7所述的对时序序列进行降维处理的方法处理的时序序列,所述方法包括: 接收携带目标时序序列的查询请求; 采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理; 在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。
9.根据权利要求8所述的方法,其特征在于,还包括: 记录存储的各时序序列对应的第一距离,其中,所述第一距离是所述存储的时序序列与预设的基准时序序列之间的距离; 所述在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列,包括:获取第二距离,所述第二距离为所述处理后的目标时序序列与所述基准时序序列之间的距离; 在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
10.根据权利要求9所述的方法,其特征在于,还包括: 对存储的时序序列建立R-树;记录所述R-树中的每个最小边界矩形MBR对应的最小边界距离,其中,所述最小边界距离是所述MBR中的各时序序列的第一距离的最小值; 所述在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列,包括: 根据记录的所述R-树中的MBR对应的最小边界距离以及时序序列对应的第一距离,在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
11.根据权利要求10所述的方法,其特征在于,根据记录的所述R-树中的MBR对应的最小边界距离以及时序序列对应的第一距离,在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列,包括: 在所述R-树中获取最小边界距离与所述第二距离的距离差小于预设第二阈值的MBR ;在获取的MBR中的各时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
12.—种对时序序列进行降维处理的装置,其特征在于,所述装置包括: 获取模块,用于获取待处理的时序序列; 处理模块,用于对所述时序序列进行分段线性近似法PLA处理,所述PLA处理的时间片段的时长不固定且所述时间片段的时长为预设的单位时长的整数倍。
13.根据权利要求12所述的装置,其特征在于,所述处理模块,具体用于: 对所述时序序列进行时间片段的时长为预设的单位时长的PLA处理,所述时序序列的时长是所述单位时长的整数倍; 在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段之间满足预设的近似条件,则对所述顺序连接的多个时间片段进行合并处理。
14.根据权利要求13所述的装置,其特征在于,所述处理模块,具体用于:在时长为所述单位时长的各时间片段中,如果顺序连接的多个时间片段对应的线段相互之间的斜率差的绝对值小于预设的第一阈值,则对所述顺序连接的多个时间片段进行合并处理。
15.根据权利要求12所述的装置,其特征在于,所述处理模块,具体用于: 在所述时序序列的时长对应的时间范围内确定时间点,所述时间点距离所述时序序列的起始时间点或终止时间点的时长为预设的单位时长的整数倍,所述时序序列的时长是所述单位时长的整数倍; 根据所述时序序列的波形包括的波峰和波谷的时间点,在确定出的时间点中选取时间片段的分界时间点; 根据选取的时间片段的分界时间点,对所述时序序列进行PLA处理。
16.根据权利要求15所述的装置,其特征在于,所述处理模块,具体用于: 在所述确定出的时间点中,选取与各波峰的时间点的距离小于所述单位时长的时间点,以及与各波谷的时间点的距离小于所述单位时长的时间点,并将选取的时间点作为时间片段的分界时间点。
17.根据权利要求15所述的装置,其特征在于,所述处理模块,具体用于: 在所述确定出的时间点中,选取与各波峰的时间点的距离最小的时间点,以及与各波谷的时间点的距离最小的时间点,并将选取的时间点作为时间片段的分界时间点。
18.根据权利要求12-17任一项所述的装置,其特征在于,还包括: 存储模块,用于对处理后的时序序列进行存储。
19.一种对时序序列进行检索的装置,其特征在于,所述装置包括: 存储模块,用于预先存储采用如权利要求12-18所述的对时序序列进行降维处理的装置处理的时序序列; 接收模块,用于接收携带目标时序序列的查询请求; 处理模块,用于采用对存储的时序序列进行降维处理的相同方式对所述目标时序序列进行降维处理; 查询模块,用于在存储的时序序列中,查询与处理后的目标时序序列相匹配的时序序列。
20.根据权利要求19所述的装置,其特征在于,所述存储模块,还用于: 记录存储的各时序序列对应的第一距离,其中,所述第一距离是所述存储的时序序列与预设的基准时序序列之间的距离; 所述查询模块,用于: 获取第二距离,所述第二距离为所述处理后的目标时序序列与所述基准时序序列之间的距离; 在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
21.根据权利要求20所述的装置,其特征在于,所述存储模块,还用于: 对存储的时序序列建立R-树;记录所述R-树中的每个最小边界矩形MBR对应的最小边界距离,其中,所述最小边界距离是所述MBR中的各时序序列的第一距离的最小值; 所述查询模块,用于:根据记录的所述R-树中的MBR对应的最小边界距离以及时序序列对应的第一距离,在存储的时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设的第二阈值的时序序列,作为与处理后的目标时序序列相匹配的时序序列。
22.根据权利要求21所述的装置,其特征在于,所述查询模块,用于: 在所述R-树中获取最小边界距离与所述第二距离的距离差小于预设第二阈值的MBR ;在获取的MBR中的各时序序列中,获取对应的第一距离与所述第二距离的距离差小于预设第二阈值的时序序列 ,作为与处理后的目标时序序列相匹配的时序序列。
【文档编号】G06F17/30GK104077309SQ201310105366
【公开日】2014年10月1日 申请日期:2013年3月28日 优先权日:2013年3月28日
【发明者】李建强, 刘博 , 刘春辰 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1