一种基于动态时间规整的时序数据相似度度量方法及系统与流程

文档序号:34026222发布日期:2023-05-05 09:13阅读:66来源:国知局
一种基于动态时间规整的时序数据相似度度量方法及系统与流程

本发明涉及计算机,具体涉及一种基于动态时间规整的时序数据相似度度量方法及系统。


背景技术:

1、随着计算机技术的发展,很多线下记录的数据会转到线上进行管理,而随着数据越来越多,管理起来也比较困难,有时候接收到在真实数据的基础上稍加修改的虚假数据难以识别,而人工逐一识别在面对大量数据时则有些捉襟见肘,因此需要对待转入线上保存的数据进行自动验证管理,判断数据的真伪。比如来自于供应商的数据,在实际操作中发现有将某一企业的订单数据进行处理后移植给其他企业,因此将数据植入名单库前,需要判别将植入的数据是可信的数据,对其进行相似性校验,以期挖掘出存疑数据。时间序列是数据的一种常见表示形式,对于时间序列处理来说,一个普遍的任务就是比较两个序列的相似性,在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,而动态时间规整方法通过把未知量伸长或缩短(压扩),直到与参考模板的长度一致,在这一过程中,未知量的时间轴会产生扭曲或弯折,以便其特征量与标准模式对应。

2、现有方法中最接近的是以匹配数据模式为目标,通过时序数据集与模式数据库中的数据集间的相似度来判断数据模式是否重现;以此判断时序数据是否发生概念偏移,如果发生偏移则将新模型添加如模式数据库中,详见申请公开号为cn114357037a的发明专利。

3、现有技术和方法,时序数据来源于同一设备或相似设备,其数据具有在固定均值和方差波动的特性,而不适合针对非同源数据判别相似度;此外,现有技术和方法以模式数据库为依据寻找近似匹配模式,而非针对每一个时序数据样本判别具体的相似程度。


技术实现思路

1、为了解决上述现有技术中存在的问题,本发明拟提供了一种基于动态时间规整的时序数据相似度度量方法及系统,拟解决现有时序数据相似性度量方法不适合针对非同源数据判别相似度且并非针对每一个时序数据样本判别具体的相似程度的问题。

2、一种基于动态时间规整的时序数据相似度度量方法,包括如下步骤:

3、步骤1:获取待处理的时序数据,时序数据分为有效时序数据和备选时序数据,然后对获取到的所有时序数据进行归一化处理;

4、步骤2:选取步骤1归一化处理后的部分有效时序数据和部分备选时序数据进行组合并计算共性集合,再进行对比筛选判断;若根据共性集合可直接得出判定结果则无需进行步骤3处理;

5、步骤3:若步骤2选取的有效时序数据和备选时序数据计算共性集合无法直接判定结果则利用动态时间规整方法进行进一步的相似性度量得到相似度;

6、步骤4:循环步骤2到3直到一条备选时序数据和所有有效时序数据之间进行筛选计算,依据相似度选取部分有效时序数据与备选时序数据进行逐一对比,寻找出该备选时序数据与各有效时序数据相似的最大子集,同时还原原始时序数据相似最大子集,并返回选取的有效时序数据与该备选时序数据的之间的相似度、相似的最大子集和最大子集对应的原始数据;

7、步骤5:循环步骤2到步骤4直到所有备选时序数据与所有有效时序数据之间均完成筛选计算。

8、优选的,所述有效时序数据和所述备选时序数据的关系为,部分备选时序数据可能涵盖有虚假时序数据,而虚假时序数据为增加真实性是依据有效时序数据编造的,部分虚假时序数据较有效时序数据仅存在着简单的振幅平移和振幅伸缩。

9、优选的,所述归一化处理包括每一条时序数据中的相邻元素进行一阶差分处理消除振幅平移,再进行求商消除振幅伸缩。

10、优选的,基于步骤1处理过的时序数据,选取一条有效时序数据和一条备选时序数据组合计算共性集合进行对比筛选。

11、优选的,筛选有三种筛选结果,筛选结果1所选有效时序数据与备选时序数据之间的共性集合完全不同,则判定所选有效时序数据与备选时序数据毫不相关,忽略该组合;筛选结果2所选有效时序数据与备选时序数据共性集合完全相同,则判定所选有效时序数据和备选时序数据完全相关即判定该备选时序数据为异常时序数据;筛选结果3所选有效时序数据与备选时序数据共性集合有部分相同,则此时无法直接判定,需进行进一步相似性度量。

12、优选的,所述异常时序数据在被发现时则直接还原原始时序数据并返回相应原始时序数据和异常判定结果。

13、优选的,所述步骤3中的动态时间规整方法为计算两个序列各个点之间的距离矩阵,寻找一条从矩阵左上角到右下角的路径,使得路径上的元素和最小。

14、优选的,所述步骤4中,所述依据相似度选取部分有效时序数据的选取办法有两种:第一种是依据相似度排序选取排名靠前的n条有效时序数据;第二种是依据相似度情况确定一个阈值,选取大于阈值的有效时序数据,其中1≤n≤10。

15、优选的,所述步骤2中,选取数据规则为先选取一条备选时序数据与轮流所有有效时序数据进行组合,筛选判定和可能的动态时间规整完毕后,再选取下一条备选时序数据直到所有有效时序数据判断完成。

16、一种基于动态时间规整的时序数据相似度度量系统,包括数据采集处理模块,判定模块;其中数据采集处理模块用于采集有效时序数据和备选时序数据并进行归一化处理传输到判定模块;所述判定模块包括筛选模块和动态时间规整模块,经过归一化处理的数据先交由筛选模块,筛选模块利用共性集合进行筛选判定,判定数据是否为异常数据或者安全数据然后返回结果,若筛选模块遇到无法直接判定的数据则交由动态时间规整模块进行相似度度量再返回结果。

17、本发明的有益效果包括:

18、采用共性集合初步筛选加快计算,在实际数据量较大时,可以将其中不符合对比标准的先排除,再在剩余数据中寻找;采用动态时间规整方法不仅可以找到处理后的最高相似度的时间序列,还可以找到对应的处理前的原始数据的时间序列,因此返回值中不仅包括相似度,还包含相似子集以及相似原数据子集。



技术特征:

1.一种基于动态时间规整的时序数据相似度度量方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,在所述步骤1中,所述有效时序数据和所述备选时序数据的关系为,部分备选时序数据可能涵盖有虚假时序数据,而虚假时序数据为增加真实性是依据有效时序数据编造的,部分虚假时序数据较有效时序数据仅存在着简单的振幅平移和振幅伸缩。

3.根据权利要求2所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述归一化处理包括每一条时序数据中的相邻元素进行一阶差分处理消除振幅平移,再进行求商消除振幅伸缩。

4.根据权利要求1所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述步骤2中,基于步骤1处理过的时序数据,选取一条有效时序数据和一条备选时序数据组合计算共性集合进行对比筛选。

5.根据权利要求4所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述步骤2中,筛选有三种筛选结果,筛选结果1所选有效时序数据与备选时序数据之间的共性集合完全不同,则判定所选有效时序数据与备选时序数据毫不相关,忽略该组合;筛选结果2所选有效时序数据与备选时序数据共性集合完全相同,则判定所选有效时序数据和备选时序数据完全相关即判定该备选时序数据为异常时序数据;筛选结果3所选有效时序数据与备选时序数据共性集合有部分相同,则此时无法直接判定,需进行进一步相似性度量。

6.根据权利要求5所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述异常时序数据在被发现时则直接还原原始时序数据并返回相应原始时序数据和异常判定结果。

7.根据权利要求1所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述步骤3中的动态时间规整方法为计算两个序列各个点之间的距离矩阵,寻找一条从矩阵左上角到右下角的路径,使得路径上的元素和最小。

8.根据权利要求1所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述步骤4中,所述依据相似度选取部分有效时序数据的选取办法有两种:第一种是依据相似度排序选取排名靠前的n条有效时序数据;第二种是依据相似度情况确定一个阈值,选取大于阈值的有效时序数据。

9.根据权利要求1所述的一种基于动态时间规整的时序数据相似度度量方法,其特征在于,所述步骤2中,选取数据规则为先选取一条备选时序数据轮流与所有有效时序数据进行组合,筛选判定和可能的动态时间规整完毕后,再选取下一条备选时序数据直到所有有效时序数据判断完成。

10.一种基于动态时间规整的时序数据相似度度量系统,其特征在于,包括数据采集处理模块,判定模块;其中数据采集处理模块用于采集有效时序数据和备选时序数据并进行归一化处理传输到判定模块;所述判定模块包括筛选模块和动态时间规整模块,经过归一化处理的数据先交由筛选模块,筛选模块利用共性集合进行筛选判定,判定数据是否为异常数据或者安全数据然后返回结果,若筛选模块遇到无法直接判定的数据则交由动态时间规整模块进行相似度度量再返回结果。


技术总结
本发明公开一种基于动态时间规整的时序数据相似度度量方法及系统,涉及计算机技术领域,现有技术存在时序数据来源于同一设备或相似设备不适合针对非同源时序数据判别相似度并且不是每一个时序数据样本判别具体的相似程度的问题,本发明将收集到的有效时序数据和备选时序数据先利用归一化处理初步筛查,筛查中无法直接判断的则利用动态时间规整计算相似度,找出与备选时序数据相似度最高的部分有效时序数据逐一对比,分别寻找最大相似子集并返回相应结果;本发明利用共性集合初步筛选在数据量较大时提高效率,筛选中无法直接判断的则利用动态时间规整方法进行相似度计算可提高准确率并且返回数据不仅包括相似度和相似子集还包括相似原始数据子集。

技术研发人员:罗俊超
受保护的技术使用者:四川新网银行股份有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1