基于大数据的数据分析处理方法与流程

文档序号:36333376发布日期:2023-12-10 15:40阅读:88来源:国知局
基于大数据的数据分析处理方法与流程

本发明涉及数据处理,具体涉及基于大数据的数据分析处理方法。


背景技术:

1、大数据作为一种规模庞大、种类多样、处理速度快的数据集合,通常被用来进行各种设备的实时运行状态监测,以此来进行设备运行的异常及故障的实时监控;然而设备运行的大数据的数据量规模较大,同时实时性要求较高,因此如何对此规模的大数据进行有效存储一直是一个重要问题。

2、现有对于设备运行大数据进行实时压缩采用的技术通常为旋转门趋势算法,该算法是一种可控精度的有损压缩算法,对于变化较为平稳的可损失部分信息的大数据可以进行实时压缩,但是旋转门趋势算法对于数据中的噪声极其敏感,在进行压缩的过程中,如果遇到噪声数据时则会影响旋转门趋势算法的趋势判断,进而使得整体的压缩率变低,提升存储成本;而设备运行大数据中伴随设备运行必然会存在异常数据,这些异常数据在对设备处理完成后,仍会参与存储,异常数据的离群特点同噪声数据一样会影响旋转门趋势算法的趋势判断,进而影响设备运行大数据的压缩效率,导致对设备运行大数据的实时分析受到干扰。


技术实现思路

1、本发明提供基于大数据的数据分析处理方法,以解决现有的设备运行大数据进行存储时受异常数据影响导致压缩效率较低的问题,所采用的技术方案具体如下:

2、本发明一个实施例提供了基于大数据的数据分析处理方法,该方法包括以下步骤:

3、采集设备运行的振动数据,得到待压缩的设备运行大数据;

4、通过旋转门趋势算法获取设备运行大数据的若干拐点数据,根据拐点数据前后的振动数据及趋势,获取每个拐点数据的异常可能性并得到若干异常数据;

5、根据异常数据与前后的振动数据的趋势,获取每个邻域范围的趋势一致性并得到最小一致范围;结合异常数据之前的振动数据,得到每个异常数据的平滑范围及平滑数据;

6、通过平滑数据对异常数据进行替换,得到替换后的设备运行大数据并进行旋转门趋势算法压缩。

7、进一步的,所述得到待压缩的设备运行大数据,包括的具体方法为:

8、采集设备的所有振动数据组成振动数据序列,通过对振动数据进行编码得到调整后的振动数据序列,作为待压缩的设备运行大数据。

9、进一步的,所述设备运行大数据的若干拐点数据,具体的获取方法为:

10、对设备运行大数据通过旋转门趋势算法进行压缩,通过旋转门压缩得到设备运行大数据中的若干拐点,将拐点对应的振动数据记为拐点数据。

11、进一步的,所述获取每个拐点数据的异常可能性并得到若干异常数据,包括的具体方法为:

12、对于任意一个压缩周期压缩到周期内第n个振动数据时,该振动数据为拐点数据,该拐点数据的异常可能性的计算方法为:

13、;

14、其中,pn表示该压缩周期中第n个振动数据作为拐点数据时的异常系数,γn,n-1表示该拐点数据与相邻前一个振动数据的趋势,表示该压缩周期的整体趋势,an表示该拐点数据的数据值,表示从该拐点数据的相邻后一个振动数据开始,共n-1个振动数据的均值;||表示求绝对值;

15、根据拐点数据的异常系数,获取每个拐点数据的异常可能性及异常数据。

16、进一步的,所述每个拐点数据的异常可能性及异常数据,具体的获取方法为:

17、获取每个拐点数据的异常系数,对所有异常系数进行线性归一化,得到的结果记为每个拐点数据的异常可能性;

18、将异常可能性大于异常阈值的拐点数据记为异常数据,得到设备运行大数据中的若干异常数据。

19、进一步的,所述获取每个邻域范围的趋势一致性并得到最小一致范围,包括的具体方法为:

20、对于任意一个压缩周期压缩到周期内第i个振动数据时,该振动数据为异常数据,获取该异常数据的若干邻域范围,其中邻域范围m的趋势一致性qym的计算方法为:

21、;

22、其中,γn-m,n-1表示该异常数据之前第m个振动数据与相邻前一个振动数据之间的整体趋势,γn+1,n+m表示该异常数据相邻后一个振动数据与之后第m个振动数据之间的整体趋势,||表示求绝对值,exp( )表示以自然常数为底数的指数函数;

23、对该异常数据获取每个邻域范围的趋势一致性,将趋势一致性中最大值对应的邻域范围,作为该异常数据的最小一致范围,若最大值对应多个邻域范围,将对应的多个邻域范围中最小的邻域范围作为最小一致范围。

24、进一步的,所述得到每个异常数据的平滑范围及平滑数据,包括的具体方法为:

25、对于任意一个压缩周期压缩到周期内第i个振动数据时,该振动数据为异常数据,该异常数据的平滑范围l的计算方法为:

26、;

27、;

28、其中,m0表示该异常数据的最小一致范围,δ表示该异常数据的整体离群程度,ai表示该异常数据的数据值,aj表示该异常数据之前共m0个振动数据中第j个振动数据的数据值,[ ]表示四舍五入取整,||表示求绝对值,exp( )表示以自然常数为底数的指数函数;

29、获取每个异常数据的平滑范围,根据异常数据之前平滑范围内的振动数据,得到每个异常数据的平滑数据。

30、进一步的,所述得到每个异常数据的平滑数据,包括的具体方法为:

31、根据异常数据之前平滑范围内的振动数据,获取每个异常数据的平滑范围内的误差程度;对于任意一个压缩周期压缩到周期内第i个振动数据时,该振动数据为异常数据,该异常数据的平滑数据bi的计算方法为:

32、;

33、其中,l表示该异常数据的平滑范围,al表示该异常数据之前共l个振动数据中第l个振动数据的数据值,表示该异常数据之前共l个振动数据的整体趋势,ci表示该异常数据的平滑范围内的误差程度。

34、进一步的,所述每个异常数据的平滑范围内的误差程度,具体的获取方法为:

35、;

36、其中,ci表示该异常数据的平滑范围内的误差程度,al表示该异常数据之前共l个振动数据中第l个振动数据的数据值,表示该异常数据之前共l个振动数据的整体趋势,al+1表示该异常数据之前共l个振动数据中第l+1个振动数据,||表示求绝对值。

37、进一步的,所述得到替换后的设备运行大数据并进行旋转门趋势算法压缩,包括的具体方法为:

38、对每个异常数据通过对应的平滑数据进行替换,得到替换后的设备运行大数据;对替换后的设备运行大数据重新进行旋转门趋势算法的压缩,对于任意一个替换的平滑数据,在压缩到该平滑数据时,若该平滑数据与相邻前一个振动数据的趋势在门限值范围内,继续当前压缩周期的向后压缩;若该平滑数据与相邻前一个振动数据的趋势不在门限值范围内,以前一个振动数据作为上一个压缩周期的压缩结束数据,并以该平滑数据作为新的压缩周期进行旋转门趋势算法的压缩;

39、对替换后的设备运行大数据完成旋转门趋势算法的压缩,得到压缩后设备运行大数据。

40、本发明的有益效果是:本发明通过对设备运行大数据进行实时压缩存储,实现基于大数据的对设备运行数据的实时分析处理,通过对设备运行大数据利用旋转门趋势算法进行压缩,同时平滑其中的异常数据,提高设备运行大数据的压缩效率,进而保证对设备运行大数据的实时分析处理;其中先进行一次旋转门压缩来获取拐点数据,通过拐点数据与相邻前后振动数据的趋势及数据值分析量化,得到拐点数据的异常可能性并筛选出异常数据,保证正常反映设备运行状态发生变化的拐点数据不会被平滑导致压缩结果不准确;再根据异常数据前后振动数据的趋势变化来获取最小一致范围,并根据异常数据的相较于之前最小一致范围内振动数据的整体离群程度调整最小一致范围得到平滑范围,使得偏差越大的异常数据对应的平滑范围越大,保证平滑数据的准确性,再对异常数据根据之前平滑范围内的振动数据来获取平滑数据,并利用平滑数据替换异常数据后,再对替换后的设备运行大数据进行旋转门压缩,从而避免异常数据过早结束压缩周期而影响旋转门趋势算法的压缩效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1