一种基于自回归模型的云环境中网络数据去重方法及系统

文档序号:35974519发布日期:2023-11-09 16:39阅读:37来源:国知局
一种基于自回归模型的云环境中网络数据去重方法及系统

本发明涉及大数据处理,具体涉及一种基于自回归模型的云环境中网络数据去重方法及系统。


背景技术:

1、随着云计算技术的发展,网络数据越来越丰富,云服务越来越得到普及。网络数据量的增加,使数据在传输过程中需要满足高带宽的需求,云环境内部中存在着大量的重复数据,这些重复数据的存在大大影响了数据存储、访问的效率,并造成了资源的大量浪费,因此,对云环境中的网络数据实施数据去重,对于降低云服务商的存储成本来说至关重要。

2、针对该问题,对比文件1(高文静,咸鹤群,程润辉.计算机学报,2021,44(11):2203-2215)提出了基于双层加密和密钥共享的云数据去重方法,该方法首先划分网络数据流行度,基于划分结果对隐私程度较高的非流行数据实施双层加密保护;同时借助门限秘密共享机制,将加密秘钥存储到秘钥服务管理器中,实现网络用户的秘钥共享;对于隐私程度较低的数据,使用收敛加密方式实施加密处理;数据完成加密后,相同数据以及相似数据秘钥会一致,因此对秘钥实施分类筛选,剔除其中相似秘钥数据,即可完成数据去重。对比文件2(唐鑫,周琳娜,单伟杰,等.通信学报,2020,41(6):98-111.)提出了基于阈值重加密的抗边信道攻击云数据安全去重方法,该方法设计了一种阈值加密机制,将用户端密文分割转换成秘钥分割;并将数据二次加密映射至云端执行,缩减用户开销;再从加密密文中解密出数据明文,将密文与明文对应,找出其中的冗余数据,完成数据的去重处理。对比文件3(唐鑫,周琳娜.计算机应用,2020,40(4):1085-1090.)提出了基于响应模糊化的抗附加块攻击云数据安全去重方法,该方法首先确定响应数据中最少冗余块数量,实现数据的响应模糊化;再基于最小通信开销辨识数据是否存在冗余;最后基于辨识结果对通信网络数据中的冗余数据实施去重处理,有效缩减网络数据量。

3、上述方法计算量大,且由于未能在数据去重前,对网络数据中的噪声数据实施抑制,导致上述方法在数据去重时,去重效果较差,并且在数据去重时,无法进行相似数据块聚类,后续数据分析难度较大,存储空间占用大。由此可见,如何解决上述网络数据去重过程中存在的问题以提高去重的效率和存储系统的整体利用率是本领域技术人员亟待解决的问题。


技术实现思路

1、本发明的目的在于克服上述技术问题的缺点,提供一种基于自回归模型的云环境中网络数据去重方法及系统,既能够对网络数据中的噪声数据实施抑制,又能够实现云环境网络数据的聚类,提高数据去重的效率,节省云服务器大量的存储资源与管理资源。

2、第一方面,本发明提供了一种基于自回归模型的云环境中网络数据去重方法,该方法包括如下步骤:

3、步骤1、获取云环境中包含有相似数据的待存储的网络数据;

4、步骤2、建立云环境弹性空间模型,确定网络数据的空间自相关度量值并进行数据的去噪处理;

5、步骤3、根据去噪结果分析云环境中网络数据属性特征,获取数据的多维尺度属性特征;

6、步骤4、再通过数据的多维尺度属性特征对网络数据进行聚类处理;

7、步骤5、根据聚类处理结果建立网络冗余数据预测模型;

8、步骤6、将去噪处理后的网络数据作为输入,基于网络冗余数据预测模型输出完成冗余数据预测,最后将预测出的冗余数据进行剔除处理,实现网络数据的去重。

9、进一步的,所述步骤2中,建立云环境弹性空间模型的具体方法为:

10、在建立弹性空间模型时,设定云环境的空间模型大小为空间的整体相关度为η,以此完成云环境弹性空间模型的建立,结果如下式所示:

11、

12、式中,δ为数据在云环境中的变量系数,ι为波动参数,r为常数;云环境弹性空间模型建立后,将云环境中存储的网络数据映射至云环境弹性空间模型中;

13、基于建立的云环境弹性空间模型,利用径向基函数计算模型中数据之间的空间相关性以及空间整体相关度均值,结果如下式所示:

14、

15、式中,dis(i,j)为网络数据之间的距离,ζ为径向基函数的宽度向量,y(i)为空间整体相关度均值,b(i)为数据的相邻数据集合,|b(i)|为相邻数据集合中的数据总量,y(i,j,ζ)为空间模型中数据的空间相关值。

16、进一步的,所述步骤2中,数据的去噪处理具体方法为:

17、基于上述建立的云环境弹性空间模型,将模型的上下限设定为κ、λ,对于模型中大于上限的数据,将其看作网络数据集合中的孤立数据,通过近邻数据的加权去噪方法,去除其中的噪声,过程如下式所示:

18、

19、式中,x(j,t)为t时刻模型中数据的原始测量值,为噪声去除结果,y(i,j,ζ)为噪声数据权重;

20、对于模型中低于下限值的数据,通过噪声权重以及相邻数据测量值结果,实现数据的加权平均去噪,结果如下式所示:

21、

22、式中,为低于模型下限的数据去噪结果。

23、进一步的,所述步骤3的具体方法为:

24、设定网络数据的属性特征种类为a,数据的自相关统计分布序列为k,网络数据统计序列分布表述形式如下式所示:

25、

26、式中,m为数据自相关统计分布序列总数量,为网络数据统计序列分布值;基于上述获取的云环境网络数据统计序列分布值,将云环境网络数据的检测统计量设定成v(b1,b2,...,bn),对网络数据实施分块处理,分块结果如下式所示:

27、

28、式中,β为网络数据的分块系数,d为数据之间的分块密度,q为网络数据的分块数量,cq为网络数据分块结果,χ为常数。

29、根据数据分块结果,采用多重特征分解方法,对分块数据实施线性叠加,以此获取网络数据在云环境中的多维尺度特征,过程如下式所示:

30、

31、式中,tc为数据的模糊采样预制,mtc为总采样预制,f为数据的频率特征,x(f)为数据的自适应加权系数,为获取的数据多维尺度特征,l为网络数据分解系数,sinc2为数据正弦尺度系数。

32、由于获取的数据多维尺度特征的最大、最小值会出现超出取值范围的离群状况,所以最后基于提取的网络数据多维尺度特征,设定不同维度特征系数为xt,i,采用z-score算法对数据多维特征实施标准化处理,标准化处理流程如下式所示:

33、

34、式中,n为常数向量,xtn,i为网络数据的实际多维尺度特征,xtn为标准化特征结果,σn为网络数据多维尺度特征标准差。

35、进一步的,所述步骤4的具体方法为:

36、基于步骤3获取的网络数据多维尺度特征,对云环境中网络数据实施多维尺度匹配,获取数据的关联特征,描述成xj=(x1j,x2j,...,xmj),其中网络数据总量记作m,因此设定云环境中网络数据状态特征分布为q(x0),完成云环境中网络数据的关联规则挖掘,过程如下式所示:

37、

38、式中,qij(k)为挖掘出的网络数据关联规则,δi(k)为数据采样结果,δj(k)为尺度自适应采样结果,εij(k)为数据关联系数,mi(k)为数据的多维尺度特征集合;

39、基于上述获取的网络数据关联规则,建立云环境中网络数据的模糊关联规则特征量φ(t),建立数据的特征分布集合si,并设定数据的聚类向量基为xn,以此获取云环境网络数据聚类中心,实现云环境网络数据的聚类,过程如下式所示:

40、

41、式中,e(gec)为建立的聚类中心,gec为网络数据的融合聚类矩阵,max(gec)为矩阵最大值,γ为聚类系数。

42、第二方面,本发明提供一种基于自回归模型的云环境中网络数据去重系统,该系统包括:

43、网络数据获取模块,用于获取云环境中包含有相似数据的待存储的网络数据;

44、数据预处理模块,用于建立云环境弹性空间模型,确定网络数据的空间自相关度量值并进行数据的去噪处理;

45、特征提取模块,用于根据去噪结果分析云环境中网络数据属性特征,获取数据的多维尺度属性特征;

46、数据聚类模块,用于通过数据的多维尺度属性特征对网络数据进行聚类处理;

47、模型构建模块,用于根据聚类处理结果建立网络冗余数据预测模型;

48、目标生成模块,用于将去噪处理后的网络数据作为输入,基于网络冗余数据预测模型输出完成冗余数据预测,最后将预测出的冗余数据进行剔除处理,实现网络数据的去重。

49、与现有技术相比,本发明具有以下有益效果:

50、本发明的一种基于自回归模型的云环境中网络数据去重方法,首先根据去噪结果详细分析云环境中网络数据属性特征;再通过属性特征对网络数据聚类处理,建立网络冗余数据预测模型,基于模型输出完成冗余数据预测;最后将预测出的冗余数据剔除处理,实现网络数据的去重。本发明方法在数据去重前,不仅及时对数据实施了去噪处理,还基于处理结果对数据实施了聚类融合,有利于海量数据的聚类,适用于云环境网络数据的分析,在数据去重后空间压缩比较高,能够节省云服务器大量的存储资源与管理资源。

51、本发明的基于自回归模型的云环境中网络数据去重系统可以提高去重的效率,提高存储系统的整体利用率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1