基于主成分分析算法的大数据技术的后台数据管理方法与流程

文档序号:34810937发布日期:2023-07-19 12:38阅读:36来源:国知局
基于主成分分析算法的大数据技术的后台数据管理方法与流程

本发明涉及计算机科学,具体为基于主成分分析算法的大数据技术的后台数据管理方法。


背景技术:

1、在计算机科学技术发展过程中,大数据技术是其发展的必然,大数据技术的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用,通过大数据技术在各种类型的数据中快速获取有价值的信息,将计算机科学技术推向新的高点,目前大数据技术在大数据预处理过程中,主要通过对已接收数据的辨析、抽取、清洗等操作,首先对收集的数据进行辨析,然后进行抽取,因收集的数据具有多种结构和类型,数据抽取过程帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的,最后进行清洗,对于大数据没有价值的,不是我们所需要的内容,完全错误的数据内容进行清理,从中提取出有效数据;现有的大数据预处理技术在数据快速变化的今天,其处理数据的技术已不能满足大数据发展的需求,其处理过程较为费时费力,处理出来的数据相对已变化的数据无法得到快速的更新,导致后续的大数据分析及挖掘失去价值,为此申请人根据大数据技术发展的需求及数据变化快速的影响开发了一种基于主成分分析算法的大数据技术的后台数据管理方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,信息的大小通常用离差平方和或方差来衡量,通过对大数据所收集的数据进行分类化管理,根据实际需要处理使用,效率高效。


技术实现思路

1、为解决上述技术问题,本发明提出了基于主成分分析算法的大数据技术的后台数据管理方法,对大数据所得的数据进行预处理,再进行分类化管理,再根据实际需要进行使用,该管理方法管理效率高效,适合于多种领域使用。

2、基于主成分分析算法的大数据技术的后台数据管理方法,其特征在于:具体步骤如下:

3、1)通过主成分分析对收集的大数据的后台数据进行预处理,去除大数据中的冗杂数据对大数据进行优化;

4、将后台数据特征与不同样本后台数据组成后台数据样本集di={x1,x2,...,xm}i=1,2,...,k,k是后台数据样本数,m是样本特征个数;

5、分别对每个特征样本集di做主成分分析,首先对其进行中心化操作,然后设在进行投影变换后的坐标系是{ω1,ω2,...,ωm},其中ωi,i=1,2,...,d是一组标准正交向量基,满足||ωi||2=1,

6、则样本xi在低维坐标系中的投影坐标为zi=(zi1,zi2,...,zid'),其中d'<d,可基于zi得到xi的重构样本

7、

8、原始样本xi与基于投影得到的重构样本之间的距离可以表示为:

9、

10、式中,const是常数,w=(ω1,ω2,...,ωd),根据最近重构性原则,对式2进行最小化操作,由于ωj是标准正交向量基,是协方差矩阵,可以得到如下式的主成分分析的优化目标:

11、

12、其中xxt是样本xi的协方差矩阵,i表示单位矩阵,利用拉格朗日乘子法对式3作变换后可得下式:

13、xxtωi=λiωi      (4)

14、最后对协方差矩阵xxt作特征值分解,然后将得到的特征值按照由小到大的顺序进行排序,最后取前n个包含98%信息的最大特征值对应的特征向量,构成新的特征向量矩阵wopt=(ω1,ω2,...,ωn)就是主成分分析的最优解,做k次主成分分析后,最终可得k组后台数据最优解;

15、2)根据管理需要将数据分成批量数据和实时数据,并保持更新处理;

16、对批量数据进行定期更新,对实时数据进行当日更新;

17、3)处理好数据根据明细数据和汇总数据进行二次分类;

18、4)最后根据需要进行调用。

19、作为本发明进一步改进,对批量数据进行定期更新周期为1个月或一年。

20、作为本发明进一步改进,实时数据进行一天2-3次更新。

21、与现有技术相比,本发明的有益效果为:

22、本发明提出了基于主成分分析算法的大数据技术的后台数据管理方法,通过对收集的大数据的后台数据进行进行预处理,再根据使用需要进行相应归类,之后再根据实际需要进行使用,由于进行数据预处理,从而可以大幅去除冗杂数据提高数据的整体精度,方便后期再进行相应的处理,再根据根据管理需要将数据分成批量数据和实时数据,对批量数据进行定期更新,对实时数据进行当日更新,处理好数据根据明细数据和汇总数据进行二次分类,最后根据。方便后期直接使用,从而能够提高开发管理效率。



技术特征:

1.基于主成分分析算法的大数据技术的后台数据管理方法,其特征在于:具体步骤如下:

2.根据权利要求1所述的基于主成分分析算法的大数据技术的后台数据管理方法,其特征在于:对批量数据进行定期更新周期为1个月或一年。

3.根据权利要求1所述的基于主成分分析算法的大数据技术的后台数据管理方法,其特征在于:实时数据进行一天2-3次更新。


技术总结
本发明提出了基于主成分分析算法的大数据技术的后台数据管理方法,通过对收集的大数据的后台数据进行进行预处理,再根据使用需要进行相应归类,之后再根据实际需要进行使用,由于进行数据预处理,从而可以大幅去除冗杂数据提高数据的整体精度,方便后期再进行相应的处理,再根据根据管理需要将数据分成批量数据和实时数据,对批量数据进行定期更新,对实时数据进行当日更新,处理好数据根据明细数据和汇总数据进行二次分类,最后根据需要进行调用。方便后期直接使用,从而能够提高开发管理效率。

技术研发人员:杨海花
受保护的技术使用者:祐樘(南京)软件科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1