技术特征:
技术总结
本发明涉及一种大数据环境下的数据优化及快速抽样方法,包括:(1)、将大数据集部署在云环境中;(2)、按照数值属性将大数据集划分成若干子数据集,将数值形式的子数据集筛选出;(3)、选取需要进行分析的子数据集,判断该子数据集的数据分布是接近正态分布还是泊松分布,再使用本发明提出的正态抽样算法或泊松抽样算法,对该子数据集快速提取得出数据块,从中抽样若干个数据块进行分析,通过正态分割算法或泊松分割算法进行快速提取得出的样本数据块继承了子数据集的均值、方差等属性,那么只需要抽样数据块进行分析就能保证得出的数据块与子数据集的高度一致性与代表性,这样方式极大地缩短数据分析时间,提高数据分析效率。
技术研发人员:张浩澜;陈剑平;李兴森
受保护的技术使用者:浙江大学宁波理工学院
技术研发日:2017.06.15
技术公布日:2017.10.20