本技术涉及地形数据清洗,特别涉及一种开采区地形数据清洗方法、装置、电子设备及存储介质。
背景技术:
1、在许多实际工程和科学研究中,获取充分可靠的地面地形数据、地质结构数据和地层属性数据以及对此类数据进行处理,是科学研究和数字地形模型构建的重要前提和关键环节,对模型的精确性和合理性有着重要的影响和作用。地形数据来源多样,主要有地面测绘、原有地形图数字化、激光雷达和航空摄影等途径。但由于科学技术和研究成本的制约,尤其是在偏远地区,使用激光雷达和航空摄影获取精确地形数据的成本很高,精细地形数据获取的难度较大。因此,如何利用现有的google earth、地理空间数据云和美国地质调查局等开源数据库获取免费的地形数据,并对这些地形数据进行数据清洗,使其满足一定精度的地形模型构建要求,是土木工程和地形重建领域具有很大实用价值的关键问题。
2、数据清洗中的一个关键环节是对数据进行缺损值恢复和时空加密。空间插值方法是对稀疏散乱的地形数据进行时空加密和缺损值恢复的有效手段。目前常用于稀疏散乱数据插补的插值方法主要有克里金插值法(kriging)、自适应反距离加权插值法(adaptiveinverse distance weighted,aidw)和径向基函数插值法(radial-basis function,rbf)等。在实际应用中,一些径向基函数仍需要人为设定一些参数,而这些参数的取值对计算精度有较大的影响。其中,形状参数是多二次径向基函数的一个超参数,许多学者通过研究,给出了基于经验的径向基函数形状参数选取的经验公式,并提出了通过交叉验证技术来确定最优形状参数,但这种交叉验证技术计算非常耗时。因此,对如何将待插值点处局部空间点密度与待插值点处的形状参数建立联系,实现空间中径向基函数的形状参数自适应确定开展研究是很有必要的。同时,结合近年来高度发展的机器学习方法,构建地形数据清洗的高精度模型是一个很有意义的研究方向。
3、为了满足科学研究和实际工程对地形数据质量的要求,需要对稀疏散乱的地形数据进行时空加密和缺失值恢复,目前现有数据插值方法主要存在着以下不足:
4、(1)反距离加权插值法:该方法以插值点与样本点间的距离为权重进行加权平均,离插值点越近的样本赋予的权重越大,在使用时易受到极值的影响;
5、(2)克里金插值法:计算量大,耗时长,难以处理大型数据集;
6、(3)径向基函数插值法:近年来,该方法被广泛应用于多维散乱数据处理和偏微分方程数值求解。在该方法中,基函数的选择作为径向基函数研究的一个核心问题,将直接影响到相应数值计算结果。在使用过程中需要人为设定的部分参数对计算精度有着很大影响,确定最优形状参数的计算过程复杂耗时;
7、(4)knn(k nearest neighbors,k最近邻)插值算法:计算稳定性较差,预测结果易受噪声影响,且计算复杂度较高。
8、综上所述,在科研和工程应用中,相关技术对高成本精细化地形数据获取困难,同时难以选择空间插值地形数据清洗中最优形状参数。
技术实现思路
1、本技术提供一种开采区地形数据清洗方法、装置、电子设备及存储介质,以解决科研和工程应用中高成本精细化地形数据的获取困难,及空间插值地形数据清洗中最优形状参数难以选择等技术问题。
2、本技术第一方面实施例提供一种开采区地形数据清洗方法,包括以下步骤:搜集选定的目标区域的地形高程数据;对所述地形高程数据进行预处理,得到数据集,并由所述数据集生成训练集和测试集;基于局部点密度与径向基函数的形状参数之间的关系,根据所述局部点密度自适应确定所述径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理;以及根据处理后的地形数据集的地形数据的特征,构建dnn和xgboost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复;以及基于所述训练集和所述测试集,对比基于自适应径向基函数的地形数据清洗方式与所述机器学习模型在地形数据清洗中的性能及表现,得到地形数据集的缺损值恢复以及空间加密的有效性。
3、可选地,在本技术的一个实施例中,所述对所述地形高程数据进行预处理,得到数据集,包括:筛选所述地形高程数据中重复数据;删除所述重复数据,由剩余的地形高程数据组成所述数据集。
4、可选地,在本技术的一个实施例中,所述根据所述局部点密度自适应确定所述径向基函数的形状参数,包括:确定插值点处局部点集;根据所述插值点处局部点集计算全局点密度和局部点密度;基于所述全局点密度和所述局部点密度,利用模糊隶属函数归一化所述局部点密度,以利用三角函数确定所述形状参数。
5、可选地,在本技术的一个实施例中,所述构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理,包括:对所述目标区域的v型侵蚀沟道和露天采石场地形数据的缺失值进行插补计算,得到归一化均方根误差、归一化最大误差和/或拟合优度,得到每个插值点的的归一化绝对误差。
6、可选地,在本技术的一个实施例中,所述构建dnn和xgboost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复,包括:利用所述机器学习模型对所述目标区域的v型侵蚀沟道和露天采石场地形数据的缺失值进行恢复预测,以得到每个未知点的归一化高程绝对误差。
7、本技术第二方面实施例提供一种开采区地形数据清洗装置,包括:搜集模块,用于搜集选定的目标区域的地形高程数据;生成模块,用于对所述地形高程数据进行预处理,得到数据集,并由所述数据集生成训练集和测试集;第一构建模块,用于基于局部点密度与径向基函数的形状参数之间的关系,根据所述局部点密度自适应确定所述径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方式,以对所述目标区域的地形数据集的缺损值进行恢复以及空间加密处理;以及第二构建模块,用于根据处理后的地形数据集的地形数据的特征,构建dnn和xgboost机器学习模型,以对地形数据集中的缺损值数据进行预测和恢复;以及对比模块,用于基于所述训练集和所述测试集,对比基于自适应径向基函数的地形数据清洗方式与所述机器学习模型在地形数据清洗中的性能及表现,得到地形数据集的缺损值恢复以及空间加密的有效性。
8、可选地,在本技术的一个实施例中,所述生成模块包括:筛选单元,用于筛选所述地形高程数据中重复数据;删除单元,用于删除所述重复数据,由剩余的地形高程数据组成所述数据集。
9、可选地,在本技术的一个实施例中,所述第一构建模块包括:第一确定单元,用于确定插值点处局部点集;计算单元,用于根据所述插值点处局部点集计算全局点密度和局部点密度;第二确定单元,用于基于所述全局点密度和所述局部点密度,利用模糊隶属函数归一化所述局部点密度,以利用三角函数确定所述形状参数。
10、可选地,在本技术的一个实施例中,所述第一构建模块还包括:插值单元,用于对所述目标区域的v型侵蚀沟道和露天采石场地形数据的缺失值进行插补计算,得到归一化均方根误差、归一化最大误差和/或拟合优度,得到每个插值点的的归一化绝对误差。
11、可选地,在本技术的一个实施例中,所述第二构建模块包括:预测单元,用于利用所述机器学习模型对所述目标区域的v型侵蚀沟道和露天采石场地形数据的缺失值进行恢复预测,以得到每个未知点的归一化高程绝对误差。
12、本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的开采区地形数据清洗方法。
13、本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的开采区地形数据清洗方法。
14、由此,本技术的实施例具有以下有益效果:
15、本技术的实施例可通过选定研究区域,搜集研究区域内的地形高程点云等数据资料并进行整理;对研究区域的地形高程数据进行预处理,利用处理后的数据集构建训练集和测试集;通过将局部点密度与径向基函数的形状参数建立某种联系,并基于局部点密度自适应确定径向基函数的形状参数,构建基于自适应径向基函数的地形数据清洗方法;通过arbf(adaptive radial basis function,自适应径向基函数)空间插值算法对研究区地形数据集的缺损值进行恢复以及空间加密;根据地形数据的特征,构建dnn(deep neuralnetworks,深度神经网络)和xgboost(extreme gradient boosting,极度梯度提升树)机器学习算法模型,利用模型对地形数据集中的缺损值数据进行预测和恢复;对比分析空间插值算法以及机器学习模型在地形数据清洗中的性能及表现,从而本技术的实施例在保证计算效率的同时,实现了对低精度地形数据集缺损值高精度、高稳定性的预测恢复和局部空间加密,使其能够满足构建高质量地质模型的要求,极大降低了获取科学研究和工程应用中高成本精细化地形数据的难度。由此,解决了科研和工程应用中高成本精细化地形数据的获取困难,及空间插值地形数据清洗中最优形状参数难以选择等技术问题。
16、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。