南方土壤样点数据清洗系统及方法与流程

文档序号：19220694发布日期：2019-11-26 02:06阅读：273来源：国知局

本发明涉及数据处理系统或方法技术领域，具体为一种南方土壤样点数据清洗系统及方法。

背景技术：

土壤样品的采集及检测工作对专业理论和技术具有很高的要求，但在实际工作中，现有海量的土壤样品数据，由于(1)基层采样人员对土壤分类体系不熟悉、采样技术水平缺乏、工作责任心差等导致采样选点不准确、布点不科学，信息数据错误、记录不完整、不规范或不准确；(2)第三方检测机构由于监管的缺失，导致样品检测技术水平不高、检测数据与实际差距较大，准确性差，甚至人为造假等，造成了土壤样品数据缺乏有效性、实用性和规范性；而上述缺陷最大的问题是难以发现且按现有的技术难以纠正，进而给后续区域农业科学决策带来误导性影响，这已经成为目前困扰农业部门土壤样点数据管理与应用的核心限制因素。

在现有的技术水平条件下，土壤样品数据只能由多年从事土壤科研工作的专家进行人工检查、修正，效率极低，出错率高，而基层农业技术部门几乎无法完成此工作，因而难以达到海量土壤数据清洗校验的目的。

技术实现要素：

本发明意在提供一种南方土壤样点数据清洗系统及方法，能够对采样数据进行清洗，对错误土壤分类数据进行校正。

本发明提供基础方案：南方土壤样点数据清洗系统，包括：

数据判定子系统，用于对比样品数据与标准数据，并在样品数据与标准数据不符时，将样品数据标记为错误土壤分类数据；

数据清洗子系统，用于根据标准数据校正错误土壤分类数据。

基础方案的工作原理及有益效果：需要对采样数据进行清洗时，采样数据即为待清洗数据，待清洗数据即为样品数据；需要对第三方提供的数据进行清洗时，第三方检测数据即为样品数据，具体的样品数据可为土壤样品数据。标准数据通过官方网站或权威网站获取，以标准数据为标准，将与标准数据不符的样品数据标记为错误土壤分类数据，根据标准数据校正错误土壤分类数据。对采样数据进行清洗，对错误土壤分类数据进行校正，提高采样数据的正确性。

进一步，所述样品数据为待清洗数据或第三方检测数据。有益效果：根据需求不同，样品数据不同。

进一步，所述标准数据根据南方土壤类型矢量图和土壤理化数值关联模型生成。有益效果：土壤理化数值关联模型为土壤不同指标之间的关联模型，该模型的建立通过现有设备采集数据，经过数据分析得到彼此之间的关联性，从而构建土壤理化数值关联模型。

进一步，所述数据判定子系统，还用于对比样品数据与标准阈值，并在样品数据超出标准阈值时，将样品数据标记为错误数据；在样品数据未超出标准阈值，且样品数据超出预期阈值时，将样品数据标记为异常数据；

所述数据清洗子系统，还用于根据样品数据获取关联数据，并根据关联数据校正错误数据和/或异常数据。

有益效果：标准阈值为数据必定所在范围，例如ph为0-14，不在这范围内的数据必定为错误数据，预期阀值为根据土壤理化数值关联模型获取的样品数据的预期值，当样品数据在标准阈值内，但在预期阈值外，则将样品数据标记为异常数据，其异常的原因可能是仪器误差、人工填写失误等情况。对于错误数据和异常数据均需要校正，出现错误数据其最后的方式是重新采集样品数据，对于通过样品数据获取与其相关或相邻的数据作为关联数据，根据关联数据对错误数据和/或异常数据进行校正。

进一步，所述标准阈值和所述预期阈值均为数值范围。有益效果：通过数值进行判断更为直观。

进一步，所述标准阈值的数值范围大于所述预期阈值的数值范围。有益效果：预期阈值为标准阈值的一部分。

进一步，所述数据清洗子系统，用于获取插值规则，并根据插值规则获取样品数据的关联数据，并根据关联数据生成校正数据，当校正数据未超出预期阈值时，根据校正数据校正异常数据。有益效果：在样品数据被标记为错误数据或异常数据时，需对样品数据进行校正，根据插值规则获取与该样品数据相关的关联数据，根据关联数据生成校正数据，并在校正数据满足预期阈值时，对样品数据进行校正。

本发明还提供一种南方土壤样点数据清洗方法，包括以下步骤：获取样品数据、标准数据，并对比样品数据和标准数据，在样品数据与标准数据不符时，将样品数据标记为错误土壤分类数据；根据标准数据校正错误土壤分类数据。

有益效果：通过标准数据对错误土壤分类数据进行校正，从而实现对采样数据进行清洗，提高采样数据的正确性。

进一步，还包括以下步骤：获取标准阈值和预期阈值，在样品数据超出标准阈值时，将样品数据标记为错误数据；在样品数据未超出标准阈值，且样品数据超出预期阈值时，将样品数据标记为异常数据；根据样品数据获取关联数据，并根据关联数据校正错误数据和/或异常数据。有益效果：根据标准阈值与预期阈值对样品数据进行标记，满足不同条件，其标记的类型不同，包括异常数据和错误数据，根据关联数据对其进行校正，既满足条件，又与样品数据相关，从而避免因样品数据的异常影响后续结果。

进一步，还包括以下步骤：获取插值规则，根据插值规则获取样品数据的关联数据，并根据关联数据生成校正数据，当校正数据未超出预期阈值时，根据校正数据校正异常数据。有益效果：关联数据根据插值规则生成校正数据，可选择不同插值规则，其生成的校正数据也有所不同，选择合适的插值规则才能生成更接近实际情况的校正数据，从而进行提高校正的准确性。

附图说明

图1为本发明南方土壤样点数据清洗系统实施例二的逻辑框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

南方土壤样点数据清洗系统，包括数据获取子系统、数据判定子系统、数据清洗子系统、数据库。

数据获取子系统，包括关联模型获取模块、背景数据获取模块。

关联模型获取模块，用于获取土壤理化数值关联模型，当然，土壤理化数值关联模型也可以直接从现有技术中获取。关联模型获取模块，在获取土壤理化数值关联模型后，将其存储在数据库中。

背景数据获取模块，用于获取南方土壤类型矢量图，南方土壤类型矢量图为三维矢量模型，可直接从官网上获取，也可由用户设计的南方土壤图三维矢量模型系统生成，南方土壤图三维矢量模型系统，包括数据采集终端、数据获取子系统、模型建立子系统和数据库。

采集终端，可用于采集南方土壤母质图、土壤学发生系统、土壤诊断分类系统规则、土地利用现状数据、高程数据，并传输给数据获取子系统(也可直接传输给模型建立子系统)。当然，土地利用现状数据、高程数据也可通过现有设备获取，例如利用无人机或卫星通过遥感遥测技术获取。

数据获取子系统包括数据抓取模块、数据转换模块。

数据抓取模块，用于从权威网站中抓取最新数据，或根据用户的需求抓取用户所需的数据，此时的数据可为南方土壤母质图、土壤学发生系统、土壤诊断分类系统规则、土地利用现状数据、高程数据。

数据转换模块，用于接收采集终端或现有设备传输的数据或数据抓取模块抓取的数据，并对数据的格式进行统一化处理，避免后续模型建立中出现因数据格式差异造成模型建立失败。将处理后数据传输给模型建立子系统。

模型建立子系统包括数据传输模块、土壤图建立模块、模型建立模块。

数据传输模块，用于接收采集终端或现有设备传输的数据或数据获取子系统传输的数据。

土壤图建立模块，用于根据南方土壤母质图、土地利用现状数据、土壤学发生系统、土壤诊断分类系统规则生成南方土壤图。南方土壤母质图根据土壤母质进行划分区域，土地利用现状数据根据当前土壤的利用方式进行划分区域。南方土壤图根据土壤属性进行划分区域。

南方土壤图的生成方式包括利用地理信息技术进行划分，也可采用用户自己设计的划分系统，根据南方土壤母质图进行土壤母质的划分，再利用土地利用现状数据进行利用方式的划分，当以两者划分的边界形状新的区域划分，例如进行土壤母质的划分得到标号分别为1、2、3、4的区域，进行利用方式的划分得到标号分别为a、b的区域，其中a、b区域边界经过1、3区域，2、4区域为b区域内，则新的区域划分为标号分别为1a、1b、2b、3a、3b、4b的区域。

模型建立模块，用于根据高程数据、南方土壤图生成三维矢量模型。南方土壤图结合高程数据将二维结构变为三维结构，使得三维矢量模型更加精准、逼真的还原土壤分布实际情况，便于用户通过观察模型直观的掌握土壤实际情况。关联模型获取模块将生成的三维矢量模型存储在数据库中。

数据判定子系统，包括样品数据获取模块、标准数据获取模块、数据对比模块。

样品数据获取模块，用于获取样品数据，样品数据可由用户通过采集终端上传的，也可由检测设备将检测数据直接上传，用户可根据需求选择获取方式。当样品数据为待清洗数据时，样品可由用户上传，也可有检测设备将检测数据直接上传；当样品数据为第三方检测数据时，通过采集终端或样品数据获取模块从第三方检测报告中提取第三方检测数据作为样品数据，从而对第三方检测数据进行校验、清洗，避免存在第三方数据造假或数据检测误差大的情况，影响后续土壤评价结果和数据应用。

标准数据获取模块，用于从三维矢量模型(即南方土壤类型矢量图)中获取标准数据，由于本实施例中，以纠正土壤分类数据为例，因此标准数据为土壤分类标准数据。

数据对比模块，用于获取样品数据，由于本实施例中，以纠正土壤分类数据为例，因此样品数据包括土壤分类样品数据。并对比土壤分类样品数据和土壤分类标准数据，当两者相符时，说明土壤分类样品数据为正确的，不作标记。当两者不符时，说明土壤分类样品数据并不正确，因此将该土壤分类样品数据标记为错误土壤分类数据，标记后便于后面进行识别。

数据清洗子系统，包括数据校正模块。

数据校正模块，用于根据土壤分类标准数据校正土壤分类样品数据，即根据标准数据校正错误土壤分类数据，将样品数据的土壤分类样品数据替换为土壤分类标准数据。

南方土壤样点数据清洗方法，包括以下步骤：

获取土壤理化数值关联模型和南方土壤类型矢量图，可通过网络爬虫或搜索引擎从官方网络中获取，也可通过用户设计的系统生成。例如南方土壤类型矢量图可通过用户设计的南方土壤图三维矢量模型系统生成。将土壤理化数值关联模型和南方土壤类型矢量图存储在数据库中。

获取样品数据，样品数据可由用户通过采集终端上传的，也可由检测设备将检测数据直接上传，用户可根据需求选择获取方式，由于本实施例中，以纠正土壤分类数据为例，因此样品数据包括土壤分类样品数据。获取样品数据的同时，从南方土壤类型矢量图中获取标准数据，由于本实施例中，以纠正土壤分类数据为例，因此标准数据为土壤分类标准数据。

对比土壤分类样品数据和土壤分类标准数据，当两者相符时，说明土壤分类样品数据为正确的，不作标记。当两者不符时，说明土壤分类样品数据并不正确，将该土壤分类样品数据标记为错误土壤分类数据。根据土壤分类标准数据校正土壤分类样品数据，即根据标准数据校正错误土壤分类数据，将样品数据的土壤分类样品数据替换为土壤分类标准数据。

实施例二

本实施例与实施例一的不同之处在于：如附图1所示，数据库中预设有标准阈值，每一个土壤指标均有对应的标准阈值，标准阈值可通过网络爬虫或搜索引擎从网络中获取，也可由经验丰富的土壤检测人员进行设定，并通过采集终端上传后保存在数据库中。

数据判定子系统，还包括预期获取模块。

预期获取模块，用于获取土壤理化数值关联模型，并利用样品数据通过土壤理化数值关联模型生成样品数据对应的预期阈值，由于土壤指标存在很多，例如土壤酸碱度(ph值)、土壤有机质含量、电导率、盐基饱和度、总氮、碱解氮等，各土壤指标存在联系，利用样品数据通过土壤理化数值关联模型生成预期阈值，例如根据土壤有机质含量通过土壤理化数值关联模型获得土壤总氮和碱解氮的范围即为预期阈值，预期阈值的数值范围小于标准阈值的数值范围。

数据对比模块，还用于从数据库中获取标准阈值，当样品数据位于预期阈值的数值范围内时(即样品数据未超出预期阈值)，样品数据为有效数据；当样品数据位于预期阈值的数值范围外，且样品数据位于标准阈值的数值范围内时，样品数据存在误差，将样品数据标记为异常数据，其异常可能是因为机器误差或人为填写或操作造成的误差；当样品数据位于标准阈值的数值范围外时，其样品数据有问题，将样品数据标记为错误数据。

当样品数据被标记为错误数据时，本次土壤采集数据可作废，需重新采集样品数据或要求第三方重新提供第三方检测报告，从而保证采样数据的准确性。当然，也可根据用户的需求，对异常数据和错误数据进行校正。

数据清洗子系统，还包括插值规则获取模块。

数据库预存有土壤三维矢量模型、耕地质量等级评价图、产业分布图、历年布点数据。土壤三维矢量模型可直接从官网上获取，也可由用户设计的南方土壤图三维矢量模型系统生成。

耕地质量等级评价图、产业分布图、历年布点数据直接从权威网站或官网中获取，并存储在数据库中，其中产业分布图还可通过无人机检测进行绘制而成，同样耕地质量等级评价图、产业分布图、历年布点数据也可由用户自己设定的系统中获得。历年布点数据为往年采样点的布点位置和采样时间。

区域划分子系统包括划分条件获取模块、区域划分模块。

划分条件获取模块，用于从数据库中获取划分条件和划分优先级，划分条件包括土壤种类、耕地质量等级、土地耕种现状，土地耕种现状为当前土地的种植情况，例如当前土地种植的作物种类。划分优先级为土壤种类的优先级高于耕地质量等级，耕地质量等级的优先级高于土地耕种现状。

区域划分模块，用于根据土壤三维矢量模型以土壤种类为划分条件对土壤进行划分得到若干一级划分区域，根据耕地质量等级评价图以耕地质量等级为划分条件对一级划分区域进行划分得到若干二级划分区域，根据产业分布图以土地耕种现状为划分条件对二级划分区域进行划分得到若干三级划分区域，即为最终得到的划分区域。也可不考虑划分优先级，直接以划分条件进行划分，生成最终的划分区域。

布点数量设定子系统包括面积获取模块、设定条件获取模块、数量计算模块。

面积获取模块，用于根据划分区域获取其对应的区域面积，可通过全球定位系统(gps)等技术手段进行获取。

设定条件获取模块，用于从数据库中获取设定条件，设定条件包括最低布点单元和布点梯度，最低布点单元为布点的最小面积，当区域面积小于最低布点单元时，不在该划分区域内进行布点，即该划分区域的布点量会为零。布点梯度为一个采样点的辐射面积，与后续计算划分区域内的布点量相关。最低布点单元和布点梯度可由用户通过采集终端上传至数据库中进行存储，也可固设在软件内，即不能进行修改。

数量计算模块，用于依次获取区域面积，并根据区域面积、最低布点单元、布点梯度计算出布点量。当区域面积低于最低布点单元时，布点量为零，当区域面积等于或大于最低布点单元，则其布点量大于零，此时根据区域面积和布点梯度计算布点量，最简单的是区域面积除以布点梯度取整数位作为其布点量，当其整数位为零时，其布点量为1，建立布点量与划分区域的联系，或直接以布点量标记划分区域。

布点设定子系统，包括布点规则获取模块、自动布点模块、布点量修正模块。

布点量修正模块，用于获取历年布点数据，并根据历年布点数据的布点位置和采样时间对布点量进行修正，当布点位置位于划分区域内时，判断该布点位置的采样时间，若采样时间在有效时间内，则该划分区域的布点量减1，有效时间为采样数据的有效时间，一般为3年。

布点规则获取模块，用于从数据库中获取布点规则，布点方式包括对角线布点、s型布点、棋盘布点等，对角线布点为在划分区域内作一对角线，在对角线上根据布点量等距设置，完成布点。

布点规则可为布点方式中的一种或多种，当布点规则为一种布点方式时，自动布点模块，用于根据布点规则和布点量对划分区域进行布点，完成全部划分区域的布点，根据全部布点组成点位图。当布点规则为多种布点方式时，布点量与布点方式存在多种联系，可以根据布点量选择不同的布点方式进行布点，也可直接将不同布点方式进行结合生成混合布点方式，以混合布点方式作为布点规则进行布点。

插值规则获取模块，用于获取插值规则和三维矢量模型，即获取最低布点单元、布点梯度，并根据三维矢量模型对插值规则进行修改，通过修改后的插值规则获取样品数据的关联数据，关联数据可为样品数据所在采样点的周围的采样点的数据，也可为与样品数据条件相同的采样点的数据。

数据校正模块，用于获取土壤理化数值关联模型，并利用关联数据通过土壤理化数值关联模型生成校正数据，当校正数据位于预期阈值的数值范围内时，根据校正数据校正异常数据，当校正数据位于预期阈值的数值范围外时，再次修改插值规则，重新生成校正数据，直至校正数据位于预期阈值内。

数据校正模块，用于根据校正数据校正异常数据。如需对错误数据进行校正，其校正过程相同。

南方土壤样点数据清洗方法，还包括以下步骤：

获取标准阈值，并存储在数据库中。标准阈值可通过网络爬虫或搜索引擎从网络中获取，也可由经验丰富的土壤检测人员进行设定，并通过采集终端上传后保存在数据库中。

获取土壤理化数值关联模型，并利用样品数据通过土壤理化数值关联模型生成样品数据对应的预期阈值，由于土壤指标存在很多，而各土壤指标存在联系，利用样品数据通过土壤理化数值关联模型生成预期阈值，例如根据土壤有机质含量通过土壤理化数值关联模型获得土壤酸碱度的范围即为预期阈值，预期阈值的数值范围小于标准阈值的数值范围。

从数据库中获取标准阈值，当样品数据位于预期阈值的数值范围内时(即样品数据未超出预期阈值)，样品数据为有效数据；当样品数据位于预期阈值的数值范围外，且样品数据位于标准阈值的数值范围内时，样品数据存在误差，将样品数据标记为异常数据；当样品数据位于标准阈值的数值范围外时，其样品数据有问题，将样品数据标记为错误数据。

获取插值规则和南方土壤类型矢量图，即获取最低布点单元、布点梯度，并根据南方土壤类型矢量图对插值规则进行修改，通过修改后的插值规则获取样品数据的关联数据，关联数据可为样品数据所在采样点的周围的采样点的数据，也可为与样品数据条件相同的采样点的数据。

获取土壤理化数值关联模型，并利用关联数据通过土壤理化数值关联模型生成校正数据，当校正数据位于预期阈值的数值范围内时，根据校正数据校正异常数据，当校正数据位于预期阈值的数值范围外时，再次修改插值规则，重新生成校正数据，直至校正数据位于预期阈值内。

根据校正数据校正异常数据。如需对错误数据进行校正，其校正过程相同。

实施例三

本实施例与实施例二的不同之处在于：南方土壤样点数据清洗系统，还包括特殊区域子系统，特殊区域子系统包括特殊区域获取模块、特殊区域标记模块、特殊区域划分模块、特殊区域采样模块。

特殊区域获取模块，用于获取地质灾害分析模型，并根据地质灾害分析模型筛选出地质灾害高发区域。地质灾害分析模型可采用现有技术中模型建立方式进行建立，例如公开号为cn107204098a的基于雨量的地质灾害监测方法及系统中记载的地质灾害分析模型的构建。

特殊区域标记模块，用于根据地质灾害高发区域在土壤三维矢量模型进行标记，即标记区域为地质灾害高发区域。

当出现天气恶劣或出现易触发地质灾害条件时，自动布点模块根据地质灾害高发区域更新点位图，将位于地质灾害高发区域的采样点进行标记，从而排除地质灾害高发区域内的采样布点，避免采样对造成采样人员造成伤害。

当地质灾害结束时，特殊区域划分模块，用于获取高程数据，并根据高程数据将地质灾害高发区域划分为原发地和次生地。

特殊区域采样模块，用于对原发地进行布点，并调整原发地的采样时间，缩短相邻采样时间的间隔，并用于对次生地进行布点，并调整次生地的布点数量，调整次生地的采样深度。

南方土壤样点数据清洗方法，还包括以下步骤：

获取地质灾害分析模型，并根据地质灾害分析模型筛选出地质灾害高发区域，对比地质灾害分析模型和土壤三维矢量模型，土壤三维矢量模型中标记出地质灾害高发区域。

当出现天气恶劣或出现易触发地质灾害条件时，根据地质灾害高发区域进行警示，暂时不对地质灾害高发区域进行采样，即布点时排除地质灾害高发区域，布点方式可采用现有的布点方式。

当地质灾害结束时，根据地质灾害高发区域进行布点，将地质灾害发生的地方称之为原发地，受地质灾害影响的地方称之为次生地，将地质灾害高发区域划分为原发地和次生地。根据现有的布点方式对原发地进行布点，对采样点进行采样时，调整采样时间，短时间内进行多次采样。根据现有的布点方式对次生地进行布点，布点时在现有布点数量上进行增加，即增加采样点的数量，对采样点进行采样时，调整采样时间，短时间内进行多次采样，同时调整采样深度，以获取更为准确的土壤信息。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑敏;程晗;谢宏
技术所有人：杨剑虹;彭向东;彭敬东;邓传跃;谢宏;杨睿;郑敏;杨勇;甘伟;向楠;张浩;程晗;彭焕军;李江
我是此专利的发明人

上一篇：一种动画播放方法、装置、终端设备及服务器与流程
上一篇：一种磁悬浮轴承的远程控制系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。