浮标数据质量控制方法、装置、计算机设备和存储介质与流程

文档序号:30050305发布日期:2022-05-17 14:35阅读:190来源:国知局
浮标数据质量控制方法、装置、计算机设备和存储介质与流程

1.本技术涉及数据处理技术领域,特别是涉及一种浮标数据质量控制方法、装置、计算机设备和存储介质。


背景技术:

2.在海洋科学中,通过漂流式浮标采集的包括海气界面关键气象因素和水文因素的浮标观测数据,为深入探知海洋动力过程提供观测数据支撑,在海-气相互作用研究、灾害预报预警、海洋环境保障等研究领域有重要意义。但在实际的浮标观测数据采集过程中,人工操作失误、环境影响、通信传输不稳定等都会干扰浮标观测结果,造成数据异常,现场的观测数据大都存在质量问题,不能直接投入应用,需要先对现场的观测数据进行质量控制,去除错误值、异常值。但是对于海气界面关键气象因素和水文因素同步综合观测得到的观测数据复杂,往往会出现将正确的观测数据判定为异常的情况,难以准确识别出异常数据。


技术实现要素:

3.基于此,有必要针对上述技术问题,提供一种浮标数据质量控制方法、装置、计算机设备和存储介质,用以准确识别出异常数据,提升浮标观测数据的准确性和可靠性。
4.第一方面,本技术提供一种浮标数据质量控制方法,包括:获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据;对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列;根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。
5.在本技术一些实施例中,对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,包括:获取初始浮标观测序列中浮标观测数据对应的摇摆角幅度数据;若摇摆角幅度数据为零值,则将浮标观测数据确定为第一浮标观测数据。
6.在本技术一些实施例中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之前,还包括:基于目标浮标观测序列的观测时间,对目标浮标观测序列进行重复检验以及时间递增性检验,得到按观测时间排序的目标浮标观测序列。
7.在本技术一些实施例中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之前,还包括:获取各变量类型的数据取值范围;分别在目标浮标观测序列中各变量类型对应的观测数据中,筛选取值超出变量类型的数据取值范围的第二异常数据。
8.在本技术一些实施例中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之后,还包括:将第一异常数据以及第二异常数据确定为目标异常数据;根据目标异常数据的观测时间,将目标异常数据划分为连续型的目标异常数据以及单一型的目标异常数据;若目标异常数据为单一型的目标异常数据,对目标异常数据进行插值处理;若目标异常数据为连续型的目标异常数据,剔除目标异常数据。
9.在本技术一些实施例中,变量类型包括位置坐标变量、水文观测变量以及气象观测变量;根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据,包括:根据位置坐标变量对应的异常数据识别方式,识别目标浮标观测序列中位置坐标变量对应的位置观测序列的第一异常数据;根据水文观测变量对应的异常数据识别方式,识别目标浮标观测序列中水文观测变量对应的水文观测序列的第一异常数据;根据气象观测变量对应的异常数据识别方式,识别目标浮标观测序列中气象观测变量对应的气象观测序列的第一异常数据。
10.在本技术一些实施例中,根据气象观测变量对应的异常数据识别方式,识别目标浮标观测序列中气象观测变量对应的气象观测序列的第一异常数据,包括:对气象观测序列进行滤波处理,获取初筛气象异常数据;根据初筛气象异常数据与初筛气象异常数据对应的参考气象观测数据间的差分值,从初筛气象异常数据中确定气象观测变量对应第一异常数据;参考气象观测数据与初筛气象异常数据为气象观测序列中观测时间相邻的气象观测数据。
11.第二方面,本技术提供一种浮标数据质量控制装置,包括:浮标数据获取模块,用于获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据;观测数据剔除模块,用于对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列;异常数据识别模块,用于根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。
12.第三方面,本技术还提供一种计算机设备,计算机设备包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现浮标数据质量控制方法。
13.第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行浮标数据质量控制方法中的步骤。
14.第五方面,本技术实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的方法。
15.上述浮标数据质量控制方法、装置、计算机设备和存储介质,获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据;对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列;根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。围绕海气界面场景,通过加入陆地位置检验,从数据整体层面对采集得到的浮标观测序列中的无效观测数据进行剔除,确保观测数据真实反映海气界面场景中不同要素的情况,然后对不同变量类型的观测数据采用各自适用的异常数据识别方式进行针对性的质量控制,识别异常数据,以提高浮标观测数据的准确性和可靠性。
附图说明
16.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1是本技术实施例中浮标数据质量控制方法的场景示意图;图2是本技术实施例中浮标数据质量控制方法的流程示意图;图3是本技术实施例中初筛气象异常数据获取步骤的流程示意图;图4是本技术实施例中另一个浮标数据质量控制方法的流程示意图;图5是本技术实施例中浮标数据质量控制装置的结构示意图;图6是本技术实施例中计算机设备的结构示意图。
具体实施方式
18.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.在本技术的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
20.在本技术的描述中,“例如”一词用来表示“用作例子、例证或说明”。本技术中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
21.在本技术实施例中,需说明的是,本技术实施例提供的浮标数据质量控制方法,可
以应用于如图1所示的异常数据处理系统中。其中,该异常数据处理系统包括终端100和服务器200,终端100可以为漂流式浮标。服务器200可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
22.本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本技术方案一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个服务器200,可以理解的,该异常数据处理系统还可以包括一个或多个其他服务器,具体此处不作限定。另外,如图1所示,该异常数据处理系统还可以包括存储器,用于存储数据,如存储浮标观测数据等。
23.还需说明的是,图1所示异常数据处理系统的场景示意图仅仅是一个示例,本发明实施例描述的异常数据处理系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着异常数据处理系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
24.参阅图2,本技术实施例提供了一种浮标数据质量控制方法,主要以该方法应用于上述图1中的服务器200来举例说明,该方法包括步骤s210至s230,具体如下:s210,获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据。
25.其中,初始浮标观测序列包括通过漂流式浮标在不同观测时间采集得到的多个浮标观测数据,例如,可通过漂流式海气界面浮标(drifting air-sea interface buoy, drib)采集初始浮标观测序列。
26.其中,不同变量类型的观测数据,是指漂流式浮标采集到的不同属性类型下的信息数据。可以理解的是,在初始浮标观测序列中,任意一个观测时间采集得到的浮标观测数据包括多个不同变量类别对应的观测数据,例如,可包括位置坐标变量对应的观测数据、水文观测变量对应的观测数据以及气象观测变量对应的观测数据;其中,位置坐标变量对应的观测数据包括经度数据以及维度数据,水文观测变量对应的观测数据包括海表面温度数据(sea surface temperature, sst),气象观测变量对应的观测数据包括气温数据、气压数据、风速数据、风向数据、相对湿度数据等。
27.s220,对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列。
28.其中,第一浮标观测数据是指初始浮标观测序列中,数据观测位置为陆地位置的浮标观测数据。与海上定点浮标的浮标观测序列不同,由于船舶拷机等原因,漂流式浮标通常在入水之前就开始运行并发送浮标观测数据,该部分的浮标观测数据往往对后续的浮标观测数据的分析研究产生干扰,例如,在入水之前所采集到的水文观测变量对应的观测数据(如海表面温度数据)为异常数据,导致对水文观测变量的分析研究产生干扰。
29.在获取到浮标观测序列后,可对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并从初始浮标观测序列中剔除该第一浮标观测数据。通过陆地位置检验实现剔除浮标未入水阶段的无效观测数据,确保浮标观测序列反映
真实海洋环境。
30.由于漂浮式浮标在陆地的运动姿态与在水中的运动姿态是不同的,因此,在一个实施例中,对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,包括:获取初始浮标观测序列中浮标观测数据对应的摇摆角幅度数据;若摇摆角幅度数据为零值,则将初始浮标观测序列确定为第一浮标观测数据。
31.其中,摇摆角幅度数据用于反映漂流式浮标的运动姿态,可以包括漂流式浮标在采集浮标观测数据时的横摇角以及纵摇角。
32.在获取到初始浮标观测序列中各个浮标观测数据对应的摇摆角幅度数据后,针对任意一个浮标观测数据,判断其摇摆角幅度数据中的横摇角以及纵摇角是否为零值;若摇摆角幅度数据中的横摇角或纵摇角非零值,则该浮标观测数据的摇摆角幅度数据符合在水中的运动姿态,该浮标观测数据的数据观测位置为非陆地位置;若摇摆角幅度数据中的横摇角以及纵摇角均为零值,则该浮标观测数据的摇摆角幅度数据不符合在水中的运动姿态,该浮标观测数据的数据观测位置为非陆地位置。
33.通过判断浮标观测数据的摇摆角幅度数据是否符合漂流式浮标在水中运动姿态,实现对漂流式浮标的工作环境作出判断,有效去除数据观测位置为陆地位置的第一浮标观测数据。
34.进一步地,在获取到数据观测位置为陆地位置的第一浮标观测数据后,还可以对第一浮标观测数据中水文观测变量对应的观测数据进行检测,检测该观测数据与除第一浮标观测数据以外的浮标观测数据中的水文观测变量对应的观测数据是否存在断层差异,若存在,则该第一浮标观测数据确定为数据观测位置为陆地位置的浮标观测数据,实现对初始浮标观测序列进行二次的位置检测,提高数据观测位置为陆地位置的浮标观测数据的识别准确性。
35.更进一步地,在获取到数据观测位置为陆地位置的第一浮标观测数据后,还可以基于第一浮标观测数据生成陆地位置观测数据,便于后续对初始浮标观测数据进行检验核对。
36.s230,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。
37.在剔除数据观测位置为陆地位置的浮标观测数据后,识别目标浮标观测序列中的第一异常数据,具体可以是分别对各个变量类型的观测数据进行单独的异常数据识别,得到第一异常数据。
38.进一步地,不同变量类型的观测数据的数据维度、所携带的数据信息、数据的连续性变化是不同的,因此,针对不同的变量类型的观测数据,可通过不同的异常数据识别方式进行异常数据识别。具体地,针对任一变量类型,可以先从目标浮标观测序列中获取该变量类型的观测序列,然后基于该变量类型对应的异常数据识别方式对该变量类型的观测序列进行异常数据识别处理。
39.在一个实施例中,如图3所示,变量类型包括位置坐标变量、水文观测变量以及气象观测变量;根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据,包括:s231,根据位置坐标变量对应的异常数据识别方式,识别目标浮标观测序列中位
置坐标变量对应的位置观测序列的第一异常数据;s232,根据水文观测变量对应的异常数据识别方式,识别目标浮标观测序列中水文观测变量对应的水文观测序列的第一异常数据;s233,根据气象观测变量对应的异常数据识别方式,识别目标浮标观测序列中气象观测变量对应的气象观测序列的第一异常数据。
40.其中,针对位置坐标变量,位置观测序列包括从目标浮标观测序列中筛选得到的、不同观测时间下的位置坐标变量相关的位置观测数据,如经纬度数据。可以理解的是,位置观测序列中的位置观测数据可以是按照观测时间的时间顺序进行排序的。
41.在获取到位置坐标变量对应的位置观测序列后,根据位置坐标变量对应的异常数据识别方式,识别位置观测序列中的第一异常数据,可以是使用尖峰检验法筛选出位置观测序列中的第一异常数据。具体地,将位置观测序列中的位置观测数据依次作为目标位置观测数据,对于任意的目标位置观测数据,获取目标位置观测数据对应的参考位置观测数据,其中,参考位置观测数据与目标位置观测数据为位置观测序列中观测时间相邻的位置观测数据;根据目标位置观测数据和其对应的参考位置观测数据,判断目标位置观测数据是否为尖峰值;若目标位置观测数据为尖峰值,则将该目标位置观测数据确定为第一异常数据;若目标位置观测数据非尖峰值,则将该目标位置观测数据为正常数据。
42.例如,目标位置观测数据为位置观测数据,参考位置观测数据包括位置观测数据以及位置观测数据,其中,、、代表在观测时间上连续的三个位置观测数据,通过以下公式(1)判断位置观测数据是否为尖峰值:(1)其中,α是临界值系数,具体可根据具体情况进行设置;例如,当位置观测数据的数据采样间隔为1小时时,α取0.1。
43.针对水文观测变量,水文观测序列包括从目标浮标观测序列中筛选得到的、不同观测时间下的水文观测变量相关的水文观测数据,如海表面温度数据等。可以理解的是,水文观测序列中的水文观测数据可以是按照观测时间的时间顺序进行排序。
44.在获取到水文观测变量对应的水文观测序列后,根据水文观测变量对应的异常数据识别方式,识别水文观测序列中的第一异常数据,具体可以通过获取水文观测序列的加权平均值,通过该加权平均值对水文观测序列进行连续性尖峰检验。
45.例如,通过设置一个迭代变化的加权平均值作为“尖峰”检测器,对水文观测序列做连续性检查。其中,可取预设长度的观测时间段内水文观测序列的加权平均值,随着漂流式浮标不同观测时间的水文观测数据的变化而迭代变化。其中,取值为第一个有效的水文观测数据,将待判断是否为异常数据的水文观测数据在观测时间上相邻的水文观测数值的权重设置为最大,判断过程如下:将水文观测序列中的水文观测数据依次代入公式(2)中进行测试:(2)
其中,表示第i+1个水文观测数据;δ为判断阈值,在一个实施例中,δ可取值为0.5k,k为整数。
46.此外,,其中,c表示权重系数,,。
47.若公式(2)不成立,该水文观测数据异常,不更新。
48.针对气象观测变量,气象观测序列包括从目标浮标观测序列中筛选得到的、不同观测时间下的气象观测变量相关的气象观测数据。可以理解的是,气象观测序列中的水文观测数据可以是按照观测时间的时间顺序进行排序。
49.在一个实施例中,根据气象观测变量对应的异常数据识别方式,识别目标浮标观测序列中气象观测变量对应的气象观测序列的第一异常数据,包括:对气象观测序列进行滤波处理,获取初筛气象异常数据;根据初筛气象异常数据与初筛气象异常数据对应的参考气象观测数据间的差分值,从初筛气象异常数据中确定气象观测变量对应第一异常数据;参考气象观测数据与初筛气象异常数据为气象观测序列中观测时间相邻的气象观测数据。
50.具体地,考虑到大气系统活跃、变化快,气温、气压、风速、相对湿度等气象要素的气象观测数据变化显著,先从数学统计意义上通过滤波处理从气象观测数据中初筛气象异常数据,然后从实际物理意义上在初筛气象异常数据中确定气象观测变量的第一异常数据,在数学统计意义和实际物理过程两方面保障气象观测数据的质控效果,去除气象观测序列中的错误值、异常值,从而提升气象观测数据的准确性和可靠性。
51.其中,对气象观测序列进行滤波处理,获取初筛气象异常数据,具体可以是利用时间窗口将气象观测序列分割为预设长度的短序列观测数据;获取时间窗口内的短序列观测数据对应的中位数以及中值绝对偏差;根据中位数以及中值绝对偏差,确定时间窗口内的观测数据取值范围;将短序列观测数据中超出观测数据取值范围的气象观测数据确定为初筛气象异常数据。
52.其中,时间窗口的长度可以根据实际情况进行设置;例如,气象观测序列中的气象观测数据的数据采样间隔为1小时,则时间窗口的长度可以设置为24小时,所得到的时间窗口内的短序列观测数据包括有24个气象观测数据。具体地,时间窗口按照一定的数据步长进行移动,例如可按照每次一个气象观测数据的步长顺次移动,直至气象观测序列的最后一个气象观测数据为止,实现将气象观测序列中的气象观测数据分割为多个短序列观测数据,在大气环境变化迅速、气象观测数据波动程度大的情况下,有效减少不同海域的大气环境变化所带来的偏差。此外,针对通过漂流式海气界面浮标获得的气象观测序列的场景中,使用时间窗口对气象观测序列进行切分,使得识别异常数据加入漂流观测时间、空间变化的连续性和规律性的考虑,减少空间位置动态变化以及不同海域的大气环境差异所带来的偏差,保证识别异常数据的准确性。
53.其中,中值绝对偏差是指短序列观测数据中,各个气象观测数据与中位数间的差值的中位数。具体地,对于任意一个短序列观测数据,可计算该短序列观测数据对应的中位数以及中值绝对偏差,进而使用中位数以及中值绝对偏差作为判断标准,根据中位数以及
中值绝对偏差确定该时间窗口内的短序列观测数据的观测数据取值范围。
54.通过使用时间窗口对气象观测序列中的气象观测数据进行切分,并针对切分后的短序列观测数据,使用中位数以及中值绝对偏差作为异常观测数据的判断标准,实现减少气象观测序列中极端离群数据对数据滤波的影响,避免正确的气象观测数据被判定为异常的情况,同时,加入漂流观测时间、空间变化的连续性和规律性的考虑,有效减少空间位置动态变化或不同海域的大气环境差异所带来的偏差,提高识别异常数据的准确性。
55.对气象观测数据进行滤波处理得到的异常观测数据是从数学统计意义层面认定的异常数据,当大气环境比较稳定,气象观测数据波动程度不大,为了减少滤波处理所带来的误判,可对初筛气象异常数据进行二次异常检查。具体地,可对初筛气象异常数据进行局部异常检查,根据初筛气象异常数据和其相邻的参考气象观测数据之间的差分值,从初筛气象异常数据中确定气象观测变量的第一异常数据。
56.其中,参考气象观测数据是指在观测数据上,与初筛气象异常数据为相邻的气象观测数据;例如,初筛气象异常数据为t时刻的气象观测数据,参考气象观测数据包括但不限于(t+1)时刻的气象观测数据和/或(t-1)时刻的气象观测数据。具体地,根据初筛气象异常数据与初筛气象异常数据对应的参考气象观测数据间的差分值,从初筛气象异常数据中确定气象观测变量的第一异常数据,可以先依次将任意初筛气象异常数据确定为目标观测数据,对目标观测数据和目标观测数据对应的参考气象观测数据进行差分运算,得到差分值;若差分值大于预设差分阈值,将目标观测数据确定为气象观测变量的第一异常数据。其中,预设差分阈值可以按照实际情况进行设置,进一步地,为避免气象探测设备自身的观测误差干扰判断,预设差分阈值应大于气象探测设备的观测误差。
57.上述浮标数据质量控制方法,获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据;对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列;根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。围绕海气界面场景,通过加入陆地位置检验,从数据整体层面对采集得到的浮标观测序列中的无效观测数据进行剔除,确保观测数据真实反映海气界面场景中不同要素的情况,然后对不同变量类型的观测数据采用各自适用的异常数据识别方式进行针对性的质量控制,识别异常数据,以提高浮标观测数据的准确性和可靠性。
58.其中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之前,还可以可先对目标浮标观测序列进行预处理,使得目标浮标观测序列中的各个浮标观测数据按照观测时间进行排列,便于后续进行观测数据连续性判断,识别出明显脱离整体或局部变化趋势的异常数据。在一个实施例中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之前,还包括:基于目标浮标观测序列的观测时间,对目标浮标观测序列进行重复检验以及时间递增性检验,得到按观测时间排序的目标浮标观测序列。
59.其中,为防止时序错误情况出现,可对目标浮标观测序列中的浮标观测数据进行时间递增性检验,以检查目标浮标观测序列中的浮标观测数据的观测时间(如年、月、日、时、分、秒等)是否始终单调增加,确保数据时序正常,若检测出观测时间排序混乱的浮标观测数据,可删除该部分浮标观测数据,也可以进行时序调整,使得浮标观测数据按照观测时
间保存,得到按观测时间排序的目标浮标观测序列。
60.其中,漂流式浮标在运行过程中,若通信传输过程不稳定或者数据存储模块失误,可能会出现同一观测时间存储两条或两条以上观测数据的问题,造成数据重复错误。因此,可对目标浮标观测序列中的浮标观测数据进行重复检验,通过重复检验剔除重复的浮标观测数据,保证在观测时间与观测结果一一对应。
61.此外,考虑到仪器设计的观测指标,漂流式浮标所采集到的浮标观测数据往往在一定的测量范围内,因此,在一个实施例中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之前,还包括:获取各变量类型的数据取值范围;分别在目标浮标观测序列中各变量类型对应的观测数据中,筛选取值超出变量类型的数据取值范围的第二异常数据。
62.其中,任意变量类型的数据取值范围,可以根据漂流式浮标对该变量类型的测量能力设置,例如,对于水文观测变量中的海表面温度,漂流式浮标对海表面温度的测量范围为[-2,35],则对于水文观测变量中的海表面温度的数据取值范围设置为[-2,35];也可以该变量类型的正常变化范围设置,例如,对于气象观测变量中的相对湿度,其正常变化范围为[0,100],则对于气象观测变量中的相对湿度的数据取值范围设置为[0,100]。
[0063]
具体地,通过对目标浮标观测序列中的浮标观测数据进行范围检查,若目标浮标观测序列中各变量类型对应的观测数据,不在其对应的数据取值范围内,可标记该部分观测数据为异常数据,后续可对该部分异常数据进行删除或调整。例如,漂流式浮标对气象观测变量中的气温观测数据的测量范围为[-40,60],即气象观测变量中的气温观测数据的数据取值范围为[-40,60],若某以观测时间采集到的浮标观测数据中记录到气温值为70度,可将该浮标观测数据中的气温值可标记为异常数据并进行删除。
[0064]
通过将超出漂流式浮标观测能力或不同变量类型的正常取值范围的异常数据进行识别,提高浮标观测数据的准确性和可靠性。
[0065]
在一个实施例中,根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据之后,还包括:将第一异常数据以及第二异常数据确定为目标异常数据;根据目标异常数据的观测时间,将目标异常数据划分为连续型的目标异常数据以及单一型的目标异常数据;若目标异常数据为单一型的目标异常数据,对目标异常数据进行插值处理;若目标异常数据为连续型的目标异常数据,剔除目标异常数据。
[0066]
其中,连续型的目标异常数据是指在时序信息上为连续时间采集的多个气象观测数据,单一型的目标异常数据是指在时序信息上为单独一个或两个的气象观测数据。
[0067]
具体地,为了不破坏数据统计特征和变化趋势,尽可能保留气象观测数据的连续性,对于单一型的目标异常数据,可基于其前后观测时间相邻的气象观测数据进行线性插值,将线性插值得到的结果替代该目标异常数据;而对于连续型的目标异常数据进行删除处理。
[0068]
以下,针对海气界面场景,以终端为drib为例,对上述浮标数据质量控制方法进行进一步说明。
[0069]
其中,drib主要用于抛弃式漂流观测,并实时记录浮标运行情况,通过drib可实现对全球海域大范围、网格化、高时空分辨率的海气界面关键气象观测变量和水文观测变量
进行高频次的观测数据采集,可为深入探知海洋动力过程提供观测数据支撑,在海-气相互作用研究、灾害预报预警、海洋环境保障等研究领域有重要意义。
[0070]
在实际采集浮标观测数据过程中,人工操作失误、海上环境影响、通信传输不稳定等都会干扰观测结果,造成数据异常,现场观测数据大都存在质量问题,不能直接投入应用。因此,需要先对采集到的浮标观测数据进行质量控制,去除隐藏在时间序列中的错误值、异常值,从而提升观测数据的准确性和可靠性。具体地,如图4所示,通过drib采集初始浮标观测序列后,先对初始浮标观测序列进行预处理,预处理包括但不限于以下几个数据基础质控步骤:(1)陆地位置检验。与海上定点观测不同,由于船舶拷机等原因,drib可能在入水之前就开始运行,发送陆地观测信息,并直接导致如海表面温度数据等水文观测变量的观测数据异常。因此,先对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列。
[0071]
具体地,可通过判断初始浮标观测序列中各个浮标观测数据对应的摇摆角幅度数据是否符合其水中运动姿态、海表面温度与稳定工作时段数值是否存在断层差异,对其工作环境作出准确判断,去除陆地观测信息,同时生成独立的陆地观测信息文件,便于之后检验核对。
[0072]
(2)重复检验。drib运行过程中,如果通信传输过程不稳定,或者数据存储模块失误,可能会出现同一时刻存储两条或以上观测数据的问题,造成数据重复错误。因此,基于目标浮标观测序列的观测时间,对目标浮标观测序列进行重复检验,实现剔除重复的浮标观测数据,保证观测时间与观测结果的“一对一”关系。
[0073]
进一步地,可基于重复的浮标观测数据生成重复数据文件,便于后续的复盘检查。
[0074]
(3)时间递增性检验。正常情况下,drib观测数据应是按照时间顺序排列的,为防止“时间倒流”情况出现,基于目标浮标观测序列的观测时间,对目标浮标观测序列进行时间递增性检验,得到按观测时间排序的目标浮标观测序列;具体地,对年、月、日、时、分、秒等时序信息进行递增性检验,检查其是否始终单调增加,确保观测数据的时序信息正常。若检测出时序信息混乱的观测数据,则予以删除,必要时调整时序,时序相关日志将实时记录所作的删除和调整动作。
[0075]
(4)范围检查。范围检查是基于地理知识和海洋气象要素普遍规律的基本认知与浮标自身观测能力,对观测数据是否合理作出的有效判断,若无效将该观测数据标记为异常数据。例如,海表面温度一般在-4℃~44℃的范围内变化,相对湿度最高不超过100%等,而drib平台设计观测指标如表1所示。
[0076]
具体地,可获取各变量类型的数据取值范围;分别在目标浮标观测序列中各变量类型对应的观测数据中,筛选取值超出变量类型的数据取值范围的第二异常数据。假设超出数据取值范围的第二异常数据的数据为集合w,其中,位置坐标变量对应的第二异常数据的数据集合为集合wg,水文观测变量对应的第二异常数据的数据集合为集合ws,气象观测变量对应的第二异常数据的数据集合为集合wq。
[0077]
表1 漂流式海气界面浮标观测的设计偏差指标
在完成数据的基础质控后,浮标观测序列中的明显错误被剔除。
[0078]
drib“随波逐流”的工作特征决定了数据序列的连续性和渐变性,接下来对目标浮标观测序列中的浮标观测数据进行数据针对性质控,具体为将观测数据分为位置坐标数据、水文观测变量、气象观测变量三类,分别设定相应的数据连续性判断准则,找出违反序列连续趋势的问题数据,进一步实现针对性质控。具体步骤如下:(1)位置坐标变量。位置坐标变量对应的位置观测数据包括经度以及纬度。
[0079]
针对drib漂流轨迹上存在异常突变(尖峰)的情况,使用尖峰检验方法判断某个观测时间上的位置观测数据是否正常,通过下述公式(3)判断方法为:(3)其中,、、代表在观测时间上连续三个的位置观测数据;α是临界值系数,可根据具体情况进行设置。例如,数据采样间隔为1h时取0.1。若上式(3)成立,则异常。
[0080]
通过该尖峰检验方法筛选出的位置坐标变量对应第一异常数据的集合为集合g。
[0081]
(2)水文观测变量。水文观测变量对应的水文观测数据包括海表面温度数据。
[0082]
对于水文观测序列,将尖峰检验与连续性检验思想相融合,通过设置一个迭代变化的加权平均值作为水文观测数据的“尖峰”检测器,对水文观测序列做连续性检查。
[0083]
具体地,的确定基于漂流式浮标在预设观测时间段内的海表面温度的变化,与检测数据相邻时刻对应的观测数值被赋予最高权重,判断过程如下:记第一个有效的海表面温度数据为,将水文观测序列中的海表面温度数据依次代入公式(4)中进行测试:(4)其中,表示第i+1个海表面温度数据,δ为判断阈值,具体地,δ可取值为0.5k,k为整数。
[0084]
此外,,其中,c表示权重系数,,。
[0085]
若公式(4)不成立,该海表面温度数据异常,不更新。
[0086]
对于热带太平洋的海表面温度数据,c取值为1/4,

取值为0.5k,k为整数。
[0087]
与热带海域相对均衡稳定的环境相比,中纬度海域动力过程更加复杂,海气非线性不稳定相互作用强烈,水文观测序列更依赖于观测时间段内的海表面温度数据的真实变化,为了提高适用性,对于中纬度海域的drib,在计算海表面温度数据的“尖峰”检测器时,可提升当前观测时间下海表面温度数据的贡献权重;例如,将参数c取值1/3、

取值为0.5℃时。
[0088]
为了尽量减少当漂流式浮标穿过强锋面或观测时间的间隔较大时的误判概率,对水文观测序列进行正序和倒序双向检验,取两个方向均认定为异常的第一异常数据的集合记为集合s。
[0089]
(3)气象观测变量。气象观测变量对应的气象观测数据至少包括气温数据、气压数据、风速数据、相对湿度数据。
[0090]
大气系统更活跃、变化快,气温、气压、风速、相对湿度等关键气象要素的发展规律特征也更加显著。在应用尖峰检验方法检测气象观测数据时,发现存在气象观测数据与判别标准数据差距越来越大,导致大量正确数据被判定为异常的情况,无法直接套用。
[0091]
从统计学理论上来说,定点连续观测的气象变量往往服从一定的概率分布,因此可以使用统计检验方法检查数据,如莱茵达法(3δ准则),认为与算数平均值的剩余误差超过三倍标准偏差的数据为异常值。但是使用算数平均值和标准差作为判断标准时,极端离群数据易导致结果偏差;另外,由于drib所处的空间位置是动态变化的,不同海域的大气环境也有很大差异,所以对较长时间观测序列的统计特性研究意义不大。因此,基于漂流观测时间、空间变化的连续性和规律性,可以天作为时间窗口单位,利用hampel滤波器,对气象观测数据进行滤波处理,以判断气象观测数据脱离日变率的程度,获取初筛气象异常数据,避免气象观测序列中的极端值对异常数据识别的干扰。
[0092]
具体地,假设气象观测序列为,数据采样间隔为1 h,设置时间窗口为一天,即可取为一组短序列观测数据,为一组短序列观测数据,依次类推,可得到多组短序列观测数据。
[0093]
以这一组短序列观测数据为例子,计算该组短序列观测数据的中位数以及中值绝对偏差;其中,中位数为,中值绝对偏差为mad,,。
[0094]
根据中值绝对偏差可确定气象观测数据的取值长度,,则时间窗口内的观测数据取值范围为,即当气象观测数据距离中位数超过3倍,则该气象观测数据为异常观测数据。
[0095]
通过对气象观测数据进行滤波处理,获取初筛气象异常数据,记为集合q1。
[0096]
可以理解的是,初筛气象异常数据q1是从数学统计意义层面认定的异常数据,如
果大气环境比较稳定,观测参数波动程度均衡,局部换算mad数值较小,易造成把正确数据误判为异常的情况。
[0097]
为了规避误判风险,进一步引入局部异常检测,对集合q1中的任意气象观测数据qs,若它与任一观测时间相邻观测数据的差分运算结果不超过预设差分阈值,则qs为误判为异常数据的气象观测数据,若它与任一观测时间相邻观测数据的差分运算结果超过预设差分阈值,则qs为异常的气象观测数据。令误判为异常数据的气象观测数据集合为集合q2。为避免仪器自身的观测误差干扰判断,预设差分阈值设置为大于浮标设计观测误差的值。
[0098]
对于经过上述浮标数据质量控制方法,检测出位置坐标变量对应的异常数据包括集合wg的数据和集合g的数据、水文观测变量对应的异常数据包括集合ws的数据和集合s的数据、气象观测变量对应的异常数据包括在集合wq加上集合q1的所有数据中,剔除集合q2的数据后所剩下的数据。为了在不破坏数据统计特征和变化趋势的基础上尽可能保留观测数据的连续性,对于单独一或两个异常数据,使用前后观测时间相邻观测数据线性插值的结果替代;对于风向异常数据和其他变量连续两个以上的异常数据进行删除处理。
[0099]
为了更好实施本技术实施例提供的浮标数据质量控制方法,在本技术实施例所提浮标数据质量控制方法的基础之上,本技术实施例中还提供一种浮标数据质量控制装置,如图5所示,浮标数据质量控制装置500包括:浮标数据获取模块510,用于获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据;观测数据剔除模块520,用于对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列;异常数据识别模块530,用于根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。
[0100]
在本技术一些实施例中,观测数据剔除模块,具体用于获取初始浮标观测序列中浮标观测数据对应的摇摆角幅度数据;若摇摆角幅度数据为零值,则将浮标观测数据确定为第一浮标观测数据。
[0101]
在本技术一些实施例中,异常数据识别模块,具体还用于基于目标浮标观测序列的观测时间,对目标浮标观测序列进行重复检验以及时间递增性检验,得到按观测时间排序的目标浮标观测序列。
[0102]
在本技术一些实施例中,异常数据识别模块,具体还用于获取各变量类型的数据取值范围;分别在目标浮标观测序列中各变量类型对应的观测数据中,筛选取值超出变量类型的数据取值范围的第二异常数据。
[0103]
在本技术一些实施例中,浮标数据质量控制装置还包括异常数据处理模块,用于将第一异常数据以及第二异常数据确定为目标异常数据;根据目标异常数据的观测时间,将目标异常数据划分为连续型的目标异常数据以及单一型的目标异常数据;若目标异常数据为单一型的目标异常数据,对目标异常数据进行插值处理;若目标异常数据为连续型的目标异常数据,剔除目标异常数据。
[0104]
在本技术一些实施例中,变量类型包括位置坐标变量、水文观测变量以及气象观测变量;异常数据识别模块,具体用于根据位置坐标变量对应的异常数据识别方式,识别目标浮标观测序列中位置坐标变量对应的位置观测序列的第一异常数据;根据水文观测变量
对应的异常数据识别方式,识别目标浮标观测序列中水文观测变量对应的水文观测序列的第一异常数据;根据气象观测变量对应的异常数据识别方式,识别目标浮标观测序列中气象观测变量对应的气象观测序列的第一异常数据。
[0105]
在本技术一些实施例中,具体用于对气象观测序列进行滤波处理,获取初筛气象异常数据;根据初筛气象异常数据与初筛气象异常数据对应的参考气象观测数据间的差分值,从初筛气象异常数据中确定气象观测变量对应第一异常数据;参考气象观测数据与初筛气象异常数据为气象观测序列中观测时间相邻的气象观测数据。
[0106]
上述浮标数据质量控制装置,获取漂流式浮标的初始浮标观测序列,初始浮标观测序列包括不同变量类型的观测数据;对初始浮标观测序列进行位置检测,获取数据观测位置为陆地位置的第一浮标观测数据,并剔除第一浮标观测数据得到目标浮标观测序列;根据各变量类型对应的异常数据识别方式以及目标浮标观测序列,识别目标浮标观测序列中的第一异常数据。围绕海气界面场景,通过加入陆地位置检验,从数据整体层面对采集得到的浮标观测序列中的无效观测数据进行剔除,确保观测数据真实反映海气界面场景中不同要素的情况,然后对不同变量类型的观测数据采用各自适用的异常数据识别方式进行针对性的质量控制,识别异常数据,以提高浮标观测数据的准确性和可靠性。
[0107]
在本技术一些实施例中,浮标数据质量控制装置500可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该浮标数据质量控制装置500的各个程序模块,比如,图5所示的浮标数据获取模块510、观测数据剔除模块520以及异常数据识别模块530。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本技术各个实施例的浮标数据质量控制方法中的步骤。
[0108]
例如,图6所示的计算机设备可以通过如图5所示的浮标数据质量控制装置500中的浮标数据获取模块510执行步骤s210。计算机设备可通过观测数据剔除模块520执行步骤s220。计算机设备可通过异常数据识别模块530执行步骤s230。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种浮标数据质量控制方法。
[0109]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0110]
在本技术一些实施例中,提供了一种计算机设备,包括一个或多个处理器;存储器;以及一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述浮标数据质量控制方法的步骤。此处浮标数据质量控制方法的步骤可以是上述各个实施例的浮标数据质量控制方法中的步骤。
[0111]
在本技术一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器进行加载,使得处理器执行上述浮标数据质量控制方法的步骤。此处浮标数据质量控制方法的步骤可以是上述各个实施例的浮标数据质量控制方法中的步骤。
[0112]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0113]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0114]
以上对本技术实施例所提供的一种浮标数据质量控制方法、装置、计算机设备以及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1