本发明涉及在线监测数据验证领域,特别涉及一种城市排水设施在线监测数据验证方法。
技术背景
城市排水设施特别是地下管网具有隐蔽性强、分布范围广、运行状态不清、管理难度大等特点,近年来采用信息化技术实时采集城市排水设施运行状态的监测实践越来越多,包括安装流量计、液位计、水质监测设备等。然而无效的数据将给分析或者决策带来极大的影响,因此需要对传感器采集的数据进行验证才能应用于分析或者决策。通常来说,城市排水设施在线监测产生大量的数据,尤其针对实时预测、实时控制的场景,因为这些情况对数据的时效性要求很高,进行人工验证是不现实的,迫切需要自动化的在线验证方法。
城市排水设施在线监测数据的有效性验证是指正常工作条件下监测信号的大小能够正确反映此时传感器所在位置的信号值;当发生传感器故障、数据传输故障或者受到外界的干扰时,其监测的数据不能正确反映此时的真实测量值,称之为数据失效,这里数据验证是指数据已经过完整性、正确性和一致性检查,即针对缺失数据或非正常格式的数据已进行处理或者标记。为保证监测数据的有效性,很多厂家采用诸如传感器自清洗、温度补偿、自动校准、内部错误检查等技术对传感器进行开发和改进。然而,由于监测设备一直安装在环境比较恶劣的地方,仅对硬件设备进行改进,监测数据的可靠性仍然不足。此外,对于一些统计检验理论诸如异常值检测通常适用于随机数据或者稳态数据,非稳态数据在城市排水设施在线监测中往往更为普遍,例如暴雨可能会给水位监测数据带来较大的波动,因而不能用这种方法进行简单的分析,需要系统地进行验证。
技术实现要素:
本发明要解决的技术问题是提供一种城市排水设施在线监测数据验证方法,该方法可精确地验证城市排水设施在线监测数据是否有效,且极大地减少人工数据验证成本,提高数据验证效率。
为解决上述问题,本发明采用如下技术方案:
一种城市排水设施在线监测数据验证方法,包括以下步骤:
①获取传感器采集的监测数据;
②数据在线自动预验证:提供六种数据标识码规则,并根据标识码规则制定自动验证准则;
③数据在线预验证评估:在进行验证评估时,根据步骤②中每个准则的验证结果,将六个准则的最劣值作为验证评估结果;
④提取验证评估不通过的数据,进行人工验证。
进一步,所述步骤②中,标示码规则为:“a表示有效;b表示可疑值;c表示无效,包括缺陷值、离群值或异常值;n表示该准则未验证”。
进一步,所述步骤②中自动预验证准则包含:
a.传感器状态验证:
操作人员在对监测设备进行维护、检查或者调试时,启动传感器相应电压按钮,传感器产生一个与正常运行电压不同的信号,此时,传感器状态验证标识码为“c”,其余时段标识码为“a”,设备维护结束时,恢复电压,这样,标识码“c”实现记录异常运行的持续时间;
b.观测范围验证:
观测范围由传感器测量范围及观测量的物理意义设定,如果观测数据超过了这个范围,那么该准则的验证标识码记为“c”,否则记为“a”;
c.最常规观测范围验证:不在最常规观测范围的数据被标识为“b”,否则标记为“a”;
d.维护周期验证:假设传感器维护周期为t,最后一个维护日期t0,那么t0~t0+(t+1)之间的观测数据标识码记为“a”;t0~t0+(2t+1)之间的观测数据的标识码记为“b”;超过t0+(2t+1)之后的观测数据的标识码记为“c”;
e.信号梯度验证。
采用滑动平均法来检测离群值,通过原始信号与滑动信号之间的差异突变来检验可疑离群值,二者差异超过设定的阈值标记为“b”,其余时段标记为“a”,具体操作如下:
原始监测信号设为xt,通过下式连续计算滑动平均信号:
εt=xt-yt
其中,(2m+1)表示滑动平均的步长,εt代表原始信号与平滑信号之间的差异;
f.信号冗余验证:
将测量的信号a与另一个相关信号b进行比较,采用滑动梯度结合阈值识别异常值的策略,两个滑动平均信号绝对值的差超过设定的阈值标记为“b”,其余时段标记为“a”,具体操作如下:
原始监测信号设为at,相关信号设为bt,通过下式连续计算滑动平均信号:
通过下式连续计算滑动平均信号梯度:
ρa,t=(xa,t+1-xa,t+1)/(xa,t+1)
ρb,t=(xb,t+1-xb,t+1)/(xb,t+1)
通过下式计算差异:
εt=|ρa,t|-|ρb,t|
其中,(2m+1)表示滑动平均的步长;ρ*,t代表滑动平均信号的梯度;εt代表滑动平均信号的梯度的差异。
进一步,所述步骤③中,数据在线预验证评估采用预验证结果的最劣值,也就是:
a.如果至少有一个预验证结果均为c,那么预验证评估结果为c;
b.如果至少有一个预验证结果均为b,那么预验证评估结果为b;
c.如果所有准则的预验证结果均为a,那么预验证评估结果为a。
进一步,所述步骤④中,验证不通过的数据即带有b和c标记的数据。
进一步,所述步骤④中,人工验证仅采用两种验证标识码:“a表示有效,c表示无效”。
本发明立足于目前排水设施运行产生的庞大的数据量及数据时效性要求研发的,可精确地验证城市排水设施在线监测数据是否有效,且极大地减少人工数据验证成本,提高数据验证效率。
附图说明
图1是本发明维护周期验证中标识码示意图;
图2是本发明在线预验证及评估结果示意图;
图3是本发明应用在流速监测异常事件1的示意图;
图4是本发明应用在流速监测异常事件2的示意图;
图5是本发明的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述,
一种城市排水设施在线监测数据验证方法,包括以下步骤:
①获取传感器采集的监测数据;
②数据在线自动预验证。提供六种数据验证准则,采用标识码标记相应准则的验证结果;标示码的规则为:“a表示有效;b表示可疑值;c表示无效,包括缺陷值、离群值或异常值;n表示该准则未验证”;
数据在线预验证的六个准则包括:
a.传感器状态验证。通常,在监测设备维护、检查或者调试期间传感器仍然是在收集数据的,但是此时的数据并不可靠,因而提出一种通过传感器电压识别传感器状态的方法,操作人员在对监测设备进行维护、检查或者调试时,启动传感器相应电压按钮,传感器产生一个与正常运行电压不同的信号,此时,传感器状态验证标识码为“c”,其余时段标识码为“a”,设备维护结束时,恢复电压。这样,标识码“c”实现记录异常运行的持续时间。
b.观测范围验证。观测范围由传感器测量范围及观测量的物理意义设定,例如ph值得观测范围必须在0~14之间,污水管道内的水温不能为负值。如果观测数据超过了这个范围,那么该准则的验证标识码记为“c”,否则记为“a”。
c.最常观测范围验证。最常观测范围是根据经验及相关专业知识逐步确定和调整的,例如某污水管道污水ph值在6~8的概率为99%,那么不在该范围的数据被标识为“b”,否则标记为“a”。
d.维护周期验证。为了确保测量值的可靠性,所有传感器应定期清洗和维护。假设维护周期为t,最后一个维护日期t0,那么t0~t0+(t+1)之间的观测数据标识码记为“a”;t0~t0+(2t+1)之间的观测数据的标识码记为“b”;超过t0+(2t+1)之后的观测数据的标识码记为“c”,具体如图1示意图所示。
e.信号梯度验证。测量数据陡增陡降时,怀疑监测设备发生故障。仅仅采用绝对值或者相对值梯度变化来进行验证,往往会将真实发生的突变数据验证为可疑或者无效。本发明公开一种滑动平均法来检测离群值的策略,通过原始信号与滑动信号之间的差异突变来检验可疑离群值,二者差异超过设定的阈值标记为“b”,其余时段标记为“a”,这种方法可以有效地解决相邻时段变化较大的信号梯度验证不通过的情况,具体操作如下:
原始监测信号设为xt,通过下式连续计算滑动平均信号:
εt=xt-yt
其中,(2m+1)表示滑动平均的步长,εt代表原始信号与平滑信号之间的差异。
f.信号冗余验证。
将测量的信号a与另一个相关信号b进行比较,本发明公开一种滑动梯度结合阈值识别异常值的策略,两个滑动平均信号绝对值的差超过设定的阈值标记为“b”,其余时段标记为“a”。具体操作如下:
原始监测信号设为at,相关信号设为bt,通过下式连续计算滑动平均信号:
通过下式连续计算滑动平均信号梯度:
ρa,t=(xa,t+1-xa,t+1)/(xa,t+1)
ρb,t=(xb,t+1-xb,t+1)/(xb,t+1)
通过下式计算差异:
εt=|ρa,t|-|ρb,t|
其中,(2m+1)表示滑动平均的步长;ρ*,t代表滑动平均信号的梯度;εt代表滑动平均信号的梯度的差异。
③数据在线预验证评估。在进行验证评估时,根据步骤②中每个准则的验证结果,将六个准则的最劣值作为验证评估结果;
④提取验证评估不通过的数据,进行人工验证。
作为优选,所述步骤②中,数据在线预验证的准则可以选择六个全部或者其中的部分。
作为优选,所述步骤③中,数据在线预验证评估采用预验证结果的最劣值,即:
a.如果至少有一个预验证结果均为c,那么预验证评估结果为c;
b.如果至少有一个预验证结果均为b,那么预验证评估结果为b;
c.如果所有准则的预验证结果均为a,那么预验证评估结果为a。
作为优选,所述步骤④中,验证不通过的数据即带有b和c标记的数据。
作为优选,所述步骤④中,人工验证仅采用两种验证标识码:“a表示有效,c表示无效”。
下面提供本发明的具体应用实例:
在实例中包括安装在污水管道的流速传感器,可以感测管道内流速,并提供操监测时间以及装置电压。传感器生成的数据是原始数据,使用无线方式将数据馈送到数据网关,再传输到数据库,数据验证通过计算机代码实现,一旦将数据提供给验证系统就可以验证数据。
采用本发明一种城市排水设施在线监测数据验证方法的具体步骤是:
(1)获取流速传感器采集的监测数据,传感器采集时间频次为5min/次;
(2)数据在线自动预验证。提供六种数据验证准则,采用标识码标记相应准则的验证结果;
(3)数据在线预验证评估。在进行验证评估时,根据步骤(2)中每个准则的验证结果,将六个准则的最劣值作为验证评估结果;
(4)提取验证评估不通过的数据,进行人工验证。
所述步骤(2)中,标示码的规则为:“a表示有效;b表示可疑值;c表示无效,包括缺陷值、离群值或异常值;n表示该准则未验证”。
所述步骤(2)中,数据在线预验证的六个准则包括:
a.传感器状态验证。传感器正常输出电压为11mv左右,操作人员在对传感器进行维护、检查或者调试时,启动传感器相应电压按钮,传感器产生一个4mv左右的电压,此时,传感器状态验证标识码为“c”,其余时段标识码为“a”,设备维护结束时,恢复电压。这样,标识码“c”实现记录异常运行的持续时间。
b.观测范围验证。管道的流速为非负值,如果观测数据超过了这个范围,那么该准则的验证标识码记为“c”,否则记为“a”。
c.最常观测范围验证。经长期监测数据统计,流速在0~0.6m3/s的概率为99%,不在该范围的数据被标识为“b”,否则标记为“a”。
d.维护周期验证。为了确保测量值的可靠性,所有传感器应定期清洗和维护。假设维护周期为30天,最后一个维护日期t0,那么t0~(t0+31)之间的观测数据标识码记为“a”;t0~(t0+61)之间的观测数据的标识码记为“b”;超过t0+61之后的观测数据的标识码记为“c”。
e.信号梯度验证。通过原始信号与平滑信号之间的差异突变来检验可疑离群值。流速数据滑动步长设定为25,阈值设定为0.1,原始流速与滑动平均流速数据差异超过设定的阈值标记为“b”,其余时段标记为“a”。
f.信号冗余验证。
将测量的信号a与另一个相关信号b进行比较,本发明公开一种滑动梯度结合阈值识别异常值的策略,两个滑动平均信号绝对值的差超过设定的阈值标记为“b”,其余时段标记为“a”,这里阈值设定为0.5。具体操作如下:
原始监测信号流速设为at,相关信号液位设为bt,通过下式连续计算滑动平均信号:
通过下式连续计算滑动平均信号梯度:
ρa,t=(xa,t+1-xa,t+1)/(xa,t+1)
ρb,t=(xb,t+1-xb,t+1)/(xb,t+1)
通过下式计算差异:
εt=|ρa,t|-|ρb,t|
其中,(2m+1)表示滑动平均的步长,这里取25;ρ*,t代表滑动平均信号的梯度;εt代表滑动平均信号的梯度差异。
作为优选,所述步骤(3)中,数据在线预验证评估采用预验证结果的最劣值,即:
a.如果至少有一个预验证结果均为c,那么预验证评估结果为c;
b.如果至少有一个预验证结果均为b,那么预验证评估结果为b;
c.如果所有准则的预验证结果均为a,那么预验证评估结果为a。
作为优选,所述步骤(4)中,验证不通过的数据即带有b和c标记的数据。
作为优选,所述步骤(4)中,人工验证仅采用两种验证标识码:“a表示有效,c表示无效”。
根据监测的数据及本发明验证方法的结果,对方法的有效性进行了验证,结果表明本发明验证方法能够自动检测多种无效数据。具体分析如下:
图2给出数据验证结果截取片段,输出了每个验证准则的验证标识码,及在线验证综合评估结果。
图3给出了一个流速值监测异常事件1,可发现7月22日7:00及12:00原始监测流速突然减低为0。查询验证结果表,以7月22日7:00验证结果为例,信号梯度验证结果为“b”,最终评估数据质量为“b”,因而充分证明本发明梯度验证的有效性,由图3的差值线可以看出,该方法对于流速的正常波动成功滤除。经人工验证之后,该时刻污水管道存在短暂管道堵塞问题,导致液位憋高,流速急剧降低,最终验证结果标记为“a”。
图4给出了另一个流速监测异常事件2,7月25日13:00~7月25日2:00左右流速监测值为持续为0,但期间液位有变化,因而怀疑该段时间流速或者液位监测数据异常。查询验证结果表,以7月25日21:00验证结果为例,信号冗余验证为“b”,最终评估数据质量为“b”,因而充分证明本发明信号冗余验证的有效性。经人工验证之后,该段时间污水管道流速传感器故障,最终验证结果标记为“c”。
上述实施例是提供给本领域技术人员来实现或使用本发明,本领域技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。