一种基于无监督学习的水电站调度运行数据清洗方法

文档序号：35375986发布日期：2023-09-08 16:12阅读：37来源：国知局

本发明涉及数据处理，尤其是涉及一种基于无监督学习的水电站调度运行数据清洗方法。

背景技术：

1、水电站兼顾水能资源利用、洪涝灾害防御等功能，在我国水安全和能源安全中发挥着重要的作用。水电站的高质量调度运行数据是电站调度方案编制、“出力-水位-流量”关系分析及系统状态预测模型构建的基础，对于电站的安全经济运行至关重要。然而，由于可能存在的发电机组故障、电磁信号干扰、传输设备损坏等多种原因，电站实际运行过程中，监测数据易出现异常情况，例如数据长时间缺测、数据异常波动、数据变化及关系不符合物理规律等问题。这些异常情况的出现随机，且可能出现同一时间同时存在多种异常的情况。此外，水电站的数据来源广泛，数据量巨大，给数据清洗造成了较大的干扰。

2、当前，常采用简单的数理统计方法或传统的数据分析方法对数据进行处理。此类方法存在以下缺陷：（1）数据处理方法单一，在梯级电站历史调度运行数据中，异常数据的成因复杂，多种数据异常方式共存，互为因果，这种数据异常特点的存在导致很难采用统一的方法处理所有的异常数据；（2）调度运行中的水位、流量、出力数据均为具有物理意义的要素，不考虑其时间变化和空间联系特征的处理方法的适用性差。

3、总体而言，水电站调度运行数据涉及要素多，内在联系紧密，数据异常特征复杂，不考虑其内在联系的单一方法难以有效完成数据清洗目标。

技术实现思路

1、本发明的目的是提供一种基于无监督学习的水电站调度运行数据清洗方法，能够在数据清洗过程中综合考虑水电站调度运行数据物理特征、对无监督学习方法进行优选，实现调度运行数据的快速异常检测和插补校正，构建高质量调度运行数据集，从而为水电站调度方案编制、安全经济运行提供基础数据支撑。

2、为实现上述目的，本发明提供了一种基于无监督学习的水电站调度运行数据清洗方法，包括以下步骤：

3、s1、针对水电站调度运行数据的时空分布特征，对原始调度运行数据集s进行预处理和统计分析，得到数据集snew；

4、s2、构建多种基于无监督学习算法的异常数据检测模型，采用针对异常检测效果的模型评估方法进行模型评价和优选，得到最优异常检测模型；

5、s3、采用步骤s2得到的最优异常检测模型对步骤s1得到的数据集进行数据异常检测，并根据调度运行数据之间的关联，利用基于机器学习的回归方法对异常数据进行插补校正。

6、优选的，在步骤s1中，所述原始调度运行数据集s={h, q, n}，其中，h表示水位数据、q表示流量数据、n表示出力数据。

7、优选的，在步骤s1中，对水位数据的处理方式为：经过单步长的时间差分得到水位时间差分数据ht，对相邻水位站点的数据求差值得到水位差值数据hd；对流量数据和出力数据的处理方式均为求单步长的时间差值得到时间差分数据nt和qt，处理后得到包含原始数据和处理后数据的数据集snew。

8、优选的，在步骤s2中，包括以下步骤：

9、s21、在数据集snew中随机选取k%的数据，在原数据的基础上加入明显的扰动；

10、s22、将数据集snew划分为训练集和验证集；

11、s23、基于训练集数据，综合数据统计分析结果，采用多种无监督学习算法分别构建数据异常检测模型，数据异常检测模型，分别记为mhbos、mknn、mavgknn、mif和mcblof；

12、s24、将所构建的数据异常检测模型应用到测试集中，计算不同模型的评估指标；

13、s25、根据各个模型的评估指标，选取最优的数据异常检测模型mbest。

14、优选的，在步骤s21中，随机选取10%的数据进行扰动，使其值变为原始数据的(1+h%)h服从高斯分布，均值为μ，方差为σ，并且令|h|>10；选取μ=0，σ=30，则加入的数据干扰表达式为：

15、。

16、优选的，在步骤s24中，评估指标可采用召回率和误检率，计算方式为：利用混淆矩阵，将样本为异常数据且检测结果也为异常数据的数据标记为真阳类，本身异常但被误检为正常数据的数据标记为假阴类，本身正常被误检为异常的数据标记为假阳类，样本为正常数据且检测结果也为正常的数据标记为真阴类；采用如下公式计算召回率和误检率：

17、；

18、。

19、因此，本发明采用上述一种基于无监督学习的水电站调度运行数据清洗方法，其技术效果如下：

20、（1）针对水电站调度运行数据集的不同类型数据间具有物理联系的特点，通过数据处理方式获取不同变量的时间变化和空间联系特征并将其作为数据异常检测的依据，从而保证不同变量间的物理关系的一致性；

21、（2）针对不同数据异常检测方法各有优势的特征，通过异常检测评估方法对异常检测模型进行对比筛选，从而以最合适的异常检测模型对数据异常进行判断，提升数据异常的识别效率。

22、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.一种基于无监督学习的水电站调度运行数据清洗方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于无监督学习的水电站调度运行数据清洗方法，其特征在于，在步骤s1中，所述原始调度运行数据集s={h, q, n}，其中，h表示水位数据、q表示流量数据、n表示出力数据。

3.根据权利要求1所述的一种基于无监督学习的水电站调度运行数据清洗方法，其特征在于，在步骤s1中，对水位数据的处理方式为：经过单步长的时间差分得到水位时间差分数据ht，对相邻水位站点的数据求差值得到水位差值数据hd；对流量数据和出力数据的处理方式均为求单步长的时间差值得到时间差分数据nt和qt，处理后得到包含原始数据和处理后数据的数据集snew。

4.根据权利要求1所述的一种基于无监督学习的水电站调度运行数据清洗方法，其特征在于，在步骤s2中，包括以下步骤：

5.根据权利要求4所述的一种基于无监督学习的水电站调度运行数据清洗方法，其特征在于，在步骤s21中，随机选取10%的数据进行扰动，使其值变为原始数据的(1+h%)h服从高斯分布，均值为μ，方差为σ，并且令|h|>10；选取μ=0，σ=30，则加入的数据干扰表达式为：

6.根据权利要求4所述的一种基于无监督学习的水电站调度运行数据清洗方法，其特征在于，在步骤s24中，评估指标采用召回率和误检率，计算方式为：利用混淆矩阵，将样本为异常数据且检测结果也为异常数据的数据标记为真阳类，本身异常但被误检为正常数据的数据标记为假阴类，本身正常被误检为异常的数据标记为假阳类，样本为正常数据且检测结果也为正常的数据标记为真阴类；采用如下公式计算召回率和误检率：

技术总结
本发明公开了一种基于无监督学习的水电站调度运行数据清洗方法，包括：针对水电站调度运行数据的时空分布特征，对原始调度运行数据集进行预处理和统计分析；构建多种基于无监督学习算法的异常数据检测模型，采用针对异常检测效果的模型评估方法进行模型评价和优选；采用最优异常检测模型对数据集进行数据异常检测，并根据调度运行数据之间的关联，利用基于机器学习的回归方法对异常数据进行插补校正。本发明采用上述的一种基于无监督学习的水电站调度运行数据清洗方法，能够对梯级电站调度运行数据进行异常检测和清洗校正，提升数据质量，为调度运行规律分析、预测模型构建和电站安全经济运行提供基础数据支撑。

技术研发人员：许继军,谢帅,林航,曹辉,徐杨,宋雅静,张政,王永强
受保护的技术使用者：长江水利委员会长江科学院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许继军谢帅林航曹辉徐杨宋雅静张政王永强
技术所有人：中国长江电力股份有限公司
我是此专利的发明人

上一篇：无触发词的事件检测方法和系统
上一篇：一种磁共振成像永磁体设计方法、系统、设备及介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。