基于联邦学习的故障预测方法及系统与流程

文档序号:36888622发布日期:2024-02-02 21:21阅读:22来源:国知局
基于联邦学习的故障预测方法及系统与流程

本发明涉及隐私计算领域,尤其涉及一种基于联邦学习的故障预测方法及系统。


背景技术:

1、目前,发电厂构建发电设备的故障诊断系统时,为了消除数据孤岛,部署各生产厂家的远程监控系统,部署运维耗费了大量的人力和物力,并且厂家的设备有涉及商业机密的关键数据不能公开,影响设备故障诊断的准确性,如何消除数据孤岛,使数据可用不可见,降低发电厂的运维成本,实现安全可靠的故障诊断系统亟待解决。

2、针对现有技术中上述问题,目前还没有一个有效的解决方法。


技术实现思路

1、为解决上述问题,本发明提供一种基于联邦学习的故障预测方法及系统,通过融合火电厂和设备生产厂家的特征,并基于这些特征进行数据处理和特征工程处理,采用处理后的数据进行模型训练设备故障预测模型,通过上线的模型对设备后续的运行情况进行预测,以解决现有技术中在数据可用不可见的情况下,消除数据孤岛,提高设备故障诊断准确性的问题。

2、为达到上述目的,本发明提供了一种基于联邦学习的故障预测方法,包括:获取检测目标在发起方的第一数据集与在合作方的第二数据集,计算所述第一数据集与第二数据集的id交集,根据所述id交集及各方本地数据集分别得到发起方原始数据集与合作方原始数据集;对所述发起方原始数据集及合作方原始数据集进行数据交互与数据处理,得到发起方待用数据集及合作方待用数据集;根据所述发起方待用数据集与合作方待用数据集进行相关性分析及特征选择,得到发起方训练数据集与合作方训练数据集;根据所述发起方训练数据集与合作方训练数据集进行模型训练,得到故障预测模型,采用所述故障预测模型对所述检测目标进行故障预测,得到所述检测目标的故障结果。

3、进一步可选的,所述对所述发起方原始数据集及合作方原始数据集进行数据交互及数据处理,得到发起方待用数据集及合作方待用数据集包括:对所述发起方原始数据集中的特征进行统计,得到第一统计结果;对所述合作方原始数据集中的特征进行统计,得到第二统计结果,并将本地特征映射为匿名特征后连同第二统计结果发送给发起方;发起方根据所述第一统计结果中的方差与预设方差阈值对所述发起方原始数据集中的特征进行过滤,得到发起方过滤数据集,发起方根据第二统计结果中的方差与预设方差阈值确定需删除的匿名特征,并向合作方发送匿名特征的删除指令,合作方根据所述删除指令删除匿名特征对应的本地特征,得到合作方过滤数据集;对所述发起方过滤数据集与合作方过滤数据集均进行异常值处理及缺失值处理,分别得到发起方待用数据集与合作方待用数据集。

4、进一步可选的,所述对所述发起方过滤数据集与合作方过滤数据集均进行异常值处理,包括:发起方与合作方分别根据特征与特征合理区间筛选得到异常特征,合作方将异常的本地特征映射为匿名特征后,连同第二统计结果发送给发起方,发起方对本地的异常特征进行过滤或填充,并将匿名特征及异常处理指令发送至合作方,合作方将匿名特征映射为本地特征后,根据异常处理指令对异常的本地特征进行过滤或者填充;对于连续特征,各方根据箱线图进行异常检测,并将特征中的异常值采用统计结果中该特征的中位数填充;对于离散特征,发起方根据特征直方图进行异常检测,将本方特征中的异常值删除,将出现异常值的匿名特征及异常处理指令发送至合作方,合作方根据异常处理指令将匿名特征映射的本地特征中的异常值删除,或采用统计结果中特征对应的众数填充。

5、进一步可选的,所述对所述发起方过滤数据集与合作方过滤数据集进行缺失值处理,包括:对于离散特征,各方计算特征直方图中类别为缺失的缺失样本个数与所有样本个数的比值,将比值小于预设占比阈值的样本删除,或采用统计结果中的众数填充,或采用统计结果中的中位数填充;对于连续特征,各方计算缺失率;当缺失率小于第一预设缺失率阈值时,删除缺失样本;当缺失率大于第二预设缺失率阈值时,删除对应特征;当缺失率在第一预设缺失率阈值与第二预设缺失率阈值之间时,采用统计结果中该特征的平均数填充该缺失样本中的缺失值。

6、进一步可选的,所述根据所述发起方待用数据集与合作方待用数据集进行相关性分析及特征选择,得到发起方训练数据集与合作方训练数据集,包括:对所述发起方待用数据集中的特征进行皮尔逊相关性分析,得到每个特征与其他特征的相关系数,在彼此相关系数均大于预设系数阈值的多个特征中任选一个特征,作为多个特征的代表特征,得到发起方更新数据集;对所述合作方待用数据集中的特征进行皮尔逊相关性分析,得到每个特征与其他特征的相关系数,在彼此相关系数均大于预设系数阈值的多个特征中任选一个特征,作为多个特征的代表特征,得到合作方更新数据集;对发起方更新数据集进行分片,得到第一分片数据集与第二分片数据集,将第二分片数据集发送给合作方;对合作方更新数据集进行分片,得到第三分片数据集与第四分片数据集,将第三分片数据集发送给发起方;根据三元组及各方当前数据集计算公共参数,并通过公共参数计算各方当前数据集中每个特征与对方特征的相关系数;其中,所述三元组通过可信第三方生成;发起方在彼此相关系数均大于预设系数阈值的多个特征中任选一个特征,作为多个特征的代表特征,得到发起方训练数据集,并将选择后的匿名特征发送给合作方,合作方将选择后的合作方的匿名特征映射为本地特征后,得到合作方训练数据集。

7、另一方面,本发明还提供了一种基于联邦学习的故障预测系统,包括:数据融合模块,用于获取检测目标在发起方的第一数据集与在合作方的第二数据集,计算所述第一数据集与第二数据集的id交集,根据所述id交集及各方本地数据集分别得到发起方原始数据集与合作方原始数据集;数据处理模块,用于对所述发起方原始数据集及合作方原始数据集进行数据交互及数据处理,得到发起方待用数据集及合作方待用数据集;特征工程模块,用于根据所述发起方待用数据集与合作方待用数据集进行相关性分析及特征选择,得到发起方训练数据集与合作方训练数据集;预测模块,用于根据所述发起方训练数据集与合作方训练数据集进行模型训练,得到故障预测模型,采用所述故障预测模型对所述检测目标进行故障预测,得到所述检测目标的故障结果。

8、进一步可选的,所述数据处理模块包括:第一统计子模块,用于对所述发起方原始数据集中的特征进行统计,得到第一统计结果;第二统计子模块,用于对所述合作方原始数据集中的特征进行统计,得到第二统计结果,并将本地特征映射为匿名特征后连同第二统计结果发送给发起方;过滤子模块,用于发起方根据所述第一统计结果中的方差与预设方差阈值对所述发起方原始数据集中的特征进行过滤,得到发起方过滤数据集,发起方根据第二统计结果中的方差与预设方差阈值确定需删除的匿名特征,并向合作方发送匿名特征的删除指令,合作方根据所述删除指令删除匿名特征对应的本地特征,得到合作方过滤数据集;异常处理子模块,用于对所述发起方过滤数据集与合作方过滤数据集均进行异常值处理及缺失值处理,分别得到发起方待用数据集与合作方待用数据集。

9、进一步可选的,异常处理子模块包括:异常特征识别单元,用于发起方与合作方分别根据特征与特征合理区间筛选得到异常特征,合作方将异常的本地特征映射为匿名特征后,连同第二统计结果发送给发起方,发起方对本地的异常特征进行过滤或填充,并将匿名特征及异常处理指令发送至合作方,合作方将匿名特征映射为本地特征后,根据异常处理指令对异常的本地特征进行过滤或者填充;连续特征检测单元,用于对于连续特征,各方根据箱线图进行异常检测,并将特征中的异常值采用统计结果中该特征的中位数填充;离散特征检测单元,对于离散特征,发起方根据特征直方图进行异常检测,将本方特征中的异常值删除,将出现异常值的匿名特征及异常处理指令发送至合作方,合作方根据异常处理指令将匿名特征映射的本地特征中的异常值删除,或采用统计结果中特征对应的众数填充。

10、进一步可选的,所述异常处理子模块包括:第一缺失值处理单元,用于对于离散特征,各方计算特征直方图中类别为缺失的缺失样本个数与所有样本个数的比值,将比值小于预设占比阈值的样本删除,或采用统计结果中的众数填充,或采用统计结果中的中位数填充;第二缺失值处理单元,用于对于连续特征,各方计算缺失率;当缺失率小于第一预设缺失率阈值时,删除缺失样本;当缺失率大于第二预设缺失率阈值时,删除对应特征;当缺失率在第一预设缺失率阈值与第二预设缺失率阈值之间时,采用统计结果中该特征的平均数填充该缺失样本中的缺失值。

11、进一步可选的,所述特征工程模块包括:第一相关性分析子模块,用于对所述发起方待用数据集中的特征进行皮尔逊相关性分析,得到每个特征与其他特征的相关系数,在彼此相关系数均大于预设系数阈值的多个特征中任选一个特征,作为多个特征的代表特征,得到发起方更新数据集;第二相关性分析子模块,用于对所述合作方待用数据集中的特征进行皮尔逊相关性分析,得到每个特征与其他特征的相关系数,在彼此相关系数均大于预设系数阈值的多个特征中任选一个特征,作为多个特征的代表特征,得到合作方更新数据集;第一分片子模块,用于对发起方更新数据集进行分片,得到第一分片数据集与第二分片数据集,将第二分片数据集发送给合作方;第二分片子模块,用于对合作方更新数据集进行分片,得到第三分片数据集与第四分片数据集,将第三分片数据集发送给发起方;联邦相关系数计算子模块,用于根据三元组及各方当前数据集计算公共参数,并通过公共参数计算各方当前数据集中每个特征与对方特征的相关系数;其中,所述三元组通过可信第三方生成。特征选择子模块,用于发起方在彼此相关系数均大于预设系数阈值的多个特征中任选一个特征,作为多个特征的代表特征,得到发起方训练数据集,并将选择后的匿名特征发送给合作方,合作方将选择后的合作方的匿名特征映射为本地特征后,得到合作方训练数据集。

12、上述技术方案具有如下有益效果:通过采用联邦学习的方式,也即通过在发起方与参与方设置共同的样本空间,不同的特征空间,使模型训练过程中数据可用不可见,提高了数据的安全性;且在该训练过程中消除了数据孤岛,扩大了数据维度,提高了最终模型预测的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1