一种面向能源行业的时序数据规范化治理方法与流程

文档序号:31943907发布日期:2022-10-26 03:48阅读:284来源:国知局
一种面向能源行业的时序数据规范化治理方法与流程

1.本发明涉及能源行业技术领域,具体为一种面向能源行业时序数据的数据质量规范化治理方法。


背景技术:

2.能源行业时序数据的主要特征:
3.(1)时序数据静态属性:包括时序测点名称、类型、描述、零点、量程、单位等静态信息,时序数据静态信息一般很少变化。
4.(2)时序数据动态属性:包括时间戳、数据值和质量三部分,数据动态信息是时序数据的核心和关键,随着时间的变化不断变化,并且这些变化的信息都需要长期保存,历史数据可以长达几十年。
5.(3)实时性:主要是指对时序数据采集、处理、分析速度的要求。能源时序数据中包含着很多实时性数据,数据的分析结果也往往具有实时性要求,这需要能源管理系统有较快的响应速度和强大的数据处理分析能力。
6.(4)高密度:能源时序数据模拟量数据一般为秒级存储数据,部分高频数据为毫秒级甚至更高,因此形成海量的设备历史时序数据。
7.传统对时序数据的分析和治理主要依托在应用层的人工分析来去除坏质量数据和数据异常时间段数据,耗时耗力,效率低适应性弱,通过借助目前主流的ai分析等人工智能先进技术的应用,通过对已经收集的时序历史数据以及结构化数据信息等能源大数据进行分析建立样本,建立机器学习等数据质量稽核算法模型实现对数据质量的标记和处理,提供更准确有效的数据信息对业务应用提供支撑。例如,如果及时发现源端的数据采集中断,就可以及时剔除问题时段数据或采取续传等措施,提高数据统计分析准确性;也可以对一些保持直线不变化的测点数据,分析是否传感器异常,从而提升数据可靠性。所以就需要一种面向能源行业的时序数据规范化治理方法。


技术实现要素:

8.本发明的目的在于提供一种对能源行业缓变类时序数据的数据中断和数据死值情况进行数据质量稽核的规范化治理方法;
9.本发明是这样实现的:
10.一种面向能源行业的时序数据规范化治理方法,依托数据采集平台、数据存储管理平台和数据分析治理平台实现,其中数据采集平台通过采集接口程序采集风电、光伏、水电、火电等发电生产时序数据以及煤炭、石油、天然气等能源行业的生产时序数据;所述存储管理平台对应和时序数据相关的主要有时序库存储及结构化数据存储模块;所述数据分析治理平台包括算法模型管理和建模运行的数据分析模块,以及包括数据编码、数据质量评估、数据资产目录及数据服务等的数据治理模块。
11.能源行业的时序数据包括基于时间序列的各种传感器测量数据,包括功率、电压、
电流、压力、温度、流量、液位、转速、振动等时序数据,本方法重点针对缓变类的时序数据,如温度、压力、液位等缓变类的时序数据。时序数据可以从各类dcs、scada、plc等生产控制系统原始采集也可以从各类实时历史数据库采集。所述存储管理平台包括mysql库、时序库、hbase、redis等。
12.源端数据通过时序采集任务实时采集到kafka中间件,然后配置数据存储任务从kafka采集保存到时序库、hbase库及redis,落库的同时执行机器学习数据质量稽核算子任务进行数据质量稽核,并将稽核结果保存到关系库,最后提供带有数据中断和数据死值标签的统一时序数据服务。
13.通过数据分析模块实现适用于数据质量稽核处理的包括遗传算法、神经网络和回归分析在内的机器学习算法模型,以模型准确度为评估依据,对不同类型传感器时序数据适用不同的算法模型,通过在入库阶段执行算法模型实现对时序数据源端的数据中断和数据死值进行快速质量稽核,算法处理过程如下:
14.首先依托数据分析工具构建模型训练使用的样本库,从时序库和hbase抽取时序历史数据,按照机组和传感器类型分类,均为缓变类时序数据,具体分类包括温度类数据、压力类数据和液位类数据等,并对历史数据进行标注标签,根据数据质量标注数据中断标签及数据死值标签,建立包括数据质量正常、数据中断和数据死值的样本库,并支持动态区分训练库和测试验证库,供算法模型训练使用。
15.所述的遗传算法、神经网络算法和回归分析算法,均是以分类为目标的数据处理算法,通过训练之后,从上述三类算法中选择适用该类传感器的准确度最高的算法作为该类时序数据使用的稽核算法,进行数据质量稽核,说明如下:
16.s
1.1
:首先对遗传算法进行模型训练,即首先对能源工业互联网平台的历史数据抽取样本进行模型训练,具体包括将能源工业互联网平台的数据分为个体适应度评价、初始种群、种群大小、选择算子、交叉算子和变异算子;具体如式(1):
17.sga=(c,e,p0,m,φ,γ,ψ,τ)
ꢀꢀ
式(1)
18.其中:c为个体的编码方法,e为个体适应度评价函数,p0为初始种群,m为种群大小,ф为选择算子,ψ为变异算子,τ为遗传算法终止条件。
19.s
2.1
:训练完成后,用测试集样本数据进行准确性评估,形成该算法模型的准确性评估数据。
20.所述神经网络算法:
21.s
2.1
:首先基于能源工业互联网平台进行数据筛分数据训练集形成单元层;
22.s
2.2
:由训练集的实例特征向量传入,经过连接节点的权重形成输入层,并对数据加权进行求和,然后根据非线性方程转化输出一层形成隐藏层;隐藏层的个数是任意的,输入层和输出层都有一层;
23.s
2.3
:形成多层向前神经网络。
24.s
2.3
:训练完成后,通过测试样本集数据形成模型准确性评估数据。
25.所述回归分析方法包括以下步骤:
26.s
3.1
:通过回归分析上述数据进行具有因果关系的自变量影响因素和因变量对象所进行的数据进行统计分析处理,具体如式(2)-式(5);
27.eval(uk)=fxk),k=1,2,
…ꢀꢀꢀꢀ
式(2)
[0028][0029][0030][0031]
通过累计概率训练出对能源工业互联网平台内的各类传感器数据的训练模型。
[0032]s3.2
:通过对训练完成后的模型进行评估形成准确度数据。
[0033]
通过对上述三类算法形成的模型准确度按传感器类型数据进行排序,选择准确度最好的算法模型,然后将能源工业互联网平台的分类数据代入训练模型中计算出面向时序数据的质量稽核结果。通过在计算机存储介质上存储并执行计算机程序,来实现如上述中任一项所述的功能和方法。
[0034]
与现有技术相比,本发明的有益效果是:
[0035]
1、通过对缓变类时序数据的质量稽核,有效识别了源端时序数据采集中断的情况并进行标签化,为确保数据完整性提供了精确量化支持,同时在数据缺失情况提供了数据统计分析的精确度。
[0036]
2、通过对时序数据的质量稽核,有效分析了缓变类时序数据的死值数据质量,对后续采取处理策略提高数据的真实性和可靠性提供了决策依据,有助于提高数据质量和治理的规范化。
[0037]
3、通过依托算法进行数据质量的智能分析和处理,降低了人工处理的工作量,并提高了数据处理效率,节约了人力成本和时间成本,提高了问题发现的及时性和应对的科学性,为企业数字化转型提供基础支撑。
附图说明
[0038]
为了更清楚地说明本发明实施的技术方案,下面将对实施过程中所需要使用的附图作简单的介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。
[0039]
图1是本发明的方法流程图。
具体实施方式
[0040]
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合附图对技术方案进行清楚、完整地描述,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0041]
请参阅图1,一种面向能源行业的时序数据规范化治理方法,依托数据采集平台、数据存储管理平台和数据分析治理平台实现。时序数据采集从实时历史数据库或集控系统采集,数据存储管理平台包括mysql库、时序库、hbase、redis等。源端数据通过时序采集任务实时采集到kafka中间件,然后配置数据存储任务从kafka采集保存到时序库、hbase库及redis,在落库的同时执行训练后的机器学习数据质量稽核算子任务进行数据质量稽核,并将稽核结果保存到关系库。
[0042]
本实施例中,本发明提供一种面向能源行业的时序数据规范化治理方法,即一种在线数据质量稽核方法,通过使用遗传算法、神经网络和回归分析的方法配置算法模型来实现。
[0043]
首先构建模型训练使用的样本库,从时序库和hbase从抽取时序历史数据,按照机组1、机组2和温度类数据、压力类数据和液位类数据等进行分类,并对这些历史数据进行打标签,建立包括数据质量正常、数据中断和数据死值的样本库,按数据比例或时间比例8:2分为训练库和测试库,供模型训练使用。
[0044]
对样本数据进行遗传算法的模型训练,并评估模型准确性;
[0045]
对样本数据进行神经网络算法的模型训练,并评估模型准确性;
[0046]
对样本数据进行回归分析算法的模型训练,并评估模型准确性;
[0047]
对机组温度类数据选择准确度最好的算法模型,对机组压力类、液位类数据分别选出最准确的算法模型,然后将能源工业互联网平台的实时时序数据代入训练模型中计算出面向时序数据的质量稽核结果。通过在计算机上执行计算机程序,来实现如上算法模型并实时得到质量稽核结果。
[0048]
本实施例中,以上所述仅为本发明的优选实施方式,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1