本发明涉及电网数据处理领域,特别涉及一种电网数据的可用性评估方法及系统。
背景技术:
1、智能电网作为一种新型电力技术是全球电力发展的主要方向,也是电力传输和转换中不可或缺的环节。其具有安全性高、经济性强以及可靠性等特征,同时在系统运行的过程中能够有效降低隐藏在电力运输过程中的潜在风险。在电力信息化深入推进过程中,电力数据规模和数据种类日益增长,涌现出的庞大数据在一定程度上影响着整个电力系统的数据传输和数据存储工作,并且威胁着电网的智能化建设。
2、电网数据涉及发、输、配、变、用全链条上的极多主体,包括电力从产生到用户的传输管理、调度平衡管理、远期规划、系统保护、运维管理、市场交易等,各种与电力相关的生产活动往往都会与电网数据相关联。这些数据具体包括但不限于:智能电表和各种传感器数据、电网边缘的分布式能源(可再生能源、电动汽车等)数据、物联网iot设备数据、变电站自动化数据、资产状况监测数据、配电网数据分析、植被管理数据、用户参与数据、能源预测和能源市场数据、地理空间信息系统数据以及归档管理数据等。
3、电网数据具有以下特点:海量性:电力系统的四通八达使得电网数据规模极为庞大,涉及发、输、配、变、用全链条上的众多主体和环节。多样性:电网数据类型多样,包括但不限于智能电表和各种传感器数据、电网边缘的分布式能源数据、物联网iot设备数据等,而且各种数据之间可能存在复杂的关系。实时性:电网数据实时产生,要求进行实时处理和分析,以支持实时决策和操作。价值密度低:电网数据中存在大量无效和冗余信息,价值密度相对较低。
4、电网数据事关电力系统的安全和稳定运行,对数据的可用性有很高的要求。而由于电网数据的海量性和复杂性,难以利用传统的数据评估模型对其进行数据处理和数据分析,也就无法得到有效的数据可用性评估结果。
技术实现思路
1、有鉴于此,本发明提出了一种电网数据的可用性评估方法及系统,具体方案如下:
2、一种电网数据的可用性评估方法,包括如下:
3、获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
4、结合数据特征和加密方式判定所述测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
5、结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
6、将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将所述第一数据整合成多个数据片段;
7、将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
8、在一个具体实施例中,所述可信度评估包括:
9、将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;
10、若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;
11、若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;
12、若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
13、在一个具体实施例中,通过概率统计模型分析历史数据得到每一数据的常态阈值,所述常态阈值涉及电力设备正常运行时的数据范围;
14、若某一待评估数据不处于对应的常态阈值中,则判定该数据的数据质量评估不符合预期。
15、在一个具体实施例中,溯源数据产生的具体电力设备是否存在;
16、若存在,则依次在历史数据和预设设备列表中核查该数据所对应的电力设备是否合法,并在合法的情况下认定该数据的数据来源符合预期。
17、在一个具体实施例中,将仅与高可信度数据具有相同数据来源或数据格式的数据作为中可信度数据;
18、结合该设备类型的历史数据对中可信度数据或验证集中与所述中可信度数据具备相同数据来源和数据格式的数据进行可信度评估,评估结果符合预期的中可信度数据可调整为高可信度数据。
19、在一个具体实施例中,筛选出所有具备关联关系的待评估数据并按照关联关系划分为多个关联组;
20、若关联组中存在待评估数据之间不符合相应关联关系的,则判定该数据的数据关联关系评估不符合预期。
21、在一个具体实施例中,所述加密方式的判断流程包括:
22、预先获取电网数据中所涉及的所有加密算法;
23、通过分析数据经各种加密算法加密后的包括数据长度、数据字符和数据出现频率在内的数据特征,利用预设数据加密筛选工具基于所述数据特征进行加密数据的筛选。
24、在一个具体实施例中,在所述数据集中,按照时间维度依次分布有同一设备类型所生成的不同数据项;
25、通过分析每一数据项在时间维度上的分布密度设定相应的时间间隔;
26、基于相同的时间间隔、不同的时间起点随机挑选对应时间点下每一数据项中任意一或多个数据,得到测试集和验证集,使测试集和验证集中的数据在时间维度上交错分布。
27、一种电网数据的可用性评估系统,包括如下:
28、预处理单元,用于获取不同电力设备运行过程中所产生的电网数据,并按照设备类型或数据类型对其聚类得到多组数据集,从每组数据集中依次随机挑选样本数据以构建出测试集和验证集;
29、加密检测单元,用于结合数据特征和加密方式判定所述测试集中的每一数据是否为加密数据,并将加密数据作为高可信度数据、非加密数据作为低可信度数据;
30、可信度调整单元,用于结合该设备类型的历史数据对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据分别进行可信度评估,两次评估结果均符合预期的低可信度数据可调整为高可信度数据;
31、数据整合单元,用于将所有高可信度数据以及与高可信度数据具备相同数据来源和数据格式的数据定义为可被信任的第一数据,按照预设任务模型的需求将所述第一数据整合成多个数据片段;
32、数据匹配单元,用于将各数据片段输入相应需求的任务模型进行匹配,并将匹配度符合预期的数据片段列入该任务模型在相应需求下的高可用性数据片段,而匹配度不符合预期的数据片段则在进行修改后重新进行匹配。
33、在一个具体实施例中,在所述可信度调整单元中,具体包括:
34、将低可信度数据作为待评估数据并按照设备类型进行划分,通过分析历史数据计算各设备类型在过去出现不可信数据的概率得到评估概率;
35、若评估概率为0,则直接认定该设备类型对应的低可信度数据的评估结果符合预期,并将其调整为高可信度数据;
36、若评估概率大于0且小于预设阈值,则分别对低可信度数据以及验证集中与低可信度数据具备相同数据来源和/或数据格式的数据进行包括数据质量、数据来源、数据格式、数据安全以及数据关联性在内的一或多个评估项进行评估,且任一评估项不合格即判定该数据的评估结果不符合预期;
37、若评估概率不小于预设阈值,则直接判定该设备类型对应的低可信度数据的评估结果不符合预期。
38、有益效果:本发明提供了一种电网数据的可用性评估方法及系统,针对微观电网数据,从数据可信度和数据适配度两个方面进行数据可用性评估,在节省算力资源和降低计算量的前提下实现数据质量、数据来源、数据标准化程度、数据安全四个维度的数据筛查,完成电网数据可用性评估,及时发现数据中可能存在的问题,得到可靠而有效的电网数据可用性评估结果,从而保障电网的稳定运行。