一种实时数据中心数据质量监测考核方法

文档序号:10612915阅读:1170来源:国知局
一种实时数据中心数据质量监测考核方法
【专利摘要】本发明公开了一种实时数据中心数据质量监测考核方法,步骤包括:1)获取电能表编码;2)获取测点及数据;3)数据考核监测。本发明实时数据中心数据质量监测考核方法可以方便快捷的计算出测点的完整率、数据的完整率、数据的非空率、数据的及时率以及监测数据质量。分析人员也可以及时准确的获取用电信息采集数据指标并进行处理,发现问题更加的及时和准确,对提升公司线损管理、计量采集系统建设等具有积极作用,与此同时也为公司两级运监中心开展在线监测提供了有效手段,以往运营中心的监测空白也得以填补。对电网公司来说,是一个必不可少的选择。
【专利说明】
一种实时数据中心数据质量监测考核方法
【技术领域】
[0001]本发明涉及电网运营监测领域,特别是一种实时数据中心数据质量监测考核方法。
【【背景技术】】
[0002]电网企业实时数据中心是对电力生产运行过程中各业务及应用生成的历史/准实时数据进行按需存储、整合、共享交换和计算加工的场所,同时提供对数据进行统一标准访问的服务,是为智能电网各业务应用一一特别是跨专业跨部门的综合类业务应用在历史/准实时数据层面提供全面支撑的信息基础设施。目前,电网企业实时数据中心(如国家电网的海量历史/准实时数据管理平台,南方电网的海量准实时数据服务平台)经过多年的建设,基本已经建设完成,但是实时数据中心中数据的完整性(如指定设备的采集时序数据是否接全)、及时性(如采集时序数据是否在指定的时间延迟内接入实时数据中心)等数据质量问题普遍存在,迫切需要相关工具对整个实时数据中心的数据质量进行监测和考核,提升整个数据中心采集数据的数据质量,更好的支撑实时数据中心的实用化,为实时数据业务应用提供更全、更准、更及时的实时数据。

【发明内容】

[0003]针对现有技术中存在的问题,本发明提供了一种实现对实时数据中心测点完整率、数据值非空率、数据条目完整率、数据接入及时率等进行监测与考核,辅助运维人员发现数据质量问题进而跟踪解决,以此提升实时数据中心平台的数据质量,为实时数据业务应用提供更好的支撑的实时数据中心数据质量监测考核方法。
[0004]为达到前述目的,本发明采用如下技术方案:一种实时数据中心数据质量监测考核方法,其特征在于步骤包括:
[0005]获取电能表编码:营销档案信息存储于营销基础数据平台关系库中,通过JDBC连接营销基础数据平台中的Oracle关系数据库,执行相关SQL语句获取电能表编码;
[0006]获取测点及数据:在实时数据中心,命名规范包括省代码、子控制区码、数据源码、量测类型码命名,从营销基础数据平台关系库获取表计档案数据,依据命名规范,拼接成测点名字,通过调用UAPI接口连接到实时数据中心实现数据获取;
[0007]数据考核监测:基于获取的实时数据,实现对关键数据质量指标的监测,通过POI生成的数据质量统计Excel表格,Log4j生成的日志文件考察具体数据质量,所述的具体数据质量指标包括但不限制于:核测点完整率、数据值非空率、数据条目完整率、数据接入及时率。
[0008]本发明的第二优选方案为,所述的测点完整率计算方式:
[0009]测点完整率中分母是营销基础数据平台关系库中档案表的电能表编码记录数,分子是依据电能表编码为测点名中数据源内部码在实时数据中心中搜索到的测点个数,遍历区间为实时数据库中全部时间区间;
[0010]所述的测点数据值非空率计算方式:每个数据项数据值非空率中分母是已接入测点个数;分子是已接入测点中昨天有值的个数;
[0011 ]所述的数据条目完整率计算方式:数据条目完整率=昨天数据条目完整率*50 % +前天数据条目完整率*50 % ;每个数据项昨天数据条目完整率中分母是所有应接入测点数乘以该项对应的频率:1或者96;分子是在库中遍历已接入测点前天的总数据条目;
[0012]所述的数据及时率的计算方式:数据及时率=昨天数据及时率*50%+前天数据及时率*50%;每个数据项昨天数据及时率中分母是已接入测点数乘以相应频率;分子是规定时间已接入测点数据条目个数;所述的具体数据质量的考核方式:
[0013]数据考核方法随机考核测点数据的质量,若电能表编码对应的测点及数据都是非空的,随机抽取N条电能表编码,通过Log4j打印日志文件,所述日志文件中包括获取到的N条电能表编码对应的测点及数据。
[0014]相比于现有技术,本发明的优点在于:实时数据中心数据质量监测考核方法可以方便快捷的计算出测点的完整率、数据的完整率、数据的非空率、数据的及时率以及监测数据质量。分析人员也可以及时准确的获取用电信息采集数据指标并进行处理,发现问题更加的及时和准确,对提升线损管理、计量采集系统建设等具有积极作用,与此同时也为两级运监中心开展在线监测提供了有效手段,以往运营中心的监测空白也得以填补。对公司而言,是一个必不可少的选择
[0015]本发明的这些特点和优点将会在下面的【具体实施方式】、附图中详细的揭露。
【【附图说明】】
[0016]下面结合附图对本发明做进一步的说明:
[0017]图1为本发明实施例1的系统架构示意图。
【【具体实施方式】】
[0018]下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本发明的保护范围。
[0019]实施例1。
[0020]参看图1,一种实时数据中心数据质量监测考核方法的系统架构图包括据层、通信层、业务逻辑层、表现层。数据层包括营销基础数据平台关系数据库和实时数据中心。通信层包括JDBC、SQL语句和UAPI接口。业务逻辑层包括数据质量考核工具。表现层包括log4j生成的日志文件和POI生成的Excel表格。
[0021 ]具体实现数据高效考核的方法分为三个步骤:
[0022]步骤一:获取电能表编码
[0023]营销档案信息存储于营销基础数据平台关系库中,通过JDBC连接营销基础数据平台关系库(Oracle关系数据库),执行相关SQL语句获取电能表编码。
[0024]步骤二:获取测点及数据
[0025]在实时数据中心,测点命名一般采用[大区代码].[子控制区码].[数据源码].[量测类型码]命名,如JS.NJ.PIAS.100001,100001的正向总读数。通过程序从营销基础数据平台关系库中获取表计档案数据,依据命名规范,拼接成测点名字,通过调用UAPI接口连接到实时数据中心实现数据获取。
[0026]步骤三:数据考核监测
[0027]基于获取的实时数据,实现对关键数据质量指标的监测。通过POI生成的数据质量统计Excel表格,通过EXCEL内置公式实现对数据进行处理。在生成的表格中可以查看到计算好的相关数据质量指标。Log4j生成的日志文件可考察具体数据质量。具体的数据质量指标包括但不限制于:核测点完整率、数据值非空率、数据条目完整率、数据接入及时率等。
[0028](I)测点完整率计算方式:
[0029]测点完整率中分母是营销基础数据平台关系库中档案表的电能表编码(记录数(应接入测点个数);分子是依据电能表编码为测点名中数据源内部码在实时库中搜索到的测点个数(已接入测点数),遍历区间为实时库中全部时间区间。
[0030](2)测点数据值非空率计算方式:
[0031]每个数据项数据值非空率中分母是已接入测点个数;分子是已接入测点中昨天有值的个数。
[0032](3)数据条目完整率计算方式:
[0033]数据条目完整率=昨天数据条目完整率*50%+前天数据条目完整率*50%;
[0034]每个数据项昨天数据条目完整率中分母是所有应接入测点数乘以该项对应的频率(I或者96);分子是在库中遍历已接入测点前天的总数据条目;前天数据条目完整率(补传数据条目完整率)类似。
[0035](4)数据及时率的计算方式:
[0036]数据及时率=昨天数据及时率*50%+前天数据及时率*50% ;
[0037]每个数据项昨天数据及时率中分母是已接入测点数乘以相应频率;分子是规定时间(工具运行时间)已接入测点数据条目个数;前天数据及时率(补传数据及时率)类似。
[0038](5)具体数据质量的考核方式:
[0039]该数据考核方法随机考核测点数据的质量。若电能表编码对应的测点及数据都是非空的,那么可随机抽取几条电能表编码,通过Log4 j打印日志文件,可从日志文件中查看到获取到的电能表编码对应的测点及数据,进而可以核对数据是否有误。
[0040]整个数据质量考核的详细流程如下:
[0041]首先获取电能表编码(meterjd),通过电能表编码匹配实时数据库中的测点,根据测点获取数据,进而考核数据质量以及数据是否完整。具体方法方式如下:。
[0042 ]步骤一:从营销基础数据平台关系库中获取电能表编码。
[0043]关系型数据库通常存放稳定的数据类型,并可以保证数据的完整性。该数据考核方法首先要从Oracle数据库中获取到用电信息采集数据的电能表编码。
[0044]步骤二:通过电能表编码匹配实时库中的测点。
[0045]根据步骤一中获取的电能表编码匹配实时数据库中的测点。测点的命名规则是:某大区.字控制区.数据源.电能表编码.测量类型,如JS.NJ.PIAS.110.1a。假使步骤一中获取的电能表编码为110,假设标准电能表采集数据项为34项,实际采集了 33项,那么测点完整率就是33/34。
[0046]步骤三:根据测点计算数据个数并考核数据。
[0047]在实时数据库中,每个测点中都存有每天用电信息采集相应的数据,根据步骤二中获取到的测点,可得到各测点对应的数据值与数据个数。
[0048]若步骤二中电能表编码110匹配了34个测点,测点中每天数据15分钟获取一次,更新频率为96,那么每天应有3264条数据。若遍历昨天实时库全部区间,只获取了3263条数据,昨天数据完整率就为3263/3264;若遍历前天实时数据库区间,获取了 3260条数据,前天数据完整率就为3260/3264 ;可算出数据完整率就为3263/3264*50 % +3260/3264*50 %,约为 99.9%。
[0049]若昨天已接入34个测点中只有31个测点里有数据,那么数据的非空率为31/34;
[0050]若昨天接入的测点数据(已接入测点数乘以相应频率)为3094,规定时间(工具运行时间)已接入测点数据条目个数为3011,那么昨天数据接入及时率应为3011/3094。前天接入的测点数据为3091,规定时间(工具运行时间)已接入测点数据条目个数为3088,那么前天数据接入及时率应为3088/3091。数据及时率就为3011/3094*50%+3088/3091*50%,约为98.6%。
[0051 ]步骤四:具体数据质量考核。
[0052]根据步骤三中查看到测点与数据值都非空,那么可从Log4j生成的日志文件中查看到随机获取的测点数据值,若在日志中查看到2015-08-31 10:15:00的测点数据为832,核对总表实际数据值应为822,那么数据不正确。若核对过后数据值为832,那么数据完全正确。
[0053]Log4j是Apache的一个开放源代码项目,通过使用Log4j,可以控制日志信息输送的目的地是控制台、文件、GUI组件,甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等;也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,能够更加细致地控制日志的生成过程。进一步,这些皆可以通过一个配置文件来灵活地进行配置,而不需要修改应用的代码。
[0054]Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的适应高吞吐量的数据库解决方案。
[0055]JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。
[0056]SQL语言,是结构化查询语言(Structured Query Language)的简称。SQL语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。
[0057]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面【具体实施方式】中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。
【主权项】
1.一种实时数据中心数据质量监测考核方法,其特征在于步骤包括: 获取电能表编码:营销档案信息存储于营销基础数据平台关系库中,通过JDBC连接营销基础数据平台中的Oracle关系数据库,执行相关SQL语句获取电能表编码; 获取测点及数据:在实时数据中心,命名规范包括大区代码、子控制区码、数据源码、量测类型码命名,从营销基础数据平台关系库获取表计档案数据,依据命名规范,拼接成测点名字,通过调用UAPI接口连接到实时数据中心实现数据获取; 数据考核监测:基于获取的实时数据,实现对关键数据质量指标的监测,通过POI生成的数据质量统计Excel表格,Log4j生成的日志文件考察具体数据质量,所述的具体数据质量指标包括但不限制于:核测点完整率、数据值非空率、数据条目完整率、数据接入及时率。2.根据权利要求1所述的一种实时数据中心数据质量监测考核方法,其特征在于, 所述的测点完整率计算方式:测点完整率中分母是营销基础数据平台关系库中档案表的电能表编码记录数,分子是依据电能表编码为测点名中数据源内部码在实时数据中心中搜索到的测点个数,遍历区间为实时数据库中全部时间区间; 所述的测点数据值非空率计算方式:每个数据项数据值非空率中分母是已接入测点个数;分子是已接入测点中昨天有值的个数; 所述的数据条目完整率计算方式:数据条目完整率=昨天数据条目完整率*50 % +前天数据条目完整率*50%;每个数据项昨天数据条目完整率中分母是所有应接入测点数乘以该项对应的频率:1或者96;分子是在库中遍历已接入测点前天的总数据条目; 所述的数据及时率的计算方式:数据及时率=昨天数据及时率*50%+前天数据及时率*50%;每个数据项昨天数据及时率中分母是已接入测点数乘以相应频率;分子是规定时间已接入测点数据条目个数;所述的具体数据质量的考核方式: 数据考核方法随机考核测点数据的质量,若电能表编码对应的测点及数据都是非空的,随机抽取N条电能表编码,通过Log4j打印日志文件,所述日志文件中包括获取到的N条电能表编码对应的测点及数据。
【文档编号】G06F17/30GK105975595SQ201610303298
【公开日】2016年9月28日
【申请日】2016年5月9日
【发明人】楼平, 李贤慧, 陈军, 林瑶, 卢黎明, 季胜鹏, 董科, 徐朋
【申请人】国网浙江省电力公司湖州供电公司, 国家电网公司, 江苏瑞中数据股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1