一种特种设备全过程数据治理的方法与流程

文档序号:31121025发布日期:2022-08-13 00:54阅读:54来源:国知局
1.本发明属于数据处理方法
技术领域
:,具体地说是一种特种设备全过程数据治理的方法。
背景技术
::2.特种设备档案数据主要来源于人工输入,数据量达到百万级别;因法规变更、行政区划变更等因素,作为管理对象的唯一标识等也存在多次变化,导致数据和实际情况不一致的现象出现。目前没有存在对这些数据进行联动治理的方法和机制,未发现特种设备档案数据治理相关的技术和应用,故而我们研发了一种特种设备全过程数据治理的方法。技术实现要素:3.本发明提供一种特种设备全过程数据治理的方法,用以解决现有技术中的缺陷。4.本发明通过以下技术方案予以实现:1、一种特种设备全过程数据治理的方法,包括数据准备阶段、数据检测阶段和数据治理阶段;数据准备阶段包括以下步骤:(1)对档案数据进行规范化预处理;(2)对档案数据进行标注,先将档案数据中的结构化数据转化为标签数据,再对标签数据中错位的字段进行校正;(3)将标签与数据存储在一起,形成供本方法算法使用的统一数据结构;数据检测阶段包括以下步骤:(4)对设备主体检测,设备主体包括使用登记证编号、设备注册代码、设备出厂编号,甄别标签数据中使用登记证编号、设备注册代码、设备出厂编号对应的字段存在相同或相似的情况,并着色为设备主体异常;(5)对单位主体检测,单位主体包括生产单位、使用单位、维保单位,甄别同一组数据中生产单位、使用单位、维保单位对应的字段出现两者相同或相似的情况,并着色为单位主体异常;(6)对生命周期属性检测,生命周期属性包括对制造日期、安装日期、安装监检日期、注册日期、重大维修日期、报废日期,对制造日期、安装日期、安装监检日期、注册日期、重大维修日期、报废日期进行比较,存在不符合规则的数据着色标记为生命周期属性异常;(7)对属性离群点检测,离群点检测采用正态分布的一元离群点算法检测,当属性出现离群点情况时,属性离群点着色为属性离群点异常;(8)对属性标准检测,属性标准包括但不限于身份证号、统一社会信用代码、性别等在国家、行业、地方、团体标准有明确规范的属性,按照标准文本中相关约束的信息进行检测,对不符合约标准束信息的,着色为属性标准异常;(9)对检验检测数据检测,检验检测数据包括下次检验日期、设备状态,当下次检验日期、设备状态异常时,标记检验检测数据异常;(10)对维保数据检测,维保数据包括下次维保日期、维保合同结束日期、维保状态,下次维保日期、维保合同结束日期或维保状态异常时,标记检验检测数据异常;(11)数据着色,对于所有经过步骤(4)、(5)、(6)、(7)、(8)、(9)、(10)的数据进行计算,计算公式为:n为参与检测的插件数量,ai为检测插件对应的权重值,i为插件变量,fn(i)为检测插件对被检测数据的评估值;数据治理阶段根据数据着色阶段,按照色度从大到小依次进行治理;治理过程需人工参与的系统依据检测规则推送到对应的人员;数据治理阶段包括以下步骤:(12)主体识别,对步骤(4)、(5)中的着色异常的数据,进行归并;并按照数据记录的时间点进行从近到远排序,时间点最近的数据为根,其他数据挂载到该数据下;对于不符合标准的编码,系统内的可附加推荐编码,对于系统外的编码进入人工阶段;(13)校对推荐,对于步骤(6)、(7)、(8)中的着色异常的数据,可对时间点进行校对推荐;(14)检验检测数据合并,对检验时间、检验报告编号、检测时间、检测报告编号的数据进行年代号包含性校对,对不一致的数据推送至人工;(15)维保数据合并,对维保数据的维保时间、下次维保时间、维保编号进行日期包含性校对,对不一致的数据推送至人工。5.如上所述的一种特种设备全过程数据治理的方法,所述数据检测阶段还包括软件化插件检测。6.如上所述的一种特种设备全过程数据治理的方法,所述数据治理阶段还包括扩展治理插件机制。7.本发明的优点是:本算法采用了将多种数据异常判定方法组合形成数据异常识别,并进行着色和治理,使特种设备数据档案实现从人工录入、人工管理进入到自动化的数据评价、治理阶段。能够有效的避免一台设备多条记录,档案数据不合理,避免不同层次人员进行管理时出现各种数据错误,为特种设备档案数据及监管提供准确数据。附图说明8.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。9.图1为本发明优选实施例的流程图。具体实施方式10.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。11.一种特种设备全过程数据治理的方法,如图所示,包括数据准备阶段、数据检测阶段和数据治理阶段;数据准备阶段包括以下步骤:(1)对档案数据进行规范化预处理,将中文大括号、小括号、横杠、全角英文等格式处理成统一的半角格式;(2)对档案数据进行标注,先将档案数据中的结构化数据转化为标签数据,再对标签数据中错位的字段进行校正;标注前,档案数据采用结构化数据库进行存储,如mysql、oracle等数据库,档案数据以table(表)、view(视图)的形式存在,本步骤,将结构化数据的表字段、视图字段,以实体和业务标签的形式进行描述,可直接将数据转化为标签数据,如档案表a:档案表a形成标签数据后,由于人工等原因,原始数据库中的实际数据存在录入错位等形式,本阶段通过识别设备登记证编号、设备注册代码等具有核心业务意义的字段进行二次标注;如档案表b中的b组数据对应的字段为输入错误,导致数据库字段存储错乱:档案表b档案表b中b组数据记录的使用登记证编号和设备注册代码是颠倒的,根据业务规则检测后(业务规则为特种设备代码编号方法,该方法为标准方法,不再详细赘述),使档案表b中b组数据记录的使用登记证编号和设备注册代码进行互换,如档案表c所示档案表c(3)将数据与标签存储在一起,形成供本方法算法使用的统一数据结构,并采用节点、属性和关系的图数据结构描述;数据检测阶段包括以下步骤:数据检测分为设备主体检测、单位主体检测、生命周期属性检测、属性离群点检测、属性标准检测、检验检测数据检测、维保数据检测,每类检测实现一个着色函数,记为fn(i);(4)对设备主体检测,设备主体包括使用登记证编号、设备注册代码、设备出厂编号,甄别标签数据中使用登记证编号、设备注册代码、设备出厂编号对应的字段存在相同或相似的情况,并着色为设备主体异常;在档案数据中存在多条记录对应1条设备的情况,通过以下规则进行甄别:①使用登记证编号相同或相近,相近判断规则为如果存在使用登记证编号小于位数的,查看是否包含该使用登记证编号的记录,如abc和eabcd,则abc与eabcd相同;②设备注册代码相同或者相近,判定同上;③同一使用单位下出厂编号相同;存在以上问题的对相关记录进行设备主体异常着色阶段;(5)对单位主体检测,单位主体包括生产单位、使用单位、维保单位,甄别同一组数据中生产单位、使用单位、维保单位对应的字段出现两者相同或相近的情况,并着色为单位主体异常;当单位发生变更或者输入不规范时,通过注册地点、名称近似度算法进行排序,对单位名称进行分类,相似度达到90%上归为同类,每类中超过2个,则着色为单位主体异常;(6)对生命周期属性检测,生命周期属性包括对制造日期、安装日期、安装监检日期、注册日期、重大维修日期、报废日期,对制造日期、安装日期、安装监检日期、注册日期、重大维修日期、报废日期进行比较,存在不符合规则的数据着色标记为生命周期属性异常;比较规则为制造日期《=安装日期《=安装监检日期《=注册日期《=重大维修日期《=报废日期;(7)对属性离群点检测,属性离群点检测采用正态分布的一元离群点算法检测,当属性出现离群点情况时,属性离群点楼层数着色为属性离群点异常;对于数值型属性,如电梯层数,进行离群点检测,离群点检测采用正态分布的一元离群点算法检测,一般认定如果某点距离估计的分布均值超过3σ,就被认为是离群点;例如数据正常分布范围为6-50,但是存在很多异常小0.6、异常大500的数据,则异常小和异常大的数据着色为属性离群点;(8)对属性标准检测,属性标准如身份证号、统一社会信用代码、性别,数据中存在身份证号、统一社会信用代码、性别在标准文本中相关约束的信息,采用标准中的算法对数据中的身份证号、统一社会信用代码、性别进行有效性验证,对不符合约标准束信息的,着色为属性标准异常;(9)对检验检测数据检测,检验检测数据包括下次检验日期、设备状态,当下次检验日期或设备状态异常时,标记检验检测数据异常,如果设备状态正常、但下次检验日期小于当前日期的标记检验检测数据异常;(10)对维保数据检测,维保数据包括下次维保日期、维保合同结束日期、维保状态,当下次维保日期小于当前日期、维保合同结束日期小于当前日期,维保状态为正常时,标记检验检测数据异常;(11)数据着色,对于所有经过步骤(4)、(5)、(6)、(7)、(8)、(9)、(10)的数据进行计算,计算公式为:n为参与检测的插件数量,ai为检测插件对应的权重值,i为插件变量,fn(i)为检测插件对被检测数据的评估值;数据治理阶段根据数据着色阶段,按照色度从大到小依次进行治理;治理过程需人工参与的系统依据检测规则推送到对应的人员;数据治理阶段包括以下步骤:(12)主体识别,对步骤(4)、(5)中的着色异常的数据,进行归并;并按照数据记录的时间点进行从近到远排序,时间点最近的数据为根,其他数据挂载到该数据下;对于不符合标准的编码,系统内的可附加推荐编码,对于系统外的编码进入人工阶段;(13)校对推荐,对于步骤(6)、(7)、(8)中的着色异常的数据,可对时间点进行校对推荐;(14)检验检测数据合并,对检验时间、检验报告编号、检测时间、检测报告编号的数据分别进行年代号包含性校对,对不一致的数据推送至人工;(15)维保数据合并,对维保数据的维保时间、下次维保时间、维保编号进行日期包含性校对,对不一致的数据推送至人工;档案数据经过治理后会产生新的数据版本,数据版本化可记录更改历史,便于找回历史数据。12.具体而言,如图所示,本实施例所述数据检测阶段还包括软件化插件检测,如行政处罚检测、安全事故检测等。13.具体的,如图所示,本实施例所述数据治理阶段还包括扩展治理插件机制,通过扩展处理接口进行行政处罚检测、安全事故检测治理。14.最后应说明的是:本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1