一种数据清洗方法、系统、数据清洗设备和可读存储介质与流程

文档序号:23305299发布日期:2020-12-15 11:35阅读:173来源:国知局
一种数据清洗方法、系统、数据清洗设备和可读存储介质与流程

本发明涉及计算机技术领域,具体涉及一种数据清洗方法、、系统、数据清洗设备和可读存储介质。



背景技术:

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并检查数据一致性,处理无效值和缺失值等。

工业企业中使用的一些工业设备每天会产生大量的设备数据,这些设备数据包括设备基本信息、设备运行状态数据、设备故障信息等。企业管理方需要通过这些设备数据分析设备的运行情况,进而获悉企业生产情况,或者可以通过分析这些设备数据对设备运行状态进行实时监控以及故障分析、故障预警,所以这些设备数据具有很大的应用价值。但这些设备数据中可能存在一些重复的数据、错误的数据以及一些没有利用价值的数据,为了提高对这些设备数据的分析处理速度,需要对这些数据进行清洗。现有的数据清洗方式为,将获取到的设备数据首先统一发送到服务器端,再经过繁重的程序编码工作,由服务器端根据预设的数据清洗规则对不同类型的数据进行清洗,这种数据清洗方式效率低下,增加了数据清洗的难度。



技术实现要素:

本发明的目的在于提供一种数据清洗方法、系统、数据清洗设备及可读存储介质,通过在工业设备端配置数据清洗装置,实现了数据在设备端的自动清洗,提高了数据清洗效率。

为达此目的,本发明采用以下技术方案:

提供一种数据清洗方法,所述数据清洗方法包括:

将数据清洗装置嵌入到工业设备上,所述数据清洗装置中集成有清洗不同类型的设备数据的清洗策略;

获取所述工业设备产生的待清洗的所述设备数据,并将所述设备数据传递给所述数据清洗装置进行数据清洗;

所述数据清洗装置根据预设的所述清洗策略对不同类型的所述设备数据进行数据清洗;

将清洗后的所述设备数据导出并存储。

作为本发明的一种优选方案,所述数据清洗装置以配置文件或代码块的形式配置到所述工业设备上。

作为本发明的一种优选方案,所述数据清洗装置通过正则表达式模式匹配出所述设备数据对应的数据类型。

本发明还提供了一种数据清洗系统,可实现所述的数据清洗方法,所述数据清洗系统包括:

数据清洗装置配置模块,用于提供给用户将数据清洗装置配置到工业设备中,所述数据清洗装置中集成有清洗不同类型的设备数据的清洗策略;

设备数据获取模块,用于获取所述工业设备产生的待清洗的所述设备数据;

设备数据传递模块,连接所述设备数据获取模块,用于将所获取的所述设备数据传递给所述数据清洗装置进行数据清洗;

数据清洗模块,连接所述设备数据传递模块,用于通过所述数据清洗装置根据预设的所述清洗策略对不同类型的所述设备数据进行数据清洗,得到经数据清洗后的所述设备数据;

清洗数据导出模块,连接所述数据清洗模块,用于提供给所述用户导出清洗后的所述设备数据;

清洗数据存储模块,连接所述数据清洗模块,用于存储清洗后的所述设备数据。

作为本发明的一种优选方案,所述数据清洗装置以代码块或配置文件的形式配置到所述工业设备上。

作为本发明的一种优选方案,所述数据清洗装置通过正则表达式模式匹配出所述设备数据对应的数据类型。

本发明还提供了一种数据清洗设备,所述数据清洗设备包括存储器和与所述存储器耦接的处理器,所述存储器用于存储程序数据,所述处理器执行所述程序数据时可实现所述的数据清洗方法。

本发明另外还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,可实现所述的数据清洗方法。

本发明将针对不同类型的设备数据的数据清洗策略集成在数据清洗装置中,数据清洗装置以代码块或者配置文件的形式保存,用户只需要将数据清洗装置配置到工业设备中,即可实现设备端对设备数据的自动清洗,简化了数据清洗的难度,提高了数据清洗的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例所述的数据清洗方法的步骤图;

图2是本发明一实施例所述的数据清洗系统的系统结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

图1示出了本发明一实施例所述的数据清洗方法的步骤图,如图1所示,该数据清洗方法包括:

将数据清洗装置嵌入到工业设备中,数据清洗装置中集成有清洗不同类型的设备数据的清洗策略;

获取工业设备产生的待清洗的设备数据,并将设备数据传递给数据清洗装置进行数据清洗;

数据清洗装置根据预设的清洗策略对不同类型的设备数据进行数据清洗;

将清洗后的设备数据导出并存储。

为了简化设备端的数据清洗过程,降低人为开发数据清洗程序的复杂度,优选地,数据清洗装置以配置文件或代码块的形式配置到工业设备上。用户只要经过简单的配置,无需复杂的代码编程,即可完成对工业设备的数据清洗功能配置。

获取到工业设备产生的待清洗的设备数据后,数据清洗装置首先需要判断出设备数据的数据类型,然后才能按照预设的清洗策略对不同类型的设备数据进行数据清洗。本发明通过正则表达式模式匹配出设备数据对应的数据类型。

以下对数据类型的匹配过程进行简要阐述:

本实施例中,数据清洗装置可以看作是unix管道的演进,数据网关获取到工业设备产生的设备数据后将每一条记录通过数据清洗装置的unix管道传递给readline命令。readline使用正则表达式模式匹配数据类型,以提取线的一些子串。readline命令将一条记录转换为零条或多条记录。记录是一组命名字段,其中每个字段都有一个或多个值的有序列表。值可以是任何java对象,即,一条记录本质上是一个哈希表,其中每个哈希表项都包含一个string键和一个javaobjects列表作为值。一个字段可以具有多个值,并且任何两个记录都不必使用公共字段名。设备数据无论是结构化数据还是二进制数据都可以传递到本发明实施例提供的数据清洗装置并由其进行数据清洗。按照约定,一条记录可以包含一个名为_attachment_body的可选字段,该字段可以是javajava.io.inputstream或javabyte[]。可以通过设置名为_attachment_mimetype(例如“application/pdf”)和_attachment_charset(例如“utf-8”)和_attachment_name(例如“cars.pdf”)的字段来更详细地表征此类二进制输入数据,这有助于检测和解析设备数据的数据类型。readline命令的输出记录将传递到链中的下一个命令。命令具有布尔返回码,指示数据类型解析成功或失败。

以下对数据清洗装置清洗不同类型的设备数据的方法过程进行阐述:

本发明提供的数据清洗装置中集成有清洗不同类型的设备数据的清洗策略。数据清洗装置将根据解析到的数据类型,运用不同的数据清洗命令(数据清洗策略)对设备数据进行清洗。命令可以访问所有的记录字段,命令可以解析字段、添加字段、删除字段、重命名字段、查找和替换现有字段的值、将一个字段拆分为多个字段、将一个字段拆分为多个值或删除记录。考虑多行输入的情况,一条命令可获取多行输入记录,并将单个记录分为多个输出记录。然后,可以使用正则表达式命令进一步划分命令的输出记录,以将每个单行记录分成多个字段。命令还可以提取、清理、转换、联接、集成或修饰记录。比如,一条命令可将记录与外部数据源(例如本地文件或ipgeo查找表)联接起来。通过此步骤完成对数据的清洗过程。

图2示出了本发明一实施例提供的数据清洗系统,如图2所示,该数据清洗系统包括:

数据清洗装置配置模块1,用于提供给用户将数据清洗装置配置到工业设备中,数据清洗装置中集成有清洗不同类型的设备数据的清洗策略;

设备数据获取模块2,用于获取工业设备产生的待清洗的设备数据;

设备数据传递模块3,连接设备数据获取模块2,用于将所获取的设备数据传递给数据清洗装置进行数据清洗;

数据清洗模块4,连接设备数据传递模块3,用于通过数据清洗装置根据预设的清洗策略对不同类型的设备数据进行数据清洗,得到经数据清洗后的设备数据;

清洗数据导出模块5,连接数据清洗模块4,用于提供给用户导出清洗后的设备数据;

清洗数据存储模块6,连接数据清洗模块4,用于存储清洗后的设备数据。

为便于将数据清洗装置嵌入到工业设备中,以实现设备端的数据清洗功能,优选地,数据清洗装置以代码块或配置文件的形式配置到工业设备上。

数据清洗装置优选通过正则表达式模式匹配出设备数据对应的数据类型。匹配到数据类型后,数据清洗装置根据预设的数据清洗策略对不同类型的设备数据进行清洗。对不同类型的设备数据进行数据清洗的过程在上述的数据清洗方法中作了说明,在此不再赘述。

本发明还提供了一种数据清洗设备,数据清洗设备包括存储器和与存储器耦接的处理器,存储器用于存储程序数据,处理器执行程序数据时可实现上述的数据清洗方法。

本发明另外还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序数据,程序数据在被处理器执行时,可实现上述的数据清洗方法。

综上,本发明将针对不同类型的设备数据的数据清洗策略集成在数据清洗装置中,数据清洗装置以代码块或者配置文件的形式保存,用户只需要将数据清洗装置配置到工业设备中,即可实现设备端对设备数据的自动清洗,简化了数据清洗的难度,提高了数据清洗的效率。

需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1