数据处理方法及装置的制造方法

文档序号:8412526阅读:265来源:国知局
数据处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机领域,具体而言,涉及一种数据处理方法及装置。
【背景技术】
[0002]随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如OLAP (Online Analytical Processing,联机分析处理)、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”,宄其原因,一是缺乏有效的数据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在不同类别的脏数据。它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(如重复)、不遵循引用完整性等。
[0003]现有技术中对数据清洗技术大多是在数据仓库、决策支持、数据挖掘研宄中,对其做一些比较简单的阐述,具体来说,可以通过人工参与的方式来完成;对于小量的文件的清洗,可以使用一些辅助工具(例如:0ffice Excel)来完成。然而,对于人工参与的方式,费时又费力,且清洗出来的数据的质量还不一定准确;对于在对大量的文本文件进行清洗工作,使用辅助工具来完成的话,由于数据数量大,使用类似辅助工具难度大、很难完成。
[0004]针对现有技术中在数据清洗过程中,采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题,目前尚未提出有效的解决方案。

【发明内容】

[0005]本发明提供了一种数据处理方法及装置,以至少解决现有技术中在数据清洗过程中,采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题。
[0006]根据本发明的一个方面,提供了一种数据处理方法,该方法包括:响应于触发的数据处理指令,根据数据处理指令确定数据处理所需使用的规则,其中,数据处理指令中包含有用于指示数据处理所需使用的规则的信息;响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中;根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;输出结果数据临时缓存队列中处理操作完成后的数据。
[0007]可选地,在响应于触发的数据处理指令之前,还包括:预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;以及预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。
[0008]可选地,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中,包括:将待处理数据生成可识别的压缩包文件,压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;将压缩包文件中的数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至待处理缓存队列中,其中,配置文件中包括:第一配置信息,用于将数据文件进行格式校验以清除无效的数据;第二配置信息,用于将数据文件配置为具有唯一标识信息的数据文件。
[0009]可选地,根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列,包括:轮询待处理缓存队列,获取待处理缓存队列中的数据;判断数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作;将对待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。
[0010]可选地,若判断数据处理规则列表中不存在本次数据处理所需使用的规则的信息,将获取的待处理缓存队列中的数据重新放回待处理缓存队列,直至接收到用于指示数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作。
[0011]可选地,输出结果数据临时缓存队列中处理操作完成后的数据,包括:根据系统配置信息列表中的信息,确定结果数据缓存队列配置信息;根据确定的结果数据缓存队列配置信息,确定结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;将结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所需输出的位置。
[0012]可选地,将结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所需输出的位置,包括:轮询结果数据临时缓存队列,获取结果数据临时缓存队列中处理操作完成后的数据;将获取到的结果数据转换成统一的JSON数据,生成结果文件;将生成的结果文件,输出至确定的位置。
[0013]可选地,对待处理缓存队列中的待处理数据进行对应的处理操作,至少包括以下操作之一:数据清洗操作;数据转换操作;归一化操作。
[0014]可选地,系统配置信息列表、数据处理规则列表、待处理缓存队列、以及结果数据临时缓存队列存储在高速缓存中。
[0015]根据本发明的另一方面,提供了一种数据处理装置,该装置包括:响应单元,用于响应于触发的数据处理指令,根据数据处理指令确定数据处理所需使用的规则,其中,数据处理指令中包含有用于指示数据处理所需使用的规则的信息;数据灌入单元,用于响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中;数据处理单元,用于根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;数据输出单元,输出结果数据临时缓存队列中处理操作完成后的数据。
[0016]可选地,该装置还包括:第一配置单元,用于在响应于触发的数据处理指令之前,预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;以及第二配置单元,用于预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。
[0017]可选地,数据灌入单元包括:文件生成模块,用于将待处理数据生成可识别的压缩包文件,压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;解析模块,用于将压缩包文件中的数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至待处理缓存队列中,其中,配置文件中包括:第一配置信息,用于将数据文件进行格式校验以清除无效的数据;第二配置信息,用于将数据文件配置为具有唯一标识信息的数据文件。
[0018]可选地,数据处理单元包括:获取模块,用于轮询待处理缓存队列,获取待处理缓存队列中的数据;第一判断模块,用于判断数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作;存储模块,用于将对待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。
[0019]可选地,该装置还包括:第二判断模块,用于在判定数据处理规则列表中不存在本次数据处理所需使用的规则的信息时,将获取的待处理缓存队列中的数据重新放回待处理缓存队列,直至接收到用于指示数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作。
[0020]可选地,数据输出单元包括:第一确定模块,用于根据系统配置信息列表中的信息,确定结果数据缓存队列配置信息;第二确定模块,用于根据确定的结果数据缓存队列配置信息,确定结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;输出模块,用于将结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所需输出的位置。
[0021]可选地,输出模块包括:获取子模
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1