一种数据清洗方法及装置的制造方法

文档序号:9708357阅读:376来源:国知局
一种数据清洗方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机领域中数据处理技术,尤其涉及一种数据清洗方法及装置。
【背景技术】
[0002]随着科技的进步、计算机技术的飞速发展,人们可以获得越来越多的数字信息,同时也需要投入更多的时间对信息进行组织和整理。而在对数据进行统计分析之前,需要将数据中的脏数据,即噪声数据过滤掉,以确保统计的准确性。数据清洗是一个检测和消除数据库中数据的错误和不一致,改善数据质量的过程,其原理是利用相关技术将数据转化为满足数据质量要求的数据。
[0003]然而,在现有数据清洗的相关技术中,至少存在以下问题:1)相关技术主要针对实时历史数据库进行处理,对于非实时性历史数据适用性不高;2)相关技术对关联性不高的数据清洗效率低;3)相关技术在清洗过程仅适用于样本数据,无法实现对海量数据的清洗。

【发明内容】

[0004]有鉴于此,本发明实施例期望提供一种数据清洗方法及装置,能够准确地发现数据质量问题,并有效地完成数据的清洗。
[0005]为达到上述目的,本发明的技术方案是这样实现的:
[0006]本发明实施例提供了一种数据清洗方法,所述方法包括:
[0007]获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;
[0008]查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;其中,M为正整数;
[0009]利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。
[0010]上述方案中,所述获取待清洗数据之后,所述方法还包括:将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库。
[0011]上述方案中,所述依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段包括:
[0012]获取指定时间段内所述待清洗数据的任一字段中噪声数据值出现的概率P,P =m/n ;其中,m为所述指定时间段内噪声数据值出现的次数,η为所述指定时间段内数据记录的总数;
[0013]确定所述概率P的值大于预设阈值P。时,标记所述噪声数据所属字段为待清洗字段。
[0014]上述方案中,所述对所述可扩维字段进行高阶张量扩维,获得M个张量字段集包括:
[0015]利用张量分解算法依次对所述可扩维字段进行高阶张量扩维,获得多个张量字段,并依据字段语义相似度将所述多个张量字段分类为M个张量字段集。
[0016]上述方案中,所述利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗包括:
[0017]对所述待清洗字段进行语义分析,依据字段类别获取所述张量字段集中与所述待清洗字段对应的张量字段集,并进一步获取所述张量字段集中与所述待清洗字段相关的张量字段,利用所述张量字段对所述待清洗字段进行数据清洗。
[0018]本发明实施例还提供了一种数据清洗装置,所述装置包括:获取模块、处理模块及数据清洗模块;其中,
[0019]所述获取模块,用于获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;
[0020]所述处理模块,用于查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;其中,M为正整数;
[0021]所述数据清洗模块,用于利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。
[0022]上述方案中,所述装置还包括:录入模块,用于将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库。
[0023]上述方案中,所述获取模块,具体用于获取指定时间段内所述待清洗数据的任一字段中噪声数据值出现的概率P ;P = m/n ;其中,m为所述指定时间段内噪声数据值出现的次数,η为所述指定时间段内数据记录的总数;
[0024]确定所述概率P的值大于预设阈值P。时,标记所述噪声数据所属字段为待清洗字段。
[0025]上述方案中,所述处理模块,具体用于利用张量分解算法依次对所述可扩维字段进行高阶张量扩维,获得多个张量字段,并依据字段语义相似度将所述多个张量字段分类为M个张量字段集。
[0026]上述方案中,所述数据清洗模块,具体用于对所述待清洗字段进行语义分析,依据字段类别获取所述张量字段集中与所述待清洗字段对应的张量字段集,并进一步获取所述张量字段集中与所述待清洗字段相关的张量字段,利用所述张量字段对所述待清洗字段进行数据清洗。
[0027]本发明实施例所提供的数据清洗方法及装置,获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。如此,通过对所述待清洗数据中噪声数据分布的分析,准确地获得普通数据清洗规则和检测方法无法发现的存在质量问题的字段,并基于高阶张量扩维有效地完成对海量数据、非实时历史数据或关联性不高的数据的清洗。
【附图说明】
[0028]图1为本发明实施例一数据清洗方法流程示意图;
[0029]图2为本发明实施例二数据清洗方法流程示意图;
[0030]图3为本发明实施例数据清洗装置组成结构示意图。
【具体实施方式】
[0031 ] 在本发明实施例中,获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗;其中,M为正整数。
[0032]图1为本发明实施例一数据清洗方法流程示意图,如图1所示,本实施例数据清洗方法流程包括:
[0033]步骤101:获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;
[0034]本步骤可以由服务器中的获取模块实现;
[0035]本步骤之前,所述方法还包括:分析数据源,并依据数据特征建立数据库;
[0036]这里,所述数据特征可以包括:字段数目、字段类型、字段属性、字段语义等。
[0037]进一步的,所述获取待清洗数据之后,依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段之前,所述方法还包括:
[0038]将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库;
[0039]这里,所述对所述数据库进行优化包括:修复将所述待清洗数据录入所述数据库中时产生的问题,比如:数据表的长度不够等问题;
[0040]所述得到原始数据库为:所述数据库中已完全录入所述待清洗数据。
[0041]进一步的,所述获取待清洗数据包括:利用数据库管理工具,从所述数据源获取待清洗数据;
[0042]所述依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段包括:
[0043]获取指定时间段所述待清洗数据的任一字段中噪声数据值出现的概率P,P = m/η ;其中,m为所述指定时间段内噪声数据值出现的次数,η为所述指定时间段内数据记录的总数;
[0044]确定所述概率P的值大于预设阈值P。时,标记所述噪声数据所属字段为待清洗字段;
[0045]其中,所述噪声数据值可以包括:缺失值、错误值及不一致值等;
[0046]所述指定时间段为依据实际需要设定的时间段,可以为一或几天、一个或几个月、一个或几个季度等;如2014年9月10日至2014年9月15日;
[0047]所述预设阈值P。可以依据实际需要进行设定,具体可以依据对数据清洗的目标质量来确定。
[0048]步骤102:查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;
[0049]本步骤可以由服务器中的处理模块实现;
[0050]这里,所述可扩维字段为对所述字段扩维后可得到更多信息的字段;如:imei号字段;
[0051]所述查找所述待清洗数据中可扩维字段包括:
[0052]将所述待清洗数据中的字段与预设可扩维字段库中可扩维字段进行匹配,获取所述待清洗数据中可扩维字段;
[0053]所述对所述可扩维字段进行高阶张量扩维,获得M个张量字段集包括:
[0054]利用张量分解算法Tucker依次对所述可扩维字段进行高阶张量扩维,获得多个张量字段,并依据字段语义相似度将所述多个张量字段分类为M个张量字段集;M为正整数;
[0055]其中,所述张量字段为:所述可扩维字段经高阶张量扩维后,分解成的多个维度上的因子矩阵;如:对imei号字段
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1