一种数据清洗方法及装置的制造方法_3

文档序号:9708357阅读:来源:国知局
中已完全录入所述待清洗数据。
[0118]进一步的,所述获取模块31获取待清洗数据包括:所述获取模块31利用数据库管理工具,通过所述数据源获取待清洗数据。
[0119]进一步的,所述获取模块31依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段包括:
[0120]所述获取模块31获取指定时间段所述待清洗数据的任一字段中噪声数据值出现的概率P ;P = m/n ;其中,m为所述指定时间段内噪声数据值出现的次数,η为所述指定时间段内数据记录的总数;
[0121]确定所述概率P的值大于预设阈值P。时,标记所述噪声数据所属字段为待清洗字段;
[0122]其中,所述噪声数据值可以包括:缺失值、错误值及不一致值等;
[0123]所述指定时间段为依据实际需要设定的时间段,可以为一或几天、一个或几个月、一个或几个季度等;如2014年9月10日至2014年9月15日;
[0124]所述预设阈值P。可以依据实际需要进行设定,具体可以依据对数据清洗的目标质量来确定。
[0125]进一步的,所述处理模块32对所述可扩维字段进行高阶张量扩维,获得M个张量字段集包括:
[0126]所述处理模块32利用张量分解算法依次对所述可扩维字段进行高阶张量扩维,获得多个张量字段,并依据字段语义相似度将所述多个张量字段分类为M个张量字段集;Μ为正整数;
[0127]其中,所述张量字段为:所述可扩维字段经高阶张量扩维后,分解成的多个维度上的因子矩阵;如:对imei号字段进行高阶张量扩维后得到的生产厂家mobile^endor、用户终端类型mobile_type等张量字段;
[0128]所述可扩维字段为对所述字段扩维后可得到更多信息的字段;如:imei号字段;
[0129]所述依据字段语义相似度将所述多个张量字段分类为M个张量字段集包括:
[0130]依据字段语义计算所述张量字段之间的相似度,将相似度大于相似度预设阈值的张量字段组合为一个张量字段集,进而将所述多个张量字段分类为M个张量字段集;
[0131]其中,所述相似度预设阈值可以为0.5,所述相似度的范围为(0,1);
[0132]这里,所述字段语义为字段本身的含义;
[0133]所述张量字段集可以为:流量相关的张量字段集或终端相关的张量字段集;例如:终端相关的张量字段集包括:终端类型、生产厂家、产地等张量字段。
[0134]进一步的,所述数据清洗模块33利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗包括:
[0135]所述数据清洗模块33对所述待清洗字段进行语义分析,依据字段类别获取所述张量字段集中与所述待清洗字段对应的张量字段集,并进一步获取所述张量字段集中与所述待清洗字段相关的张量字段,利用所述张量字段对所述待清洗字段进行数据清洗;
[0136]其中,所述字段类别可以为字段属性;如:与流量相关的张量字段集或与终端相关的张量字段集;
[0137]所述张量字段集中与所述待清洗字段相关的张量字段可以为:所述张量字段集中与所述待清洗字段语义基本一致的张量字段;如:与所述待清洗字段表示同一个属性的张量字段,如均为用户终端类型mobile_type ;
[0138]或者,与所述待清洗字段存在函数依赖关系的张量字段,如待清洗字段X依赖于所述张量字段集中张量字段Y ;
[0139]所述数据清洗模块33利用所述张量字段对所述待清洗字段进行数据清洗包括:
[0140]所述数据清洗模块33利用与待清洗字段语义基本一致的张量字段填充所述待清洗字段的空缺值、修复错误值,并利用与所述待清洗字段具有函数依赖关系的张量字段修复不一致值。
[0141]进一步的,所述装置还包括更新模块36,用于将清洗后的数据更新至数据库并记录清洗日志;
[0142]这里,所述清洗日志包括:清洗时间、原始数据、清洗操作、清洗后数据、记录人等;
[0143]其中,清洗时间为执行数据清洗的具体时间;所述原始数据为清洗前数据;所述清洗操作为对待清洗数据的具体清洗操作,如:删除、修改等;
[0144]记录清洗日志,以便于后续对数据进行质量分析及还原原始数据等。
[0145]在本发明实施例中,所述数据清洗装置可位于服务器中,所述获取模块31、处理模块32、数据清洗模块33、录入模块34、建立模块35及更新模块36均可由服务器中的中央处理器(CPU, Central Processing Unit)、或数字信号处理器(DSP, Digital SignalProcessor)、或现场可编程门阵列(FPGA, Field Programmable Gate Array)实现。
[0146]以上所述,仅为本发明较佳实施例而已,并非用于限定本发明的保护范围。
【主权项】
1.一种数据清洗方法,其特征在于,所述方法包括: 获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段; 查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;其中,M为正整数; 利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。2.根据权利要求1所述方法,其特征在于,所述获取待清洗数据之后,所述方法还包括:将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库。3.根据权利要求1或2所述方法,其特征在于,所述依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段包括: 获取指定时间段内所述待清洗数据的任一字段中噪声数据值出现的概率P,P = m/n ;其中,m为所述指定时间段内噪声数据值出现的次数,η为所述指定时间段内数据记录的总数; 确定所述概率P的值大于预设阈值Pc时,标记所述噪声数据所属字段为待清洗字段。4.根据权利要求1或2所述方法,其特征在于,所述对所述可扩维字段进行高阶张量扩维,获得M个张量字段集包括: 利用张量分解算法依次对所述可扩维字段进行高阶张量扩维,获得多个张量字段,并依据字段语义相似度将所述多个张量字段分类为M个张量字段集。5.根据权利要求1或2所述方法,其特征在于,所述利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗包括: 对所述待清洗字段进行语义分析,依据字段类别获取所述张量字段集中与所述待清洗字段对应的张量字段集,并进一步获取所述张量字段集中与所述待清洗字段相关的张量字段,利用所述张量字段对所述待清洗字段进行数据清洗。6.一种数据清洗装置,其特征在于,所述装置包括:获取模块、处理模块及数据清洗模块;其中, 所述获取模块,用于获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段; 所述处理模块,用于查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;其中,M为正整数; 所述数据清洗模块,用于利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。7.根据权利要求6所述装置,其特征在于,所述装置还包括:录入模块,用于将所述待清洗数据录入建立的数据库中,并对所述数据库进行优化,得到原始数据库。8.根据权利要求6或7所述装置,其特征在于,所述获取模块,具体用于获取指定时间段内所述待清洗数据的任一字段中噪声数据值出现的概率P ;P = m/n ;其中,m为所述指定时间段内噪声数据值出现的次数,η为所述指定时间段内数据记录的总数; 确定所述概率P的值大于预设阈值Pc时,标记所述噪声数据所属字段为待清洗字段。9.根据权利要求6或7所述装置,其特征在于,所述处理模块,具体用于利用张量分解算法依次对所述可扩维字段进行高阶张量扩维,获得多个张量字段,并依据字段语义相似度将所述多个张量字段分类为M个张量字段集。10.根据权利要求6或7所述装置,其特征在于,所述数据清洗模块,具体用于对所述待清洗字段进行语义分析,依据字段类别获取所述张量字段集中与所述待清洗字段对应的张量字段集,并进一步获取所述张量字段集中与所述待清洗字段相关的张量字段,利用所述张量字段对所述待清洗字段进行数据清洗。
【专利摘要】本发明公开了一种数据清洗方法,获取待清洗数据,并依据对所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中待清洗字段;查找所述待清洗数据中可扩维字段,并对所述可扩维字段进行高阶张量扩维,获得M个张量字段集;利用所述张量字段集中与所述待清洗字段相关的张量字段对所述待清洗字段进行数据清洗。本发明还同时公开了一种数据清洗装置。
【IPC分类】G06F17/30
【公开号】CN105468658
【申请号】CN201410503126
【发明人】廖振松, 熊胜, 吴勤华, 杨晶蕾, 冯文仲, 沈力, 黄艳, 田纪军, 莫益军, 曾志华
【申请人】中国移动通信集团湖北有限公司
【公开日】2016年4月6日
【申请日】2014年9月26日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1