专利名称:去隐私化处理方法和装置的制作方法
技术领域:
本发明涉及通信领域中数据仓库隐私数据保护技术,具体地,涉及一种去隐私化处理的方法及装置。
背景技术:
运营商经营分析系统数据仓库集中了运营商各个生产系统的数据,包含了大量的客户隐私数据。对于这些隐私数据的保护,可以借鉴其他行业应用系统的客户隐私数据保护所使用的以下几种技术来实现:基于数据匿名化技术:根据具体情况对部分数据进行匿名化处理,再有条件的发布信息。如:不发布数据的某些域值,对这些数据进行泛化(Generalization)处理,是一种不可逆的处理技术。在隐私披露风险和数据精度间进行折中,有选择的发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。基于数据加密技术:通过数据库产品自带的加密功能或者第三方独立的加密系统,把涉及隐私的客户数据信息通过加密算法转换为不可识别的密文信息。如果需要获取信息的明文信息,可以将其转换为明文,即解密过程。常用的数据加密算法有:对称加密、非对称加密和HASH算法等几种。基于数据失真技术:使敏感数据失真但同时保持某些数据或属性不变的处理方法,例如,采用添加噪声(Adding Noise)、交换(Swapping)等技术对原始数据进行干扰处理,但要求保证处理后的数据仍然可以保持某些统计方面的性质,以便进行数据挖掘等操作。该技术属于一种不可逆的处理,但可在所有添加、交换信息都是记录明确的情况进行有条件的还原。隐私数据保护技术需要在实现保护隐私信息的同时,兼顾对应用程序的价值和系统开销。现有技术中,通常从以下三方面对隐私数据保护技术进行度量评估:1)隐私保护度:通常通过发布数据的披露风险来反映,披露风险越小,隐私保护度越高;2)数据缺损:是数据保护质量的度量,它反映通过隐私保护技术处理后数据的信息丢失程度,数据缺损越高,信息丢失越多,数据利用率越低,具体数据缺损的度量的指标包括:信息缺损(Information Loss)、重构数据与原始数据的相似度等;算法性能:一般利用时间复杂度对算法性能进行度量。依据上述评估方法,主要从隐私保护度、数据缺损度、性能开销等几方面对现有的三类隐私数据保护技术进行对比,对比结果如下表:
权利要求
1.一种去隐私化处理方法,其特征在于,包括: 在由源数据获取的客户隐私数据之中提取索引字段,调用去隐私化映射关系表; 根据所述去隐私化映射关系表中的映射规则,将所述索引字段映射为去隐私化映射关系表中的映射编码,完成对所述客户隐私数据的去隐私化处理。
2.根据权利要求1所述的方法,其特征在于,如果所述去隐私化映射关系表不存在所述索引字段的映射规则,则在所述去隐私化映射关系表中添加该索引字段的映射规则后,再进行映射处理。
3.根据权利要求1或2所述的方法,其特征在于,在所述去隐私化映射关系表泄密时,调用新的去隐私化映射关系表,根据该新的去隐私化映射关系表中的映射规则,将所述索引字段映射为新的映射编码。
4.根据权利要求1或2所述的方法,其特征在于,每经过一段时间调用新的去隐私化映射关系表,根据该新的去隐私化映射关系表中的映射规则,将原索引字段映射为新的映射编码。
5.根据权利要求1或2所述的方法,其特征在于,还包括: 提取经过去隐私化处理的源数据,根据所述去隐私化映射关系表中的映射规则,将所述经去隐私化处理的源数据中的映射编码还原成包含所述客户隐私数据的索引字段。
6.一种去隐私化处理装置,其特征在于,包括: 提取调用模块,用于在由源数据获取的客户隐私数据之中提取索引字段,调用去隐私化映射关系表; 映射模块,用于根据所述去隐私化映射关系表中的映射规则,将所述索引字段映射为去隐私化映射关系表中的映射编码,完成对所述客户隐私数据的去隐私化处理; 关系表存储模块,用于存储去隐私化映射关系表。
7.根据权利要求6所述的装置,其特征在于,还包括: 判断添加模块,用于判断所述去隐私化映射关系表是否存在所述索引字段的映射规贝U,如果所述去隐私化映射关系表不存在所述索引字段的映射规则,则在所述去隐私化映射关系表中添加该索引字段的映射规则。
8.根据权利要求6或7所述的装置,其特征在于, 所述提取调用模块,还用于在所述去隐私化映射关系表泄密时,调用新的去隐私化映射关系表; 所述映射模块,还用于根据该新的去隐私化映射关系表中的映射规则,将所述索引字段映射为新的映射编码。
9.根据权利要求6或7所述的装置,其特征在于, 所述提取调用模块,还用于每经过一段时间调用新的去隐私化映射关系表; 所述映射模块,还用于根据该新的去隐私化映射关系表中的映射规则,将原索引字段映射为新的映射编码。
10.根据权利要求6或7所述的装置,其特征在于,还包括: 提取还原模块,用于提取经过去隐私化处理的源数据,根据所述去隐私化映射关系表中的映射规则,将所述经去隐私化处理的源数据中的映射编码还原成包含所述客户隐私数据的索引字段。
全文摘要
本发明公开了一种去隐私化处理方法及装置,其中,该方法包括在由源数据获取的客户隐私数据之中提取索引字段,调用去隐私化映射关系表;根据去隐私化映射关系表中的映射规则,将索引字段映射为去隐私化映射关系表中的映射编码,完成对客户隐私数据的去隐私化处理。本发明的去隐私化处理方法和装置,去隐私化处理引擎设计在ETL模块中,一方面充分利用ETL模块现有的系统资源,避免占用数据仓库以及数据集市的系统资源;另一方面因为ETL模块是经营分析系统所有数据的统一入口,ETL模块对所有客户隐私数据执行去隐私化处理能够保证所有操作的统一性。
文档编号G06F17/30GK103177007SQ20111043417
公开日2013年6月26日 申请日期2011年12月22日 优先权日2011年12月22日
发明者何鸿凌, 魏春辉, 陶涛, 龙国荣, 陈彰 申请人:中国移动通信集团公司