一种电力营销缺失数据补全方法
【专利摘要】本发明公开一种电力营销缺失数据补全方法。基于电力数据在采集过程中的大量缺失问题进行分析,在对比一般贝叶斯方法和双尺度贝叶斯方法后,对方法进行了综合改进,使其适应于关联关系较弱、而独立性较强的电力营销数据中。同时将该算法用于数据集中进行测试,效果具有一定的提高。后续需要在营销系统中进行海量数据应用,使补全的数据能满足进一步营销数据挖掘。
【专利说明】一种电力营销缺失数据补全方法
【技术领域】
[0001] 本发明涉及电力系统数据处理领域。
【背景技术】
[0002] 数据缺失即数据不完整,表现在数据库中,即为该记录属性为空,通常数据缺失从 缺失机制上可以分为完全性随机缺失、随机性缺失以及非完全性随机缺失。
[0003] 从对象是否存在属性缺失,可以把变量分为不完全变量,即指存在数据缺失的变 量或者属性;完全变量,即数据集数据完整,不含缺失属性。
[0004] 现实条件下,数据缺失的主要原因可以归为以下几类:
[0005] (1)无法有效使用的数据
[0006] 这类数据,主要是指统计属性对于对象主体不具有实际意义,例如:该用户用电量 为0,但其用电时间统计非0,则该数据是无效数据。
[0007] (2)遗漏数据
[0008] 比如,由于采集设备问题,数据采集过程中造成的数据缺失,同时由于采集过程不 可逆,采集实时性要求很高,则不能通过其他方法获取数据。或者,由于系统设计有问题,用 户在数据填写过程中,某一数据的漏填或者采集不全。
[0009] (3)无法获取的数据
[0010] 由于人为或者系统问题,在短期内无法实现采集的数据。比如说,医院临床检验的 时候,在一段时间内,有些数据无法得到。
[0011] (4)获取代价很大的数据
[0012] 采集需要耗费大量的人力和物力导致采集方无法进行全面的数据采集而造成的 缺失。
[0013] 现有的缺失数据补全方法包括以下几种:
[0014] (1)删除法
[0015] 将含有缺失数据的对象全部属性删除,剩余数据集作为整体进行数据处理。根据 研究对象的特征,删除法又包括:配对删除、列表删除、个案删除三种。
[0016] (2)常量补全
[0017] 常量补全基于对数据集的研究上,对于不同的数据集,根据该对象属性的数据特 性,采用一个固定的常量值进行补全,也可以针对数据全集进行全局数据补全。例如,常用 Null代替关系型数据库中的缺失数据。
[0018] (3)简单补全
[0019] 指利用简单易懂的公式进行数据的补全。例如,在缺失数据附近进行欧式距离计 算,确定K个相邻数据,将这几个数据进行加权均值计算,作为补全数据。该方法的缺点是, 进行欧式距离计算时,需要进行数据遍历,真对大量数据计算效率较低。
[0020] (4)统计补全
[0021] 通过对已知的数据集进行统计方法计算,对缺失数据进行补全。根据数据特点,可 以对数据集进行总体统计补全,也可以将数据集分组,进行组内统计补全。
[0022] (5)复杂估算方法补全
[0023] 该方法是目前较为有效的缺失数据补全方法。基于全局数据,进行模型建立,预测 每一个缺失的数据进行补全。主要方法有:回归模型补全方法、贝叶斯补全方法、决策树补 全方法、期望值最大化补全方法等。
[0024] 由于电力营销数据来源广泛、类型复杂,在数据仓库建立过程中,数据冗余和不一 致、噪音数据、表示方法错误、数据缺失等问题严重干扰了数据挖掘的结果,上述补全方法 仍然不能够完全解决这些问题。
【发明内容】
[0025] 本发明基于对数据缺失现象的原因分析,提出双尺度贝叶斯数据补全方法,以解 决数据挖掘前期数据缺失问题。
[0026] 为实现本发明目的而采用的技术方案是这样的,一种电力营销缺失数据补全方 法,其特征在于:
[0027] 1)采集电力营销数据,并将这些数据保存在数据集中,所述数据集中有N个记录, 每个记录有M个属性;数据集中任意一个纪录记为记录x,x为纪录的序列号,取值为自然 数;记录x的属性分别为Xp......,XM ;令Cp. . .,q是Xi样本空间的划分,i= 1、2......m; 属性\的分类个数为Q 代表了包含已知\属性的记录个数;当\等于它的第K个分类 时,cik的记录的个数设为Nik ;N#|ik是当Xj等于它的第r个分类的记录的个数;
[0028] 2)计算纪录x的属性Xi缺失概率:P(ck/X) ':
[0029] 计算每一个属性的先验概率:
[0030] P(Xj=cik) =Nik/Nj
[0031] i= 1, . . . ,M;k= 1, . . . ,Lj
[0032] 计算当\ =cik时,属性Xj的后验概率:
[0033] P(Xj=cJr|Xi=cik) =NJr|ik/Nik
[0034] j = 1,? ? ?,M ; j 尹 i ;r = 1,? ? ?,Lj
[0035] 当记录x的属性Xi存在一个缺失时,令J为x的非缺失数据索引;
[0036] 当\ =cik:时,计算条件概率,在此表示为修正因子:
[0037] 0 =P(Xj|Xj=cik)
[0038] =Nj|ik/Nik,
[0039]Xj=x:nx2n......Xjn......nxM ;j^i
[0040] 后验概率Pi的计算公式如下:
【权利要求】
1. 一种电力营销缺失数据补全方法,其特征在于: 1) 采集电力营销数据,并将这些数据保存在数据集中,所述数据集中有N个记录,每个 记录有M个属性;数据集中任意一个纪录记为记录X,X为纪录的序列号,取值为自然数;记 录X的属性分别为X1,......,Xm ;令C1,. . .,Clj是Xi样本空间的划分,i = 1、2......m ;属性Xi 的分类个数为Li 代表了包含已知Xi属性的记录个数;当Xi等于它的第K个分类时,C ik 的记录的个数设为Nik ;N#|ik是当&等于它的第r个分类的记录的个数; 2) 计算纪录X的属性Xi缺失概率:P (ck/X) ' : 计算每一个属性的先验概率: P (Xi = Cik) = Nik/Ni i = 1,· · ·,M ;k = 1,· · ·,Li 计算当Xi = Cik时,属性Xj的后验概率: P (Xj = CjJxi = cik) = NJr|ik/Nik j = I,. . . , M ;j ^ i ;r = I,. . . , Lj 当记录x的属性Xi存在一个缺失时,令J为x的非缺失数据索引; 当Xi = cik:时,计算\条件概率,在此表示为修正因子: Θ = P (Xj I Xi = cik) =Nj|ik/Nik, Xj = X1 n X2 η......Xj η......η χΜ ;j ^ ? 后验概率P1的计算公式如下:
后验概率P2的计算公式如下:
最终计算公式为: P(ck/X),=Ρ1+(Ρ2-Ρ1)*Θ 3) 当计算出缺失概率后,采用最大概率填充法、概率分布填充法或权值填充法,进行缺 失数据填充。
【文档编号】G06Q50/06GK104392400SQ201410758328
【公开日】2015年3月4日 申请日期:2014年12月10日 优先权日:2014年12月10日
【发明者】吉涛, 慕福林, 翁亚利, 谭元刚, 王刚, 赵莉, 傅宏, 张向东, 郑迎春, 邱小平, 孔维禅, 孙渊, 刘虓豪 申请人:国家电网公司, 国网重庆市电力公司客户服务中心, 重庆小目科技有限责任公司