含有不可忽略缺失数据的估计方程的稳健估计方法

文档序号:10569876阅读:358来源:国知局
含有不可忽略缺失数据的估计方程的稳健估计方法
【专利摘要】本发明涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法,步骤为:Q(θ,Y,X),在不可忽略缺失数据模型为logistic回归模型时,通过重要重采样算法计算插补的估计方程中包含的条件期望m(θ,x),得到修正的估计方程然后基于修正的估计方程并利用经验似然方法求得估计方程中未知参数θ的稳健经验似然估计。本发明通过用估计方程插补含缺失数据的估计方程而非插补缺失值的方法以及经验似然法对估计参数进行稳健俺估计,成功避免了非参数核估计方法当协变量的维数较高时产生“维数祸根”的问题,大幅改进了存在不可忽略缺失数据时数据处理的精度,提高了预测准确性。
【专利说明】
含有不可忽略缺失数据的估计方程的稳健估计方法
技术领域
[0001 ]本发明属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理的方法,具体地 说,涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法。
【背景技术】
[0002] 经典的统计方法与理论大都是建立在完全数据分析的基础上,然而在实践中,数 据缺失普遍发生在很多实际问题中,如民意调查、市场调研、邮寄问卷调查、社会经济研究、 医学研究、观察研究以及其他科学实验中常常会发生缺失数据的问题。在这种情况下,标准 的统计方法不能直接应用到这些不完全数据的统计分析。目前对不完全数据的处理大都假 设缺失数据机制为可忽略的,常常将带缺失数据的个体删除,只保留带完整数据的个体组 成的数据组进行统计分析。然而,这一方法在大部分情况下分析结果都有严重偏差,并且由 于一些有缺失数据个体被删除以至产生不必要的信息损失,常常导致无效统计,甚至会得 出错误的结论,因此缺失数据有必要考虑为不可忽略。但在不可忽略缺失数据这一假设下 的统计分析与理论研究相当困难,目前这方面研究成果很少。近年来,对于不可忽略缺失数 据的处理有了一些进展,如极大似然估计EM算法、多重填补方法以及加权估计法等。
[0003] 估计方程方法是统计推断中最为普通但也非常有用的统计推断方法之一,其思想 和结果广泛应用于生存分析、生物统计、计量经济及金融计量中。具体地说,考虑q个相互独 立的函数构成的q维向量Q( 0,y,X) = (91(9,73),.",9<1(9,73))1',其中^(9,73),1 = 1,…,q满足矩约束条件E(Qi(0,Y,X))=O,i = l,…,q,对某个其中未知参 数9的真实值,且P < q,Y和X是s维和d维的随机变量。
[0004] 在缺失数据下,关于估计方程方法的研究还比较少。令(1厂;^),"=1是来自联合分布 函数F(y,x)的独立同分布的随机样本,其中(乾仏总是可以观测的,但是(1ft的值是缺失 的。为了简化,我们假设Yi的缺失分量是相同的。令51是¥1的响应示性函数,如果¥1可观测, 则 5i=l,否则 5i = 〇。
[0005] 现存的方法是通过数据的插补方法来修正估计方程,比如通过插补技术构造估计 方程 C)(6>, , .Y,) = (K6M ) + (1 - $ <),其中 m (0,x) = E (Q (0,Y,X) | X = x)是未知 的,需要给出其估计。在随机缺失数据下,一般仅利用观测到的数据从nu(0,X)=E(Q(0,Y, X)|X = x,S = l)出发得到m(0,x)的一个非参数核估计办当缺失数据是不可忽略缺失 时,现存的做法是基于指数偏斜模型从则(0,1)=£(9(0,¥,乂)4 = 1,5 = 〇)出发构建111(0 4) 的一个非参数核估计為>(久幻;但无论是在随机缺失还是不可忽略缺失下,条件期望m(0,x) 的估计都用到了非参数核估计。
[0006] 而非参数核估计存在一个显然的问题:如果协变量X的维数太高,将有"维数祸根" 问题。为了解决上述问题,亟需建立一种能够避免非参数核估计的新的稳健方法,在保证参 数估计精度的同时也能适应更多数据环境。

【发明内容】

[0007] 本发明的目的在于针对现有关于不可忽略缺失数据的估计方程的不稳健且难以 处理存在高维协变量的上述不足,提供了一种含有不可忽略缺失数据的估计方程的稳健估 计方法,该方法避免了利用非参数核估计计算条件期望的问题,不会出现"维数祸根"现象, 可应用于存在高维协变量时含有不可忽略缺失数据的估计方程的估计问题。
[0008] 根据本发明一实施例,提供了一种含有不可忽略缺失数据的估计方程的稳健估计 方法,含有以下步骤:
[0009] ( - )利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有 不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之 间的关系,确定上述两者之间关系的具体步骤为:
[0010] (1)给定估计方程Q(9,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样 本(f.d,,其中?)^总是可以观测的,而)L的值是缺失的;
[0011] (2)引入响应变量Yi的示性函数心,即如果Yi可观测,则\ = 1,否则心=〇,且满足对 任意的i辛j,假设是独立的;
[0012] ⑶令f(y|x,S = l)表示给定X = x和5 = 1下Y的条件密度函数,f(y|x,S = 〇)表示给 定X = x和5 = 0下Y的条件密度函数;
[0013] (4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为:

[0015] 其中,g( ?)为未知函数,巾是未知的参数,参数巾决定数据是随机缺失还是非随 机缺失;
[0016] (5)引入指标参数向量0,假设f(y|x,s = l)的一个参数模型为汽7 4,5 = 1;0),用 来表示完全数据下响应变量的条件密度函数;
[0017] (6)在假设的logistic回归模型下,f(y | X,5 = 0)的一个参数模型为f(y | X,5 = 0; 0,小),用来表示含有不可忽略缺失数据下响应变量的条件密度函数,得到含有不可忽略缺 失数据时响应变量的条件密度函数f(y|x,S = 〇;0,巾)与完全数据时响应变量的条件密度 函数f (y I x,S = 1;⑴之间满足的指数偏斜模型,该指数偏斜模型表示为:
〇[0019] (二)获取f (y | x,5 = 〇;0,巾)和f (y |x,5 = l ;0)的参数形式中的参数0和巾的估计, 其具体步骤为:[0020] (1)由步骤(一)中给定的X = x和5 = 1下Y的条件密度函数汽74,5 = 1)获得参数得 (2) 分函数
利用解得分方程得到参数抑勺极 大似然估计
[0021] (2)依据follow-up sample,在follow-up sampling后,如果Yi可观测令 y i=l,否 n 贝1J令y i = 〇;通过解[G心/〗,州=0得到参数巾的一个相合估计 和1 A 0
[0022] (三)利用重要重采样算法来计算含有不可忽略缺失数据时关于响应变量的条件 期望111(0 4)=£(〇(0,¥,乂)4 =叉,6 = 〇),其具体步骤为:
[0023] (1)用户代替条件密度函数f(y |x,S = l;0)中的0,得到新的条件密度函数 fiy\xiS-%0);
[0024] (2)从新得到的条件密度函数/(;y U%<y = 1;#)中抽取样本S = {Y(k),k = 1,2,…,M2}, 计算S中每个点的概率质量(W/f($):
[0026] (3)依据概率质量叫(办…,叫,⑷,从S中有放回地抽取样本If,…,篇,记抽出的样 本为:乙,…,,[0027] (4)通过以下公式计算<(氏七/以): (3). v
(4)
[0029] 式中,9为未知参数;
[0030] (5)执彳丁重要重米样算法,当执彳丁 SIR算法时,要求M2-00且M/M2-0。
[0031](四)构造基于蒙特卡罗方法的估计函数(〉(久}:.乂;/),士.其步骤为:
[0032] ( 1 )采用蒙特卡罗方法并利用步骤(三)中得到的 众勿导出估计函数
[0033] QiOJ^X^p^^SOiOJ^X^+iX-S^iO.X-pJ) (5). ,
[0034] (2)验证
是渐进无偏的。
[0035] (五)构造关于未知参数0的经验似然比函数,获得未知参数0的最大经验似然估计 氣其具体步骤为:
[0036] (1)构造关于未知参数0的经验似然比函数R(0):
[0037] R(〇) = max ! f] (?/;,.) | p; > 0, = \^p,6{0, Yr = 〇} (6 ); 1 = 1 H ;'=1 '
[0038] (2)通过拉格朗日乘子法计算得到对数经验似然比函数log(R(0)):
[0039] l〇g(/e(fy,)) = -X'logd + A1 (0)Q{0, Y;, (7)
[0040] 其中,A(9)eRq,通过方程
求解;
[0041] (3)最大化对数经验似然比函数log(R(0)),获得未知参数0的最大经验似然估计
[0042] 本发明提出的含有不可忽略缺失数据的估计方程的稳健估计方法,通过用估计方 程插补含有缺失数据的估计方程,而非插补缺失值,估计函数稳健的特点使本发明得到的 估计更加稳健;本发明对含有不可忽略缺失数据的估计方程利用重要重采样算法计算给定 协变量下关于不和忽略缺失的响应变量的条件期望,由于重要重采样算法思想简单而且具 有现成的软件包可用,进行估计时大幅节省计算复杂度,提高了效率。含有不可忽略缺失数 据时,现有的估计方法在计算给定协变量下关于不可忽略缺失响应变量的条件期望时采用 非参数核估计方法,但非参数核估计方法存在一个明显的问题就是如果协变量的维数太 高,会产生"维数祸根"的问题,与现有技术相比,通过本发明提出的含有不可忽略缺失数据 的估计方程的稳健估计方法,由于采用重要重采样算法,成功避免了此条件期望的非参数 核估计方法当协变量的维数较高时产生"维数祸根"的问题,大幅提高存在不可忽略缺失数 据时数据处理的精度,提高了预测准确性,使用范围更加广泛。
【附图说明】
[0043] 附图1为本发明实施例含有不可忽略缺失数据的估计方程的稳健估计方法示意 图。
[0044] 附图2为本发明实施例含有不可忽略缺失数据下响应变量的条件密度函数与完全 数据下响应变量的条件密度函数之间的关系图。
[0045] 附图3为本发明实施例获取参数0的极大似然估计|的过程示意图。
[0046] 附图4为本发明实施例获取参数巾的一个相合估计{^的过程示意图。
[0047] 附图5为本发明实施例重要重采样算法计算含有不可忽略缺失数据时关于响应变 量的条件期望的过程示意图。
[0048] 附图6为获得未知参数0的最大经验似然估计g的过程示意图。
【具体实施方式】
[0049]以下结合附图对本发明实施例作进一步说明。
[0050] 参见图1,一种含有不可忽略缺失数据的估计方程的稳健估计方法,含有以下步 骤:
[0051] ( - )利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有 不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之 间的关系,参见图2,确定上述两者之间关系的具体步骤为:
[0052] (1)给定估计方程Q(0,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样 本(尤,ifL,其中);=1总是可以观测的,而的值是缺失的;
[0053] (2)引入响应变量Yi的示性函数心,即如果Yi可观测,则\ = 1,否则心=〇,且满足对 任意的i辛j,假设是独立的;
[0054] (3)令f(y|x,S = l)表示给定X = x和5 = 1下Y的条件密度函数,f(y|x,S = 〇)表示给 定X = x和5 = 0下Y的条件密度函数;
[0055] (4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为:

[0057]其中,g( ?)为未知函数,巾是未知的参数,参数巾决定数据是随机缺失还是非随 机缺失;
[0058] (5)引入指标参数向量0,假设f(y|x,S = l)的一个参数模型为汽7 4,8 = 1;0),用 来表示完全数据下响应变量的条件密度函数;
[0059] (6)在假设的logistic回归模型下,f (y | x,5 = 〇)的一个参数模型为f (y | x,5 = 〇; 0,小),用来表示含有不可忽略缺失数据下响应变量的条件密度函数,得到含有不可忽略缺 失数据时响应变量的条件密度函数f(y|x,S = 〇;0,巾)与完全数据时响应变量的条件密度 函数f (y I x,S = 1;⑴之间满足的指数偏斜模型,该指数偏斜模型表示为:
(2)〇:
[0061] (二)获取f (y | x,5 = 〇;0,巾)和f (y |x,5 = l ;0)的参数形式中的参数0和巾的估计, 其具体步骤为:
[0062] (1)参见图3,由步骤(一)中给定的乂 = 1和5 = 1下¥的条件密度函数;^7|1,5 = 1)获 得参数得分函数
,利用解得分方程
得到参 数0的极大似然估计#;
[0063] ( 2 )参见图 4,依据 fo 1 1 〇 w_up s amp 1 e (即:后续样本),在 f 〇 11 〇 w_up sampling(即:后续抽样)后,如果Yi可观测令yi = l,否则令yi = 0;通过解 L(1 - d:.);(设(乂 A'.,.) -A';;/"))]二 0.得到参数(}> 的一个相合估计一。 i=l
[0064] (三)利用重要重采样算法来计算含有不可忽略缺失数据时关于响应变量的条件 期望111(0^)=£(〇(0,¥,乂)4 =叉,6 = 〇),参见图5,其具体步骤为:
[0065] (1)用#代替条件密度函数以7^,8 = 1;0)中的0,得到新的条件密度函数 /(v|x,d' = l;/〇 ;
[0066] (2)从新得到的条件密度函数= 1;/))中抽取样本S = {Y(k) ,k = 1,2,…身}, 计算S中每个点的概率质量:
0) ,
[0068] (3)依据概率质量?,(#),???,,从S中有放回地抽取样本,匕.记抽出的样 本为: (4)
[0069] (4)通过以下公式计算m:(久Z,.;A勿:
[0071] 式中,9为未知参数;
[0072] (5)执彳丁重要重米样算法,当执彳丁 SIR算法时,要求M2-00且M/M2-0。
[0073] (四)构造基于蒙特卡罗方法的估计函数,其步骤为:
[0074] (1)采用蒙特卡罗方法并利用步骤(三)中得到的m,;说A::/)扃导出估计函数
[0075] Qi0JrX:jK<ji)=6O(0.Yr X,) + (I -6,)m:i〇,X,; fl</?) (5)、
[0076] (2)验证丄足渐进无偏的。
[0077] (五)构造关于未知参数0的经验似然比函数,获得未知参数0的最大经验似然估计 #,参见图6,其具体步骤为:
[0078] (1)构造关于未知参数0的经验似然比函数R(0):
[0079]及(6〇 二 max ! fl (np, )\p,> 0, ±p= 1±P,Q(0, YrX-pJ)^ (6)? /-L i=l i-1
[0080] (2)通过拉格朗日乘子法计算得到对数经验似然比函数log(R(0)):
[0081] l〇g(/?(^)) = -Xl〇g(l + i7(^)(?(^ YrXjJ)) (7) /-I
[0082] 其中,M9)eRq,通过方程
求解;
[0083] (3)最大化对数经验似然比函数log(R(0)),获得未知参数0的最大经验似然估计
[0084]实施例1:以在响应变量存在不可忽略缺失数据下线性回归模型Y= 1.2+X+e中响 应变量均值9=E(Y)的估计为例,对本发明估计方法进行详细说明。
[0085]选定估计方程Q( 0,Y,X) =Y-0,从线性模型中随机独立地抽取容量200的5000个随 机样本。响应变量的缺失数据满足:响应变量的不性变量3i分别从如下依概率为W和312的贝 努力分布中产生:
(8)
[0087]其中〇(?)为标准正态分布的累积分布函数。但在模拟中,用响应模型
来估计未知参数9。因此,当采用町(XuYO,在上边假设的模 型是正确设定的;当采用^(XbYO,在上边假设的模型是错误设定的。在估计用核估计方法 估计屯(Rx)时,采用高斯核。当采用重要重采样算法时,本实施例中利用M= 10,50,100和M2 =10000,且(Y I X,s = 1)服从正态分布(代+/>X)。12个样本从估计的条件分布函数 #(戍+心,允)中产生,M个样本依概率?(#)从M2个样本中抽出。
[0088] 在本实施例中,引入如下记号:
:对所有的数据{(XiYihizlJ,…,n}的估计,实际上是不可能; n ,其中〃 =5^4可观测反映变量的个数,即完全数据情形的估计;
[0091] 3. 在可忽略缺失数据下的参数估计,即通过重要重采样算法得到的估计;
[0092] 4. 借助非参数核估计思想得到的最大经验似然估计;
[0093] 5. :在M2= 10000和M分别为M= 10,50,100时,基于重要重采样算法的参数的矩 估计;
[0094] 6. :在M2 = 10000和M分别为M= 10,50,100时,基于蒙特卡罗的估计方程得到参 数经验似然估计。
[0095]表1为本发明含有不可忽略缺失数据的估计方程的估计方法与现有三种估计方法 在偏差、方差、均方误差方面的比较。
[0096]表 1
[0098]由表1可以看出,基于5000个样本,采用本发明含有不可忽略缺失数据的估计方程 的估计方法与现有三种估计方法相比,在估计的偏差、方差、均方误差方面优于其他三种估 计方法。
[0099] 实施例2 :以在响应变量存在不可忽略缺失数据下非线性回归模型 「-02 !3-20XqxV(0X)-qxV{20X)-\\ ,,,,丄也 ",丄、,、 ¥(Y,X-〇)='' = ,二、m 为例,对本发明估计方 v(//:(>, A;6?) ; ^ r-cxp(fAV) -6>/2 J 法进行详细说明。
[0100] 随机样本{(Xi,Yi):i = l,…,n}来上述非线性模型。对每个i,Xi是来自均匀分布U (〇,1)的样本,给定Xi,Yi是来自正态分布N(0Xi+exp( 0Xi),1)且0 = 1的样本。协变量Xi总是可 观测的,但Yi有缺失。依概率Jr (Xi,Yi) = P(Si = 11 Xi,Yi)从贝努利分布中产生反映变量Yi的 缺失不性变量。检验四种缺失数据机制:
[0105] 其中,(伞0,(^,伞 2,伞 3) = (1.5,0.15,0.5,0.25)。
[0106] 它们都是不可忽略缺失数据,前边两个满足假设缺失数据模型;后边两个不满足 缺失数据模型。从町(X,Y)到JI4(X,Y)缺失比例分别为9.70 %,7.56 %,6.30 %和6.40 %。本实 施例中从上述非线性模型随机抽出容量为200的样本,然后在上述四种缺失数据机制下构 造不完全数据集。当采用重要重采样算法时,本实施例中利用M=10和M 2= 10000。
[0107] 在本实施例中,记4^和^分别表示巾的真实值和估计值下由本发明估计方法得 到的未知参数9的估计,和&分别表示巾的真实值和估计值下由现有非参数方法得到的 未知参数9的估计,毛表示巾的真实值和估计值下基于随机缺失数据下得到的参数9的估 计,表示基于辅助信息E (X-0.5)2 = 1 /12得到的未知参数0的估计。
[0108] 表2为本发明含有不可忽略缺失数据的估计方程的估计方法与现有三种估计方法 在估计偏差、方差、均方误差方面的比较,表现的是在无辅助信息时上述四种不同估计方法 估计的最大经验似然估计。
[0109] 表2
[0110]
[0111] 由表2可以看出,在无辅助信息时,采用本发明估计方法与现有三种估计方法相 比,在估计的偏差、方差、均方误差方面优于其他三种估计方法。
[0112] 表3为本发明含有不可忽略缺失数据的估计方程的估计方法与现有三种估计方法 在估计偏差、方差、均方误差方面的比较,表现的是在有辅助信息时上述四种不同估计方法 估计的最大经验似然估计。
[0113] 表2
[0114]
[0115] 由表3可以看出,在有辅助信息时,采用本发明估计方法与现有三种估计方法相 比,在估计的偏差、方差、均方误差方面优于其他三种估计方法。
[0116] 上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权利 要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
【主权项】
1. 一种含有不可忽略缺失数据的估计方程的稳健估计方法,其特征在于:含有以下步 骤: (一) 利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可 忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的 关系,确定上述两者之间关系的具体步骤为: (1) 给定估计方程Q(0,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本 ,其中(JTfL总是可以观测的,而(}^)二的值是缺失的; (2) 引入响应变量h的示性函数δ,,即如果¥1可观测,则δ1 = 1,否则δ1 = 〇,且满足对任意 的i#j,假设&和\是独立的; (3) 令f (y | χ,δ = 1)表示给定Χ = χ和δ = 1下Y的条件密度函数,f (y | χ,δ = 〇)表示给定X =χ和δ = 〇下Υ的条件密度函数; (4) 假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为:其中,g( ·)为未知函数,Φ是未知的参数,参数Φ决定数据是随机缺失还是非随机缺 失; (5) 引入指标参数向量β,假设汽74,3 = 1)的一个参数模型为汽3^|^3 = 14),用来表 示完全数据下响应变量的条件密度函数; (6) 在假设的logistic回归模型下,f (y | χ,δ = 〇)的一个参数模型为f (y | χ,δ = 〇;β, Φ),用来表示含有不可忽略缺失数据下响应变量的条件密度函数,得到含有不可忽略缺失 数据时响应变量的条件密度函数汽7|1,3 = 〇;0,(}))与完全数据时响应变量的条件密度函 数f(y | X,δ = 1;β)之间满足的指数偏斜模型,该指数偏斜模型表示为:(二) 获取f (y I Χ,δ = 0;β, Φ )和f (y |χ,δ = 1 ;β)的参数形式中的参数β和φ的估计,其具 体步骤为: (1) 由步骤(一)中给定的X = X和δ = 1下Υ的条件密度函数f (y | X,δ = 1)获得参数得分函得到参数β的极大似 然估计及:; (2) 依据follow-up sample,在follow-up sampling后,如果Yi可观测令 γ i = l,否则令 T i = 〇;得到参数Φ的一个相合估计#; (三) 利用重要重采样算法来计算含有不可忽略缺失数据时关于响应变量的条件期望m (9,x)=E(Q(0,Y,X) |Χ = χ,δ = 〇),其具体步骤为: (1)用為代替条件密度函数f (y I χ,δ = 1 ;β)中的β,得到新的条件密度函数 ./(ν|Λ·,?· = !;/}): (2) 从新得到的条件密度函数/(>,卜,.<5:= 1,/))中抽取样本S = {Y(k),k = 1,2,…,M2},计算 S中每个点的概率质量仍,Μ):(3) 依据概率质量q(办…,?(I),从S中有放回地抽取样本If,…篇,记抽出的样本为: C…,4, (4) 通过以下公式计算(6?? J):式中,Θ为未知参数; (5) 执彳丁重要重米样算法,当执彳TSIR算法时,要求M2-00且Μ/Μ2-0; (四) 构造基于蒙特卡罗方法的估计函数其步骤为: (1 )采用蒙特卡罗方法并利用步骤(三)中得到的 <(故导出估计函数 0{θ γηχ·β,:φ): Q{OJi,X-p^=0^{OJi,X,φ) (5) t(五) 构造关于未知参数Θ的经验似然比函数,获得未知参数Θ的最大经验似然估计&其 具体步骤为: (1) 构造关于未知参数θ的经验似然比函数R( θ):(2) 通过拉格朗日乘子法计算得到对数经验似然比函数log(R(0)):(3) 最大化对数经验似然比函数log(R(0)),获得未知参数Θ的最大经验似然估计在。
【文档编号】G06F17/11GK105930303SQ201610221853
【公开日】2016年9月7日
【申请日】2016年4月11日
【发明人】宋允全
【申请人】中国石油大学(华东)
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1