一种删失数据下的参数概率不确定性建模方法

文档序号:29453588发布日期:2022-03-30 12:20阅读:133来源:国知局
一种删失数据下的参数概率不确定性建模方法
一种删失数据下的参数概率不确定性建模方法
所属技术领域
1.本发明涉及可靠性数据统计分析领域,特别涉及一种删失数据下的参数概率不确定性建模方法。


背景技术:

2.受时间成本、经济成本、技术水平及人为因素的影响,工程实际可获取的数据信息常常呈删失状态。如在测试某些材料参数或尺寸参数时,由于受到测试设备量程的制约,无法获得设备量程以外的测试信息,由此产生了删失数据;在极端环境下测试某些载荷参数时,测试设备由于受到环境条件的影响从而灵敏度下降,在测量某些范围的数据时可能无法反馈低于某数值的测试数据,由此产生了删失数据;在开展可靠性验证试验时,受到受试样品的高成本、长寿命特点的制约,将试验进行至所有试件都发生失效是不经济的,故常开展定时截尾试验和定数截尾试验。因此,充分挖掘删失数据所隐含的统计分布信息,对于准确量化度量模型参数的不确定性特点具有重大意义。
3.删失数据的特征通常为:以某数值为分界点,该分界值一侧的数据被完全观测,而另一侧的数据则发生数据缺失从而未被完全观测。现有研究中,处理删失数据的方法主要包括基于em算法的不确定性建模方法、贝叶斯估计和模糊理论三类典型方法。其中,由于基于em算法的不确定性建模方法具有良好的参数估计性质,故其在工程实际中最为常用,但该方法的建模精度水平与初值的选取有关且需要反复迭代。针对上述问题,本章提出了一种基于bootstrap方法和信息熵的概率不确定性建模方法,以期有效降低参数估计误差,提升概率不确定性建模的精度水平。
4.本研究主要考虑两类典型删失数据,即ⅰ型删失数据和ⅱ型删失数据。此处以寿命型数据为例,介绍两类删失数据的典型特征如下:
5.(1)ⅰ型删失数据
6.n个独立同型元件从t=0开始进行寿命试验,试验在某固定时刻t0终止,此时观察到的元件得失效数目是一个随机变量,若在试验终止时观察到r个元件失效,则得到r个元件的寿命数据如式(1)所示:
7.x
(1)


≤x
(r)
≤t0ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
8.同时,可以明确其余n-r个元件的寿命均大于t0,其寿命数据为大于t0的随机变量,该n-r个元件的寿命信息如式(2)所示:
9.x(i)>t0,i=r+1,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
10.(2)ⅱ型删失数据
11.n个独立同型元件从t=0开始进行寿命试验,试验在第r个元件的失效时刻终止(r为事先规定的正整数)。此时观测到的只是前r个寿命数据,其可表示为式(3)所示:
12.x
(1)
≤x
(2)


≤x
(r)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
13.同时,可以明确其余n-r个元件的寿命均大于第r个元件的寿命,其为大于x
(r)
的随机变量,该n-r个元件的寿命信息可表示为式(4)所示:
14.x(i)>x
(r)
,i=r+1,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)


技术实现要素:

15.本发明提供的一种删失数据下的参数概率不确定性建模方法,将删失数据视为缺失数据,基于“多重插补”的思想通过随机采样值替代了删失数据,从而构建了完整数据集,为删失数据条件下的参数不确定性量化度量提供了一种更简便、实用的方法,为开展多模型参数下的可靠性分析提供了更有效的概率不确定性量化度量模型。
16.本发明提出的一种删失数据下的参数概率不确定性建模方法的主要步骤包括:
17.步骤1:获取产品参数的观测样本,确定观测样本的删失数据信息,并选取该参数分散性特征相对应的概率分布类型;(如几何尺寸参数、材料性能参数等常服从正态分布,机械产品的寿命参数常服从威布尔分布,电子产品的寿命参数常服从指数分布等;)
18.步骤2:基于bootstrap方法开展观测数据的m次有放回的重抽样操作,并分别采用em方法开展极大似然估计以构建m个初始概率分布模型;
19.具体地,包括以下内容:
20.(1)假设共有n个样本,其中有r个被完全观测到的样本,将所述被完全观测的样本按照从小到大的顺序排列为顺序统计量并标记为对于左删失数据而言,考虑到其余n-r个未被完全观测的样本(即删失样本)取值均小于于故将该n-r个样本的顺序统计量表示为对于右删失样本而言,考虑到其余n-r个未被完全观测的样本(删失样本)取值均大于故将该n-r个样本的顺序统计量表示为
21.(2)对于左删失数据而言,通过把的概率放置在各点上,构建样本的经验累积概率分布对于右删失数据而言,通过把的概率放置在各点上,构建样本的经验累积概率分布
22.(3)从上述经验概率分布函数中有放回地抽取一个样本量为n的简单随机样本并表示为“重取样本”x
*

23.(4)采用em方法估计“重取样本”x
*
的概率分布参数θ的取值,并标记为
24.(5)重复步骤(3)及步骤(4)共m次,分别得到概率分布参数的估计值用于建立m个初始概率分布模型;
25.步骤3:基于每组初始概率分布模型建立删失数据的条件概率分布,并开展随机采样来替代删失数据以构建m条完整数据集;
26.具体地,包括以下内容:
27.(1)计算样本发生删失的概率;
28.具体地,对于左删失数据而言,样本取值小于的概率如式(5)所示;对于右删失
数据而言,样本取值大于的概率如式(6)所示;
[0029][0030][0031]
(2)建立删失样本的条件概率分布;
[0032]
具体地,对于左删失数据而言,删失样本的条件概率分布π(x

)可以表示为式(7)所示:
[0033][0034]
其中,为指示函数,即:
[0035]
对于右删失数据而言,删失样本的条件概率分布π(x

)可以表示为式(8)所示:
[0036][0037]
其中,为指示函数,即:
[0038]
(3)基于条件概率分布开展随机采样以构建完整数据集;
[0039]
基于由步骤(2)获得的条件概率分布π(x

),随机采样生成n-r个样本对于左删失数据而言,将该n-r个样本与r个被完全观测的样本构成完整数据集对于右删失数据而言,将该n-r个样本与r个被完全观测的样本构成完整数据集
[0040]
(4)重复步骤(1)至步骤(3),直至基于各个初始概率分布各构建一组完整数据集,共构建m组完整数据集;
[0041]
步骤4:针对m条完整数据集分别开展极大似然估计以构建备选概率分布模型;
[0042]
对于左删失数据,在完整数据集下,开展极大似然估计的计算表达式如式(9)所示:
[0043][0044]
对于右删失数据,在完整数据集下,开展极大似然估计的计算表达式如式(10)所示:
[0045][0046]
对于步骤3获取的m条完整数据集依据上述内容分别开展极大似然估计,直至获得m组完整数据集的极大似然估计并基于极大似然估计构建出m个相应的概率分布模型作为备选概率分布模型。
[0047]
步骤5:遴选备选分布模型中具有最大信息熵的分布模型最为原始数据的不确定性表征模型;
[0048]
(1)计算各个备选概率分布模型的信息熵;
[0049]
每组备选概率分布模型的信息熵依据式(11)进行计算:
[0050][0051]
其中,为第i组备选概率分布模型的概率密度函数;
[0052]
(3)遴选具有最大信息熵的概率分布模型;
[0053]
最大信息熵原理指出最大信息熵对应的概率分布为最随机、主观成分最少且不确定性最大的概率分布,故遴选上述m个备选分布模型中具有最大信息熵的概率分布模型最为最优概率分布模型,即为原始样本建立的不确定性表征模型。
[0054]
与现有技术相比,本发明的优点在于:
[0055]
本发明提供的一种删失数据下的参数概率不确定性建模方法,其不确定性建模的精度水平受人的主观认知相对较小,不确定性建模的精度水平相对较高。本方法为包括删失数据的观测样本的不确定性量化度量提供了一种更简便、实用的方法,为开展多模型参数下的可靠性分析提供了更有效的概率不确定性量化度量模型。
附图说明
[0056]
图1为本发明的方法流程示意图;
[0057]
图2为本发明步骤2的示意图;
[0058]
图3为ⅰ型删失仿真数据集的k-l散度箱线图;
[0059]
图4为ⅰ型删失仿真数据集的k-l散度箱线图;
具体实施方式
[0060]
参照附图,进一步说明本发明。
[0061]
步骤1:获取产品参数的观测样本,确定观测样本的删失数据信息,并选取该参数分散性特征相对应的概率分布类型;
[0062]
将产品某关键参数现场试验采集、记录的数据或仿真获取的数据作为观测数据,继而依据工程经验确定该关键参数的概率分布类型,如几何尺寸参数、材料性能参数等常服从正态分布,机械产品的寿命参数常服从威布尔分布,电子产品的寿命参数常服从指数分布等。
[0063]
步骤2:基于bootstrap方法开展观测数据的m次有放回的重抽样操作,并分别采用em方法开展极大似然估计以构建m个初始概率分布模型;
[0064]
具体地,包括以下内容:
[0065]
(1)假设共有n个样本,其中有r个被完全观测到的样本,将所述被完全观测的样本按照从小到大的顺序排列为顺序统计量并标记为对于左删失数据而言,考虑到其余n-r个未被完全观测的样本(即删失样本)取值均小于于故将该n-r个样本的顺序统计量表示为对于右删失样本而言,考虑到其余n-r个未被完全观测的样本(删失样本)取值均大于故将该n-r个样本的顺序统计量表示为
[0066]
(2)对于左删失数据而言,通过把的概率放置在各点上,构建样本的经验累积概率分布对于右删失数据而言,通过把的概率放置在各点上,构建样本的经验累积概率分布
[0067]
(3)从上述经验概率分布函数中有放回地抽取一个样本量为n的简单随机样本并表示为“重取样本”x
*

[0068]
(4)采用em方法估计“重取样本”x
*
的概率分布参数θ的取值,并标记为
[0069]
(5)重复步骤(3)及步骤(4)共m次,分别得到概率分布参数的估计值用于建立m个初始概率分布模型;
[0070]
步骤3:基于每组初始概率分布模型建立删失数据的条件概率分布,并开展随机采样来替代删失数据以构建m条完整数据集;
[0071]
具体地,包括以下内容:
[0072]
(1)计算样本发生删失的概率;
[0073]
具体地,对于左删失数据而言,样本取值小于的概率如式(12)所示;对于右删失数据而言,样本取值大于的概率如式(13)所示;
[0074][0075][0076]
(2)建立删失样本的条件概率分布;
[0077]
具体地,对于左删失数据而言,删失样本的条件概率分布π(x

)可以表示为式(14)所示:
[0078]
[0079]
其中,为指示函数,即:
[0080]
对于右删失数据而言,删失样本的条件概率分布π(x

)可以表示为式(15)所示:
[0081][0082]
其中,为指示函数,即:
[0083]
(3)基于条件概率分布开展随机采样以构建完整数据集;
[0084]
基于由步骤(2)获得的条件概率分布π(x

),随机采样生成n-r个样本对于左删失数据而言,将该n-r个样本与r个被完全观测的样本构成完整数据集对于右删失数据而言,将该n-r个样本与r个被完全观测的样本构成完整数据集
[0085]
(4)重复步骤(1)至步骤(3),直至基于各个初始概率分布各构建一组完整数据集,共构建m组完整数据集;
[0086]
步骤4:针对m条完整数据集分别开展极大似然估计以构建备选概率分布模型;
[0087]
对于左删失数据,在完整数据集下,开展极大似然估计的计算表达式如式(16)所示:
[0088][0089]
对于右删失数据,在完整数据集下,开展极大似然估计的计算表达式如式(17)所示:
[0090][0091]
对于步骤3获取的m条完整数据集依据上述内容分别开展极大似然估计,直至获得m组完整数据集的极大似然估计并基于极大似然估计构建出m个相应的概率分布模型作为备选概率分布模型。
[0092]
步骤5:遴选备选分布模型中具有最大信息熵的分布模型最为原始数据的不确定性表征模型;
[0093]
(1)计算各个备选概率分布模型的信息熵;
[0094]
每组备选概率分布模型的信息熵依据式(18)进行计算:
[0095]
[0096]
其中,为第i组备选概率分布模型的概率密度函数;
[0097]
(3)遴选具有最大信息熵的概率分布模型;
[0098]
最大信息熵原理指出最大信息熵对应的概率分布为最随机、主观成分最少且不确定性最大的概率分布,故遴选上述m个备选分布模型中具有最大信息熵的概率分布模型最为最优概率分布模型,即为原始样本建立的不确定性表征模型。
[0099]
考虑到本发明的主要内容为基于bootstrap方法(简称“b”步)开展了多重插补(简称“mi”步)操作并根据最大信息熵原则遴选(简称“s”步)了最优分布模型作为不确定性表征模型,方便起见,将本发明所提出的不确定性建模方法简称为bmis不确定性建模方法。
[0100]
具体实施案例:
[0101]
以正态分布作为采样分布,分别仿真生成200组右删失的ⅰ型删失数据和ⅱ型删失数据,应用本发明提出的一种删失数据下的参数概率不确定性建模方法建立样本的概率不确定性模型。本实施案例主要包括以下内容:
[0102]
(1)生成删失仿真数据集
[0103]
采用下述方法,从ⅰ型删失数据和ⅱ型删失数据的含义出发生成删失仿真数据。
[0104]
1)ⅰ型删失数据的仿真生成
[0105]
(a)基于正态分布模型n(100,102)仿真生成n个样本并记为x;
[0106]
(b)将n个样本按照升序排列为顺序统计量x
(1)
≤x
(2)


≤x
(n)

[0107]
(c)设定删失临界值tc,并将样本x中不大于tc的样本个数记为r;
[0108]
(d)保留顺序统计量中不大于tc的前r个样本并记为l,并明确其余n-r个样本的取值大于tc。
[0109]
2)ⅱ型删失数据的仿真生成
[0110]
(a)基于正态分布模型n(μ,σ2)仿真生成n个样本并记为x;
[0111]
(b)将n个样本按照升序排列为顺序统计量x
(1)
≤x
(2)


≤x
(n)

[0112]
(c)设定删失数目r或删失比例(censoring proportion,简称cp);
[0113]
(c)保留顺序统计量中的前r个或前n(1-cp)个样本并记为l,并明确其余n-r个或n
·
cp个样本的取值大于x
(r)
或x
(n(1-cp))

[0114]
具体地,以正态分布模型n(100,102)作为采样分布,分别将随机抽样获取的数据样本95.24和98.15作为删失临界值tc,各仿真生成200组样本量为10的ⅰ型右删失数据集。另外,分别将删失比例设定为10%,20,30%,40%,各仿真生成200组样本量为10的ⅱ型右删失仿真数据集。(其中,删失比例10%表示9个样本被完全观测,1个样本未被完全观测)。
[0115]
(2)基于先验信息,选择正态分布来表征数据的分散性特征;
[0116]
(3)基于bootstrap方法开展观测数据的m次有放回的重抽样操作,并分别采用em方法开展极大似然估计,构建出m个初始概率分布模型;
[0117]
1)假设观测数据共有n个样本,其中包含r个被完全观测到的样本,将所述被完全观测的样本按照从小到大的顺序排列为顺序统计量,并标记为对于左删失数据而言,其余n-r个未被完全观测的样本(即删失样本)取值均小于于将该n-r个样本的顺序统计量表示为对于右删失数据而言,其余n-r个
未被完全观测的样本(即删失样本)取值均大于将该n-r个样本的顺序统计量表示为
[0118]
2)对于左删失数据而言,通过把的概率放置在各点上,构建样本的经验累积概率分布对于右删失数据而言,通过把的概率放置在各点上,构建样本的经验累积概率分布
[0119]
3)从上述经验概率分布函数中有放回地抽取一个样本量为n的简单随机样本并表示为“重取样本”x
*

[0120]
4)采用em方法估计“重取样本”x
*
的概率分布参数θ的取值,并标记为
[0121]
5)重复步骤3)及步骤4)共m次,分别得到概率分布参数的估计值用于构建m个初始概率分布模型;
[0122]
(3)基于各个初始采样分布模型建立删失数据的条件概率分布,并开展随机采样来替代删失数据以构建m条完整数据集;
[0123]
1)计算样本发生删失的概率。具体地,对于分布参数为的正态分布模型来说,样本取值大于的概率可以表示为式(19)所示:
[0124][0125]
2)求解删失样本的条件概率分布。具体地,对于分布参数为的正态分布模型来说,样本取值大于的条件概率分布π(x

)可以表示为式(20)所示:
[0126][0127]
其中,为指示函数,即:
[0128]
3)基于条件概率分布开展随机采样以构建完整数据集。基于条件概率分布π(x

)进行随机采样生成n-r个样本{x

(1)
,

,x

(n-r)
},与r个被完全观测的样本构成完整数据集
[0129]
(4)针对m条完整数据集分别开展极大似然估计以构建备选分布模型;
[0130]
在完整数据集下,开展极大似然估计的计算表达式如式
(3)所示:
[0131][0132]
在m个分布模型对应的m条完整数据集下依据式(21)分别开展极大似然估计,直至获得m组完整数据集的极大似然估计并基于极大似然估计构建出m个相应的正态分布模型作为备选分布模型。
[0133]
(5)遴选具有最大信息熵的概率分布模型最为原始数据的不确定性表征模型;
[0134]
1)每组备选概率分布模型的信息熵依据式(22)进行计算:
[0135][0136]
其中,为第i组备选概率分布模型的概率密度函数;
[0137]
具体地,正态分布的信息熵可以表示为式(23)所示:
[0138][0139]
其中,ie表示正态分布信息熵,σ表示正态分布的标准差。
[0140]
由式(23)可知,正态分布的信息熵只与标准差σ有关。标准差σ值越大,正态分布的信息熵值越大。因此,备选概率分布模型中标准差参数最大的分布模型便是最大信息熵分布模型即最优分布模型,将最优分布模型最为所建立的不确定性表征模型。
[0141]
(6)拟合优度评估;
[0142]
引入k-l散度作为拟合优度评估指标来定量评价所提出不确定性建模方法的有效性和精度水平。k-l散度常用于衡量利用概率分布q拟合概率分布p时的信息损失,一般用于定量评估两个概率分布模型间的相似度水平。由k-l散度的定义可知,k-l散度的取值为非负数即d
kl
(p||q)≥0,当且仅当两个概率分布相等时k-l散度取值为零,两个概率分布模型之间的差异越大k-l散度数值越大,即估计误差越大k-l散度值越大。k-l散度的计算公式如式(24)所示:
[0143][0144]
其中,p是采样分布,其概率密度函数为p(x);q是估计分布,其概率密度函数为q(x)。
[0145]
设采样正态分布的概率密度函数为p(x|μ1,σ1),估计正态分布的概率密度函数为q(x|μ2,σ2),此时k-l散度的计算表达式如式(25)所示:
[0146][0147]
分别应用本发明提出的不确定性建模方法和现有研究中针对删失数据常用的em不确定性建模方法建立删失仿真数据集的不确定性表征模型。
[0148]
在ⅰ型删失数据集下所建立的两类不确定性模型相对于采样分布模型的k-l散度箱线图如图3所示,在ⅱ型删失数据集下所建立的两类不确定性模型相对于采样分布模型的k-l散度箱线图如图4所示。观察图3可以发现,当95.24和98.15作为删失临界值时,相对于em不确定性建模方法而言,本发明所提出的bmis不确定性建模方法的k-l散度的数值均更小,分散性也相对更小,异常值的数目相对更少且最大异常值也相对更小,表明本发明所提出不确定性建模方法的精度水平更高。观察图4可以发现,相对于em不确定性建模方法而言,本发明所提出的bmis不确定性建模方法在各个删失比例下的k-l散度的数值均更小,分散性也相对更小,异常值的数目相对更少且最大异常值也相对更小,表明本发明所提出不确定性建模方法的精度水平更高,同时在较高的删失比例也具有较高的建模精度。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1