一种基于核函数的扩容样本筛选方法

文档序号：9727786阅读：387来源：国知局

一种基于核函数的扩容样本筛选方法
【技术领域】
[0001] 本发明设及噪声源识别技术领域，具体设及一种基于核函数的扩容样本筛选方法。
【背景技术】
[0002] 在船舶声学故障源识别实际应用中，由于实际典型试验故障样本的获取困难及昂贵的试验成本，使其成为一个小样本噪声源识别问题。样本扩容是提高小样本条件下故障源识别率的一个有效方法。通常将通过了一致性检验的全部扩容样本集直接应用于分类器训练，然而分类器系统的准确性并不是随扩容样本数量线性增加的。未对扩容样本质量进行评价控制带来的问题是:劣质的扩容样本信息可能会"对冲"真实样本信息，即出现"信息对冲"现象，导致分类器识别性能下降。因此，如何对样本可信度进行评价W筛选出高质量的扩容样本是提高噪声源识别率关键性的问题。
[0003] 目前关于可信度的研究主要是针对仿真模型的校验、验证和确认(简称"W&A")方面。在面向仿真试验数据的可信度研究方面，使用广泛的一类数据可信度度量方法是W - 致性检验为基础的，在一定显著水平下，利用Bayes公式对通过一致性检验的数据计算其信度，但该方法存在待定参数计算复杂等不足。基于信息散度的可信度度量方法是通过先验分布与实际试验样本分布的差异进行信息散度计算，适用于已知样本分布的情形，否则需计算样本的分布函数，运将增加算法的复杂度，同时还会引入计算误差。
[0004] 船舶声学故障源样本是一个高维的时间序列，且其分布函数难W确定。若采用上述方法来度量样本可信度，除须克服上述方法自身的不足外，还将会面临"维数灾难"。若采用降维处理将高维数据变换到低维的特征空间中，运将容易损失一些有用的特征信息，对于小样本数据更是如此。
[000引核函数方法具有有效处理高维输入的特性，可将m维高维空间的内积运算转化为η 维低维输入空间的核函数计算，从而巧妙地解决了在高维特征空间中计算的"维数灾难"等问题，因此在实践中得到了越来越广泛的应用。因此，如何将运一方法应用到小样本情况下噪声源识别中，W提高噪声源识别率也就成为研究热点之一。

【发明内容】

[0006] 本发明的目的是提供一种基于核函数的扩容样本筛选方法化肥SS方法），利用核函数方法对大量的扩容样本进行自动筛选，筛选出与真实样本尽可能相似的扩容样本参与识别训练，实现训练集的高效扩容，W提高小样本条件下噪声源识别正确率。
[0007] 为了实现上述目的，本发明采用的技术方案如下：
[0008] -种基于核函数的扩容样本筛选方法，利用核函数可有效处理高维输入的特性筛选出适合噪声源识别模型的高效扩容样本;对于不同的扩容样本构成的样本集，首先通过相容性检验筛选出与真实样本相容的扩容样本;然后利用径向基核函数对已通过检验的扩容样本计算其可信度;进一步W最小化紧致度为目标进行核参数选择，利用梯度下降算法，通过逐次迭代的方法，更新核函数中的核参数，w保证每次迭代后样本集紧致度的逐渐降低，最终实现紧致度最小化;选择紧致度最小状态时对应的核参数为最优核函数;再次计算最优核参数下扩容样本集的可信度;选取可信度排在前列的扩容样本正序添加参与训练，完成高度适合噪声源识别模型的扩容样本筛选过程。
[0009] 根据W上方案，所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在高维特征空间中的最大均值差异。
[0010] 根据W上方案，所述扩容样本的可信度通过基于核函数的样本可信度度量方法 (邸CM方法)来度量。
[0011] 根据W上方案，包括如下具体步骤：
[001引假设真实样本集和扩容样本集分别为X={xi，x2,. . .，xm}和Y={yi，y2,. . .，yN}，其中和捉.e巧d，对定义在空间巧d上的径向基核函数K(x，y)二6邱(-0| |x-y| I2)，存在核非线性映射Φ :识4 ^ Η，初选核参数0，将X和巧自线性映射到高维特征空间中，分别得到特征向量Φ(χ04 = 1，2，...，Μ和 Φ (yj)，j = l，2,. . .，Ν;
[0013] (1)通过相容性检验初步筛选扩容样本：
[0014] a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异，即：
[0015] MMD[F,x,y]= I |E[ Φ (χ)]-Ε[ Φ (y)] | |η
[0016] 其中，Ε( ·)为函数期望值;Η为核特征空间；Φ( ·)为原函数在特征空间中的达式；
[0017] b、将满足MMD[F，x，y]=0的扩容样本组成新扩容样本集Υ' ={yi，y2, . . .，ynew};
[0018] (2)度量初步筛选后扩容样本可信度：
[0019] 通过基于核函数的样本可信度度量方法计算新扩容样本集r的可信度qj:
[0020]
[0021]其中，W为扩容样本可信度;Μ为真实样本集所含样本数量；
[00对（3) W最小化紧致度为目标，调整核参数：
[0023] 曰、按照可信度大小对￥/中各样本进行重排，得到￥/。={71。，72。，...，7。6邮}，其中91。 >Q2。含...含qnew。，将真实样本与可信度较高的前L个扩容样本合并为新的数据集Ζ= 1X1， Χ2, · · · ,XM,yi日,y2日,· · · ,yL口};
[0024] b、计算数据集Z的紧致度c(〇):
[0025]
[0026] 其中，V为数据集Z的中屯、
；
[0027] C、为了求解紧致度最小时所对应的核参数〇k，通过采用梯度下降的方法来对核参数进行逐步的调整，即：
[002引
[0029] 其中η为迭代次数;εη为每一步的迭代步长;On为第η次迭代后的核参数；
[0030] (4)对步骤(3)进行反复迭代，直至核参数收敛，迭代次数为20次，确定最优核参数 0 k及按照可信度大小重排后得到的扩容样本集=从&，於。,其中 (/k, 三'…;
[0031] (5)选取可信度较高的前X个扩容样本形成最终扩容样本集取《/ =扣。，...，把。,}，正序添加参与训练，完成扩容样本筛选过程。
[0032] 所述扩容样本化xpended Sample)是指在特征参数选择的基础上，综合集成并有效利用已有的相关先验信息(各类历史数据、专家知识、研究对象结构特性等），并将其转化为虚拟样本，实现对已有小样本训练集的合理扩容所得扩容样本。
[0033] 所述核函数（Kernel Function)为：设原始空间样本集Z= {zi, Z2，...，zl}，诉"，对定义在空间飛3上的核函数κ(.，.），存在核非线性映射φ ，将原始空间奶叫央射到一个高维特征空间Η中，得到特征向量Φ (Zi)，i = l，2,...，L。原始空间中任意两点的内积Zi · zj被映射为特征向量的内积Φ (Zi) · Φ (zj)，该内积可利用核函数K (·，·）来计算，即Φ(Ζι) · Φ佔）=K(Zi，Zj)。核函数可W有效处理高维输入。常用的核函数有：（1)径向基(RBF)核函数 k(x，y)=e 邱（-| |x-y| |2/2 丫）；（2)Sigmoid 核函数 k(x，y) = tanh(axV+0); (3)多项式核函数k(x,y) = (xV+i)d，deN;其中丫，a,0,d分别为参数。
[0034] 所述梯度下降算法(Gradient Descent Algorithm)为:一种用于求解函数无约束极值问题的基本算法，它选择函数的负梯度方向（最速下降方向）作为迭代时的捜索方向。 [00 3引本发明的有益效果是：
[0036] 1)本发明利用核函数可有效处理高维输入的特点，通过相容性检验、可信度度量、核参数优选等步骤筛选出高效扩容样本，有效度量扩容样本的可信度，并正确指导分类器中训练样本的选择，能有效改善小样本情况下噪声源识别正确率；
[0037] 2)本发明可指导扩容样本容量选择，避免过多的扩容样本信息对真实样本信息造成"信息对冲"现象。
【附图说明】
[

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章林柯;魏娜;李和君;胡恒宾;李大坤;
技术所有人：章林柯;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。