一种基于核函数的扩容样本筛选方法

文档序号:9727786阅读:341来源:国知局
一种基于核函数的扩容样本筛选方法
【技术领域】
[0001] 本发明设及噪声源识别技术领域,具体设及一种基于核函数的扩容样本筛选方 法。
【背景技术】
[0002] 在船舶声学故障源识别实际应用中,由于实际典型试验故障样本的获取困难及昂 贵的试验成本,使其成为一个小样本噪声源识别问题。样本扩容是提高小样本条件下故障 源识别率的一个有效方法。通常将通过了一致性检验的全部扩容样本集直接应用于分类器 训练,然而分类器系统的准确性并不是随扩容样本数量线性增加的。未对扩容样本质量进 行评价控制带来的问题是:劣质的扩容样本信息可能会"对冲"真实样本信息,即出现"信息 对冲"现象,导致分类器识别性能下降。因此,如何对样本可信度进行评价W筛选出高质量 的扩容样本是提高噪声源识别率关键性的问题。
[0003] 目前关于可信度的研究主要是针对仿真模型的校验、验证和确认(简称"W&A")方 面。在面向仿真试验数据的可信度研究方面,使用广泛的一类数据可信度度量方法是W - 致性检验为基础的,在一定显著水平下,利用Bayes公式对通过一致性检验的数据计算其信 度,但该方法存在待定参数计算复杂等不足。基于信息散度的可信度度量方法是通过先验 分布与实际试验样本分布的差异进行信息散度计算,适用于已知样本分布的情形,否则需 计算样本的分布函数,运将增加算法的复杂度,同时还会引入计算误差。
[0004] 船舶声学故障源样本是一个高维的时间序列,且其分布函数难W确定。若采用上 述方法来度量样本可信度,除须克服上述方法自身的不足外,还将会面临"维数灾难"。若采 用降维处理将高维数据变换到低维的特征空间中,运将容易损失一些有用的特征信息,对 于小样本数据更是如此。
[000引核函数方法具有有效处理高维输入的特性,可将m维高维空间的内积运算转化为η 维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的"维数灾难"等 问题,因此在实践中得到了越来越广泛的应用。因此,如何将运一方法应用到小样本情况下 噪声源识别中,W提高噪声源识别率也就成为研究热点之一。

【发明内容】

[0006] 本发明的目的是提供一种基于核函数的扩容样本筛选方法化肥SS方法),利用核 函数方法对大量的扩容样本进行自动筛选,筛选出与真实样本尽可能相似的扩容样本参与 识别训练,实现训练集的高效扩容,W提高小样本条件下噪声源识别正确率。
[0007] 为了实现上述目的,本发明采用的技术方案如下:
[0008] -种基于核函数的扩容样本筛选方法,利用核函数可有效处理高维输入的特性筛 选出适合噪声源识别模型的高效扩容样本;对于不同的扩容样本构成的样本集,首先通过 相容性检验筛选出与真实样本相容的扩容样本;然后利用径向基核函数对已通过检验的扩 容样本计算其可信度;进一步W最小化紧致度为目标进行核参数选择,利用梯度下降算法, 通过逐次迭代的方法,更新核函数中的核参数,w保证每次迭代后样本集紧致度的逐渐降 低,最终实现紧致度最小化;选择紧致度最小状态时对应的核参数为最优核函数;再次计算 最优核参数下扩容样本集的可信度;选取可信度排在前列的扩容样本正序添加参与训练, 完成高度适合噪声源识别模型的扩容样本筛选过程。
[0009] 根据W上方案,所述相容性检验是指通过MMD方法计算扩容样本与真实样本集在 高维特征空间中的最大均值差异。
[0010] 根据W上方案,所述扩容样本的可信度通过基于核函数的样本可信度度量方法 (邸CM方法)来度量。
[0011] 根据W上方案,包括如下具体步骤:
[001引假设真实样本集和扩容样本集分别为X={xi,x2,. . .,xm}和Y={yi,y2,. . .,yN},其 中和捉.e巧d,对定义在空间巧d上的径向基核函数K(x,y)二6邱(-0| |x-y| I2),存在核非线 性映射Φ :识4 ^ Η,初选核参数0,将X和巧自线性映射到高维特征空间中,分别得到特征向 量Φ(χ04 = 1,2,...,Μ和 Φ (yj),j = l,2,. . .,Ν;
[0013] (1)通过相容性检验初步筛选扩容样本:
[0014] a、通过MMD方法计算两样本集在高维特征空间中的最大均值差异,即:
[0015] MMD[F,x,y]= I |E[ Φ (χ)]-Ε[ Φ (y)] | |η
[0016] 其中,Ε( ·)为函数期望值;Η为核特征空间;Φ( ·)为原函数在特征空间中的达 式;
[0017] b、将满足MMD[F,x,y]=0的扩容样本组成新扩容样本集Υ' ={yi,y2, . . .,ynew};
[0018] (2)度量初步筛选后扩容样本可信度:
[0019] 通过基于核函数的样本可信度度量方法计算新扩容样本集r的可信度qj:
[0020]
[0021]其中,W为扩容样本可信度;Μ为真实样本集所含样本数量;
[00对 (3) W最小化紧致度为目标,调整核参数:
[0023] 曰、按照可信度大小对¥/中各样本进行重排,得到¥/。={71。,72。,...,7。6邮},其中91。 >Q2。含...含qnew。,将真实样本与可信度较高的前L个扩容样本合并为新的数据集Ζ= 1X1, Χ2, · · · ,XM,yi日,y2日,· · · ,yL口};
[0024] b、计算数据集Z的紧致度c(〇):
[0025]
[0026] 其中,V为数据集Z的中屯、

[0027] C、为了求解紧致度最小时所对应的核参数〇k,通过采用梯度下降的方法来对核参 数进行逐步的调整,即:
[002引
[0029] 其中η为迭代次数;εη为每一步的迭代步长;On为第η次迭代后的核参数;
[0030] (4)对步骤(3)进行反复迭代,直至核参数收敛,迭代次数为20次,确定最优核参数 0 k及按照可信度大小重排后得到的扩容样本集=从&,於。,其中 (/k, 三'…;
[0031] (5)选取可信度较高的前X个扩容样本形成最终扩容样本集 取《/ =扣。,...,把。,},正序添加参与训练,完成扩容样本筛选过程。
[0032] 所述扩容样本化xpended Sample)是指在特征参数选择的基础上,综合集成并有 效利用已有的相关先验信息(各类历史数据、专家知识、研究对象结构特性等),并将其转化 为虚拟样本,实现对已有小样本训练集的合理扩容所得扩容样本。
[0033] 所述核函数(Kernel Function)为:设原始空间样本集Z= {zi, Z2,...,zl}, 诉",对定义在空间飛3上的核函数κ(.,.),存在核非线性映射φ ,将原始 空间奶叫央射到一个高维特征空间Η中,得到特征向量Φ (Zi),i = l,2,...,L。原始空间中任 意两点的内积Zi · zj被映射为特征向量的内积Φ (Zi) · Φ (zj),该内积可利用核函数K (·,·)来计算,即Φ(Ζι) · Φ佔)=K(Zi,Zj)。核函数可W有效处理高维输入。常用的核函 数有:(1)径向基(RBF)核函数 k(x,y)=e 邱(-| |x-y| |2/2 丫);(2)Sigmoid 核函数 k(x,y) = tanh(axV+0); (3)多项式核函数k(x,y) = (xV+i)d,deN;其中丫,a,0,d分别为参数。
[0034] 所述梯度下降算法(Gradient Descent Algorithm)为:一种用于求解函数无约束 极值问题的基本算法,它选择函数的负梯度方向(最速下降方向)作为迭代时的捜索方向。 [00 3引本发明的有益效果是:
[0036] 1)本发明利用核函数可有效处理高维输入的特点,通过相容性检验、可信度度量、 核参数优选等步骤筛选出高效扩容样本,有效度量扩容样本的可信度,并正确指导分类器 中训练样本的选择,能有效改善小样本情况下噪声源识别正确率;
[0037] 2)本发明可指导扩容样本容量选择,避免过多的扩容样本信息对真实样本信息造 成"信息对冲"现象。
【附图说明】
[
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1