一种机器错误数据描述与分类的方法及系统的制作方法

文档序号:10655362阅读:533来源:国知局
一种机器错误数据描述与分类的方法及系统的制作方法
【专利摘要】本发明公开了机器错误数据描述与分类的方法及系统,通过将一个隐藏特征提取项引入到现有的标签一致字典传播模型框架,提出一个“描述+分类”模型框架;为了增强数据的描述性能,模型将机器错误数据表示为一个稀疏重构部分,一个显著特征部分,一个重构误差部分;为了增强数据的分类性能与效率,将数据嵌入一个特征投影矩阵提取出数据的隐藏特征,基于数据的隐藏特征进行多类线性分类器的训练;为了增强分类器对于机器错误数据中的噪音和异类数据的鲁棒性能,对分类器进行L2,1范数正则化。通过针对数据的隐藏特征进行分类器训练,可快速实现样本外数据的归纳,不需要引入额外的稀疏重构过程,有效的提高了机器数据分类的效率与精准度。
【专利说明】
-种机器错误数据描述与分类的方法及系统
技术领域
[0001] 本发明设及数据挖掘和计算机视觉技术领域,特别设及一种机器错误数据描述与 分类的方法及系统。
【背景技术】
[0002] 随着科技的飞速发展,机械工具在交通业、制造业等领域体现出极其重要的价值, 而不可预知的机械故障也能造成极大的损失。由于人工检测故障费时费力,所W机器错误 分类技术(通过计算机技术快速进行机械故障诊断)的发展有着重大的意义,一旦研究成功 并投入使用,将产生巨大的社会和经济效益。计算机诊断机械故障主要依据故障机器数据 信号异于正常信号,且各部件损坏W及损坏程度不同,其数据信号都有区别。近年来,国内 外学者着眼于运一事实,已在机器错误分类技术上取得大量的成果,其中大部分研究工作 都集中在支持向量机识别、几何特征识别、神经网络识别等,而字典学习方法在机器错误分 类领域中的应用仍较少。
[0003] 鉴于字典学习方法已在面部识别、手写体识别、癌细胞检测等领域取得的重大成 功,因此可将该方法扩展到机器故障检测领域。K-Singular Value DecompositionWSVD) 作为经典的字典学习算法,通过学习一个重构字典,训练得到数据的稀疏编码来表征数据。 近些年学者针对判别型字典的学习展开研究,并提出许多经典算法,如D-KSVD (Discriminative K-SVD)、LC-KSVD化abel Consistent K-SVD)等。D-KSVD通过引入训练数 据的标签信息学到一个判别字典,有效保持字典各项与数据标签的内在联系,并计算得到 线性分类器,可对数据进行分类;LC-KSVD在D-KSVD的基础上,引入一个判别稀疏编码错误 项,使得判别字典的误差最小化。但是,上述方法在处理样本外数据的分类问题时,都需要 先使用训练过程中得到的字典对新来样本进行处理,得到新来样本的稀疏编码,进而对其 进行类别归纳,效率比较低。
[0004] 因此,如何提供一种方便归纳样本外数据类别的字典学习方法W降低开销用于机 器错误分类技术,是本领域技术人员亟待解决的问题。

【发明内容】

[0005] 本发明的目的是提供一种机器错误数据描述与分类的方法及系统,通过针对机器 数据的隐藏特征进行分类器训练,可快速实现待测机器数据的归纳,不需要引入额外的稀 疏重构过程,有效的提高了机器数据分类的效率与精准度。
[0006] 为解决上述技术问题,本发明提供一种机器错误数据描述与分类的方法,包括:
[0007] 将原始训练集中样本机器数据进行标签一致字典学习,计算得到特征投影矩阵, 用于样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特征,计算得到线性 多类分类器,用于待测机器数据的处理;
[000引利用所述特征投影矩阵提取所述待测机器数据的隐藏特征;
[0009]将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进行分类,输出所述待 测机器数据的类别归属概率,确定所述待测机器数据的类别。
[0010] 其中,将原始训练集中样本机器数据进行标签一致字典学习,计算得到特征投影 矩阵,用于样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特征,计算得到 线性多类分类器,用于待测机器数据的处理,包括:
[0011] 获取原始训练集中图像数据向量集^
,其中,n是样本机 器数据的维度,N是样本机器数据的数量,且所述图像数据包含有C个类别标签(c〉2);
[0012] 利用
. |si||〇《Ti,iG{j| j = l,2,…,N}对训练数据进行训练,得到特征投影矩阵和线性多类分 类器;
[0013] 其中,Tl是稀疏约束,
量学习得到的字典,K是字典的维度,
是输入训练集合的稀疏编码,Pg腰"X"是特征投影矩阵
是稀疏重构错误
是判别稀疏编码;qi是输入向量Xi的稀疏编码,当样本机 器数据&和&属于不同类别时,运两个样本机器数据在帅对应的项为0,同类别时,对应的项为 〇〇3佔,刮);||谷-^5||^为判别稀疏编码错误,〇是该项的权衡参数;
是训练得 到的分类器,
是训练数据集的类别标签矩阵,
中非零项所在的列数是训练样本Xi的类别标签,
妇分类错误,e是该项的权衡参 数;I |WT| h,i是分类器的L2,l正则化项,定义为
,其中0是对角矩 阵,0ii = l/2| |讯1| k,i = l,2,…,t。
[0014] 其中,利用所述特征投影矩阵提取所述待测机器数据的隐藏特征,包括:
[001引将所述待测机器数据Xnew,按照公式fnew = PXnew嵌入到所述特征投影矩阵P,得到所 述待测机器数据的隐藏特征fnew。
[0016] 其中,将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进行分类,输出 所述待测机器数据的类别归属概率,确定所述待测机器数据的类别,包括:
[0017] 将所述待测机器数据的隐藏特征输入到所述线性多类分类器中,输出所述待测机 器数据的类别归属概率;
[0018] 将所述类别归属概率最大值对应的类别归属作为所述待测机器数据的类别。
[0019]其中,还包括:
[0020] 定期更新所述特征投影矩阵及所述线性多类分类器。
[0021] 本发明还提供一种机器错误数据描述与分类的系统,包括:
[0022] 训练模块,用于将原始训练集中样本机器数据进行标签一致字典学习,计算得到 特征投影矩阵,用于样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特征, 计算得到线性多类分类器,用于待测机器数据的处理;
[0023] 测试预处理模块,用于利用所述特征投影矩阵提取所述待测机器数据的隐藏特 征;
[0024] 测试模块,用于将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进行分 类,输出所述待测机器数据的类别归属概率,确定所述待测机器数据的类别。
[002引其中,所述训练模块包括:
[0026] 获取单元,获取原始训练集中图像数据向量集台
,其中,n 是样本机器数据的维度,N是样本机器数据的数量,且所述图像数据包含有C个类别标签k〉 2);
[0027] 计算单元,利丹
s.t. Msil |o《Ti,iG{j| j = l,2,…,N}对训练数据进行训练,得到特征投影矩阵和线性多 类分类器;
[0028] 其中,Tl是稀疏约束,
是学习得到的字典,K是字典的维度, _
_ 是输入训练集合的稀疏编码,尸e股"X"是特征投影矩阵,II义-化'-巧:-倍 是稀疏重构错误;
是判别稀疏编码;qi是输入向量Xi的稀疏编码,当样本机
器数据&和&属于不同类别时,运两个样本机器数据在Q中对应的项为0,同类别时,对应的项为 c〇s(xi,x^||0-心为判别稀疏编码错误,a是该项的权衡参数; 到的分类器,
量训练数据集的类别标签矩阵 中非零项所在的列数是训练样本Xi的类别标签
为分类错误,e是该项的权衡参 数;I |WT| ki是分类器的L2,l正则化项,定义关
,其中0是对角矩 阵,〇ii = l/2| |讯1| |2,i = l,2,…,t。
[0029] 其中,所述测试预处理模块为将所述待测机器数据Xnew,按照公式fnew = PXnew嵌入 到所述特征投影矩阵P,得到所述待测机器数据的隐藏特征fnew的模块。
[0030] 其中,所述测试模块包括:
[0031] 线性多类分类器单元,用于将所述待测机器数据的隐藏特征输入到所述线性多类 分类器中,输出所述待测机器数据的类别归属概率;
[0032] 类别确定单元,用于将所述类别归属概率最大值对应的类别归属作为所述待测机 器数据的类别。
[0033] 其中,还包括:
[0034] 更新模块,用于定期更新所述特征投影矩阵及所述线性多类分类器。
[0035] 本发明所提供的机器错误数据描述与分类的方法,包括:将原始训练集中样本机 器数据进行标签一致字典学习,计算得到特征投影矩阵,用于样本机器数据隐藏特征的提 取;并利用所述样本机器数据的隐藏特征,计算得到线性多类分类器,用于待测机器数据的 处理;利用所述特征投影矩阵提取所述待测机器数据的隐藏特征;将所述待测机器数据的 隐藏特征嵌入所述线性多类分类器进行分类,输出所述待测机器数据的类别归属概率,确 定所述待测机器数据的类别;
[0036] 经由上述的技术方案可知,与现有技术相比,该方法通过将一个隐藏特征提取项 引入到现有的标签一致字典传播模型框架,提出一个"描述+分类"模型框架;为了增强数据 的描述性能,模型将机器错误数据表示为一个稀疏重构部分,一个显著特征部分,W及一个 重构误差部分;为了增强数据的分类性能与效率,将数据嵌入一个特征投影矩阵提取出数 据的隐藏特征,进而基于数据的隐藏特征进行多类线性分类器的训练;通过针对数据的隐 藏特征进行分类器训练,可快速实现样本外数据的归纳,不需要引入额外的稀疏重构过程, 有效的提高了机器数据分类的效率与精准度。
【附图说明】
[0037] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0038] 图1为本发明实施例公开的一种机器错误数据描述与分类的方法流程图;
[0039] 图2为本发明实施例公开的一种机器错误数据描述与分类的系统的结构框图。
【具体实施方式】
[0040] 本发明的核屯、是提供一种机器错误数据描述与分类的方法及系统,通过针对机器 数据的隐藏特征进行分类器训练,可快速实现待测机器数据的归纳,不需要引入额外的稀 疏重构过程,有效的提高了机器数据分类的效率与精准度。
[0041] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042] 本发明在两个机器数据集的数据库进行了测试:Synthetic machine dataset和 Rolling bearing fault dataseteSyn1:hetic数据库共有960个样本,其中包含4个类别,每 个类别有240个样本;Rol 1 ing bearing数据库包含4个机器数据集,本发明选取其中的IHP、 2HP和3HP进行测试,1HP、2HP和3HP都包含800个样本,其中包含10个类别,每个类别80个样 本。运些数据库从多方面收集,因而测试结果具有普遍说明性。
[0043] 请参考图1,图1为本发明实施例所提供的机器错误数据描述与分类的方法的流程 图;该方法可W包括:
[0044] S100、将原始训练集中样本机器数据进行标签一致字典学习,计算得到特征投影 矩阵,用于样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特征,计算得到 线性多类分类器,用于待测机器数据的处理;
[0045] 其中,原始训练集中样本机器数据可W是图像数据向量集合;且为了方便归纳样 本外数据的类别即待测机器数据的类别,通过字典学习方法计算得到特征投影矩阵,W降 低开销。上述步骤的具体过程可W是:
[0046] 获取原始训练集中图像数据向量集合
,其中,n是样本机 器数据的维度,N是样本机器数据的数量,且所述图像数据包含有C个类别标签(c〉2);
[0047] 利用
|si||〇《Ti,iG{j| j = l,2,…,N}对训练数据进行训练,得到特征投影矩阵和线性多类分 类器;
[0048] 其中,Tl是稀疏约束,使得每个训练样本的稀疏编码有不多于Tl的非零项,
是学习得到的字典,K是字典的维度,…如]€ ITXW是输入训练集 合的稀疏编码,戶E化"X"是特征投影矩阵,…如]e 是判别稀疏编码;qi是输入向 量Xi的稀疏编码,当样本机器数据Xi和Xj属于不同类别时,运两个样本机器数据在Q中对应 的项为0,同类别时,对应的项为COS(Xi,Xj);例如,= 包含3个类别的数据,X1,X2属于 类别1,X3,X4属于类别2,X5,X6属于类别3,Q可定义为:
[0049]

[0050] Il餘得到的分类器,吸"W是训练数据集的类别标 签矩阵 中非零项所在的列数是训练样本Xi的类别标签,I护 是稀疏重构错误;Il谷-泌I居为判别稀疏编码错误,a是该项的权衡参数;Il好-为分类错 误,e是该项的权衡参数;||护| ki是分类器的L2,l正则化项,定义为|Kr|。=幻|".'[ =2".(WOW'), 其中O是对角矩阵,Oii=l/2||wl||2,i = l,2,…,t。a、0、丫是各项的权衡参数。通过同时最 小化各项误差,最后可得到最优的特征投影矩阵P,判别的可重构字典D,W及线性分类器W, PX即为训练数据的隐藏特征。
[0化1] 基于此,上式可改写为:
[0化2]
[0053] s.t. I |si| |o《Ti,iG{j| j = l,2,...,N}
[0054] 由于在该模型中,包含多个主要变量(D,S,P,W),且各变量相互影响,因此不能直 接解决。因此求解该问题需要用到最优解策略,具体为:
[0055] 在SlOO步骤得到初始化的特征投影分类器P后,通过移除独立于S的各项可得如下 目标函数:
[0化6]
[0057] Subjl |si| |o《Ti,iG{j| j = l,2,...,N}
[005引计貸时,该问颗可掉化为化下问颗:
[0化9]
[0060] Subjl |si| |o《Ti,iG{j| j = l,2,...,N}
[0061] 假定
,原问题转化为:
[0062]
[0063]
[0064] 该问题可归结为KSVD问题,可有效的利用KSVD算法找到最优解,即dk和它相应的 系数讀(S第K行)在同一时刻更新,
,4和化中舍弃0项之后的表示为巧 巧每,可通过W下方法得到dk和巧:
[00 化]
[0066] 其中,与可利用SVD分解得到
。得 到特征投影矩阵P之后,通过移除独立于P的各项可得如下目标函数:
[0067]
[006引通过'一。= 0,可计算得到:
[0069] P = (I N+ewT^O -1 (YxT+削T册T) (XXT 厂 1
[0070] 其中Y=X-DS。通过パ户,訓'=日,可计算得到:
[0071] W=0HXTpT(0PXXTpT+Y〇)-i
[0072] 获得P和W之后,可用于更新字典。
[0073] 重复迭代上述步骤直至得到最优线性分类器。
[0074] 下面具体提供一种机器错误数据描述与分类算法:
[0075] 输入:原始数据矩阵义e吸"XW ,控制参数a,e,丫,稀疏约束Tl,字典维度K,W及H,Q
[0076] 输出:D,S,P,W
[0077] 1).计算pW,D(W,A(W,s(°,W(W :
[007引用LC-KSVD训练字典的方法计算D(W保持各样本类别与字典项目之间的相关性;
[0079] 用OMP算法计算X的稀疏编码SW ;
[0080] 初始化A(O),A(O) = qWxT(xWx(Wt+入I )-1.
[00川初始化 pW,p(0) = (x-DWsW)xT(xxT+Mi)-i;
[0082] 初始化W(O),W(W =H(pWx)T(pWxxTpWT+入2l )-1;
[0083] 3).计算D,P,W,S
[0084] 当t = 0时:KSVD的迭代次数-1
[0085] 初始化
[0086] 用KSVD算法通过解决如下问题更新Dn J""和SnJ"":
[0087]
[008引得 D("i)与 S("i),更新 P(W) = QN+卵(t)Vt))-i(Y(t)xT+卵(t"HXT)(XXT)-i,更新 W = P HxTp(W)T(邸("i)XXTp("i)T+ 丫 0(t) )-1;
[0089] 继续迭代训练,t = t+l。
[0090] S110、利用所述特征投影矩阵提取所述待测机器数据的隐藏特征;
[0091] 其中,该步骤即利用训练生成的特征投影矩阵提取待测机器数据的隐藏特征,具 体过程可W如下:
[0092] 将所述待测机器数据Xnew,按照公式fnew = PXnew嵌入到所述特征投影矩阵P,得到所 述待测机器数据的隐藏特征fnew,为步骤120的分类做准备。
[0093] S120、将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进行分类,输出 所述待测机器数据的类别归属概率,确定所述待测机器数据的类别。
[0094] 其中,该步骤即利用训练生成的线性多类分类器对待测机器数据进行分类,具体 过程可W如下:
[00M]将所述待测机器数据的隐藏特征输入到所述线性多类分类器中,输出所述待测机 器数据的类别归属概率;
[0096] 将所述类别归属概率最大值对应的类别归属作为所述待测机器数据的类别。
[0097] 其中,即将所述得的机器数据隐藏特征输入计算得到线性分类器;
[0098] 利用线性分类器估计一个标签向量I=WPxnew;
[0099] Xnew的类别通过计算
得到。
[0100] 其中,在进行机器数据的分类时,若已经存在特征投影矩阵及线性多类分类器时 不必要执行S100,只需要执行Slio和S120即可,步骤100仅在第一次使用该实施例进行分类 时,需要对特征投影矩阵及线性多类分类器进行训练。
[0101] 基于上述技术方案,本发明实施例提供的机器错误数据描述与分类的方法,该方 法通过将一个隐藏特征提取项引入到现有的标签一致字典传播模型框架,提出一个"描述+ 分类"模型框架。为了增强数据的描述性能,模型将机器错误数据表示为一个稀疏重构部 分,一个显著特征部分,W及一个重构误差部分;为了增强数据的分类性能与效率,将数据 嵌入一个特征投影矩阵提取出数据的隐藏特征,进而基于数据的隐藏特征进行线性多类分 类器的训练;进一步为了增强分类器对于机器错误数据中的噪音和异类数据的鲁棒性能, 对线性多类分类器进行L2,l范数正则化。通过针对数据的隐藏特征进行线性多类分类器训 练,可快速实现样本外数据的归纳,不需要引入额外的稀疏重构过程,有效的提高了机器数 据分类的效率与精准度。
[0102 ]基于上述技术方案,该方法还可W包括:
[0103] 定期更新所述特征投影矩阵及所述线性多类分类器。
[0104] 其中,为了保证机器错误数据描述与分类的效果,需要定期对训练得到的特征投 影矩阵及线性多类分类器进行维护。如利用新的机器数据训练集或者更新之前的训练机器 数据进行训练。
[0105] 基于上述技术方案,本发明实施例提供的机器错误数据描述与分类的方法,首先 引入半监督的标签传播算法即标签一致字典学习算法作为机器错误数据预处理步骤,利用 少量已知机器数据的标签,快速估计出未知的机器数据的标签,组成分类训练集。基于训练 集中的训练机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀 疏编码错误和分类错误,计算得到一个判别的可重构字典,机器数据的稀疏编码和一个可 预测的线性多类分类器,同时可有效保持字典中各项与机器数据标签之间的内在关系。进 而,利用得到的稀疏编码来表征机器数据的特征,输入计算得到的线性多类分类器进行预 测,确定待测机器数据的类别,实现机器数据的错误分类。
[0106] 本发明实施例提供了机器错误数据描述与分类的方法,通过针对数据的隐藏特征 进行线性多类分类器训练,可快速实现样本外数据的归纳。
[0107] 下面对本发明实施例提供的机器错误数据描述与分类的系统进行介绍,下文描述 的机器错误数据描述与分类的系统与上文描述的机器错误数据描述与分类的方法可相互 对应参照。
[0108] 请参考图2,图2为本发明实施例公开的一种机器错误数据描述与分类的系统的结 构框图;该系统可W包括:
[0109] 训练模块100,用于将原始训练集中样本机器数据进行标签一致字典学习,计算得 到特征投影矩阵,用于样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特 征,计算得到线性多类分类器,用于待测机器数据的处理;
[0110] 测试预处理模块200,用于利用所述特征投影矩阵提取所述待测机器数据的隐藏 特征;
[0111] 测试模块300,用于将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进 行分类,输出所述待测机器数据的类别归属概率,确定所述待测机器数据的类别。
[0112] 可选的,所述训练模块100包括:
[0113] 获取单元,获取原始训练集中图像数据向量集合.
,其中,n 是样本机器数据的维度,N是样本机器数据的数量,且所述图像数据包含有C个类别标签k〉 2);
[0114] 计算单元,利用
s.t. Msil |o《Ti,iG{j| j = l,2,…,N}对训练数据进行训练,得到特征投影矩阵和线性多 类分类器;
[0115] 其中,Tl是稀疏约束,1
是学习得到的字典,K是字典的维度,
是输入训练集合的稀疏编码,P e腺胃是特征投影矩阵,I义是 稀疏重构错误;…] G胶KXW是判别稀疏编码;qi是输入向量Xi的稀疏编码,当样本机器 数据&和^属于不同类别时,运两个样本机器数据在Q中对应的项为0,同类别时,对应的项为 cosUi^};!食-刈居为判别稀疏编码错误,a是该项的权衡参数;W=[巧...W,,] e吸""是训练得 到的分类器,
是训练数据集的类别标签矩阵,
中非零项所在的列数是训练样本Xi的类别标签,
3分类错误,e是该项的权衡参 数;I |wT||2,i是分类器的L2,l正则化项,定义关
其中0是对角矩 阵,〇ii = l/2| |讯1| |2,i = l,2,…,t。
[0116] 可选的,所述测试预处理模块200为将所述待测机器数据Xnew,按照公式fnew = PXnew 嵌入到所述特征投影矩阵P,得到所述待测机器数据的隐藏特征fnew的模块。
[0117] 可选的,所述测试模块300包括:
[0118] 线性多类分类器单元,用于将所述待测机器数据的隐藏特征输入到所述线性多类 分类器中,输出所述待测机器数据的类别归属概率;
[0119] 类别确定单元,用于将所述类别归属概率最大值对应的类别归属作为所述待测机 器数据的类别。
[0120] 可选的,基于上述技术方案,该系统还包括:
[0121] 更新模块,用于定期更新所述特征投影矩阵及所述线性多类分类器。
[0122] 请参阅表 1,表 1 为本发明方法和SRC、D-KSVD(Discriminative K-SVD)、LC-KSVD1、 LC-KSVD2化abel Consistent K-SVD)、FDDL方法识别结果对比表,给出了各方法实验的平 均和最高识别率W及分类时间。本例中,参与比较的D-KSVD和LC-KSVD方法(采用各文献中 算法使用的默认参数)使用各自得到的稀疏编码用于机器数据的特征提取,且分类均采用 标准化线性分类器。试验中,每类数据随机选取其中的两个作为训练数据,其他的作为测试 数据。
[0123] 表1.本发明和SRC、D-KSVD、LC-KSVD1和LC-KSVD2方法识别结果对比
[0124]
[0125] 综上所述:本发明公开了 一种机器错误数据描述与分类方法及系统,通过将一个 隐藏特征提取项引入到现有的标签一致字典传播模型框架,提出一个"描述+分类"模型框 架。为了增强数据的描述性能,模型将机器错误数据表示为一个稀疏重构部分,一个显著特 征部分,W及一个重构误差部分;为了增强数据的分类性能与效率,将数据嵌入一个特征投 影矩阵提取出数据的隐藏特征,进而基于数据的隐藏特征进行多类线性分类器的训练;为 了增强分类器对于机器错误数据中的噪音和异类数据的鲁棒性能,对分类器进行L2,l范数 正则化。通过针对数据的隐藏特征进行分类器训练,可快速实现样本外数据的归纳,不需要 引入额外的稀疏重构过程,有效的提高了机器数据分类的效率与精准度。
[0126] 说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实 施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而 言,由于其与实施例公开的方法相对应,所W描述的比较简单,相关之处参见方法部分说明 即可。
[0127] 专业人员还可W进一步意识到,结合本文中所公开的实施例描述的各示例的单元 及算法步骤,能够W电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和 软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。运些 功能究竟W硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业 技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能,但是运种实现不应 认为超出本发明的范围。
[0128] 结合本文中所公开的实施例描述的方法或算法的步骤可W直接用硬件、处理器执 行的软件模块,或者二者的结合来实施。软件模块可W置于随机存储器(RAM)、内存、只读存 储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术 领域内所公知的任意其它形式的存储介质中。
[0129] W上对本发明所提供的机器错误数据描述与分类的方法及系统进行了详细介绍。 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,W上实施例的说明只是用 于帮助理解本发明的方法及其核屯、思想。应当指出,对于本技术领域的普通技术人员来说, 在不脱离本发明原理的前提下,还可W对本发明进行若干改进和修饰,运些改进和修饰也 落入本发明权利要求的保护范围内。
【主权项】
1. 一种机器错误数据描述与分类的方法,其特征在于,包括: 将原始训练集中样本机器数据进行标签一致字典学习,计算得到特征投影矩阵,用于 样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特征,计算得到线性多类 分类器,用于待测机器数据的处理; 利用所述特征投影矩阵提取所述待测机器数据的隐藏特征; 将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进行分类,输出所述待测机 器数据的类别归属概率,确定所述待测机器数据的类别。2. 根据权利要求1所述的方法,其特征在于,将原始训练集中样本机器数据进行标签一 致字典学习,计算得到特征投影矩阵,用于样本机器数据隐藏特征的提取;并利用所述样本 机器数据的隐藏特征,计算得到线性多类分类器,用于待测机器数据的处理,包括: 获取原始训练集中图像数据向量集合Z ...,Xjv] e 1ΤχΛ?,其中,η是样本机器数 据的维度,N是样本机器数据的数量,且所述图像数据包含有c个类别标签(c>2);s.t. I |Sl| |〇彡j = l,2,…,N}对训练数据进行训练,得到特征投影矩阵和线 性多类分类器; 其中,T1是稀疏约束,β = 各;是学习得到的字典,K是字典的维度, 是输入训练集合的稀疏编码,是特征投影矩阵,I尤-AS-KTl 是稀疏重构错误;…和]e Mhv是判别稀疏编码;qi是输入向量X1的稀疏编码,当样本 机器数据^和&属于不同类别时,这两个样本机器数据在Q中对应的项为0,同类别时,对应的项 为cos( Xl,X判别稀疏编码错误,α是该项的权衡参数;PHw1 ···wK] 是训练 得到的分类器,I训练数据集的类别标签矩阵,f 中非零项所在的列数是训练样本X1的类别标签为分类错误,β是该项的权衡参 数;I |WT| 12>1是分类器的L2,l正则化项,定义为,其中O是对角矩阵3. 根据权利要求1所述的方法,其特征在于,利用所述特征投影矩阵提取所述待测机器 数据的隐藏特征,包括: 将所述待测机器数据Xn?,按照公式fn?=PXn?嵌入到所述特征投影矩阵P,得到所述待 测机器数据的隐藏特征fnew。4. 根据权利要求1所述的方法,其特征在于,将所述待测机器数据的隐藏特征嵌入所述 线性多类分类器进行分类,输出所述待测机器数据的类别归属概率,确定所述待测机器数 据的类别,包括: 将所述待测机器数据的隐藏特征输入到所述线性多类分类器中,输出所述待测机器数 据的类别归属概率; 将所述类别归属概率最大值对应的类别归属作为所述待测机器数据的类别。5. 根据权利要求1至4任一项所述的方法,其特征在于,还包括: 定期更新所述特征投影矩阵及所述线性多类分类器。6. -种机器错误数据描述与分类的系统,其特征在于,包括: 训练模块,用于将原始训练集中样本机器数据进行标签一致字典学习,计算得到特征 投影矩阵,用于样本机器数据隐藏特征的提取;并利用所述样本机器数据的隐藏特征,计算 得到线性多类分类器,用于待测机器数据的处理; 测试预处理模块,用于利用所述特征投影矩阵提取所述待测机器数据的隐藏特征; 测试模块,用于将所述待测机器数据的隐藏特征嵌入所述线性多类分类器进行分类, 输出所述待测机器数据的类别归属概率,确定所述待测机器数据的类别。7. 根据权利要求6所述的系统,其特征在于,所述训练模块包括: 获取单元,获取原始训练集中图像数据向量集合,其中,η是样 本机器数据的维度,N是样本机器数据的数量,且所述图像数据包含有c个类别标签(c>2); 计算单元,利用I Sl I j = l,2,…,N}对训练数据进行训练,得到特征投影矩阵和线性多类分 类器; 其中,T1是稀疏约束,是学习得到的字典,K是字典的维度, S=[馬· ] e是输入训练集合的稀疏编码,/> e 是特征投影矩阵,|μτ -谢-是 稀疏重构错误:是判别稀疏编码;Φ是输入向量X1的稀疏编码,当样本机器 数据属于不同类别时,这两个样本机器数据在Q中对应的项为〇,同类别时,对应的项为为判别稀疏编码错误,α是该项的权衡参数;F=Ovk] eRw是训练得 到的分类器,.好…sir#是训练数据集的类别标签矩阵,4 …0,1,HjeMc 中非零项所在的列数是训练样本X1的类别标签,为分类错误,β是该项的权衡参 数;I |WT| |2>1是分类器的L2,1正则化项,定义戈其中〇是对角矩 阵,Oii = l/2| Iw1I |2,? = 1,2,··,?。8. 根据权利要求6所述的系统,其特征在于,所述测试预处理模块为将所述待测机器数 据Xnm按照公式fnOT=P Xn?嵌入到所述特征投影矩阵P,得到所述待测机器数据的隐藏特征 fnew的模块。 9 .根据权利要求6所述的系统,其特征在于,所述测试模块包括: 线性多类分类器单元,用于将所述待测机器数据的隐藏特征输入到所述线性多类分类 器中,输出所述待测机器数据的类别归属概率; 类别确定单元,用于将所述类别归属概率最大值对应的类别归属作为所述待测机器数 据的类别。10.根据权利要求6至9任一项所述的系统,其特征在于,还包括: 更新模块,用于定期更新所述特征投影矩阵及所述线性多类分类器。
【文档编号】G06F17/30GK106021525SQ201610352058
【公开日】2016年10月12日
【申请日】2016年5月25日
【发明人】张召, 江威明, 李凡长, 张莉, 王邦军
【申请人】苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1