专利名称:机器嗅觉气味类别与强度同时确定方法
技术领域:
本发明涉及一种机器嗅觉同时确定气味类别与强度的方法,具体地说,涉及一种面向高维、大样本、多类别学习问题的,基于函数逼近模型集合体的机器嗅觉气味类别与强度同时确定的方法。
背景技术:
经验丰富的专家能识别4000多种气味,但难以定量确定气味的强度。与之相比,机器嗅觉对气味的分析能力还十分有限。到目前为止,机器嗅觉方法只能识别一、二十种气味,或估计简单成分气体的浓度,几乎没有用该方法同时确定多种气味类别与强度的报道。由此看来,机器嗅觉方法与装置目前的发展水平与人们的期望还存在很大的距离。从长远来看,人们将不可避免地要求机器嗅觉装置能执行多种气味类别与浓度同时确定的任务。但是,一个主要障碍是现有模式识别和函数逼近方法的性能不能满足机器嗅觉的要求。
在机器嗅觉技术发展初期,常用的数据处理方法有多元回归、偏最小二乘、聚类分析、主成分分析、判别函数分析、模板匹配等。今天,人工神经网络、支持向量机、独立成分分析等方法应用较多。
对多种气味类别与浓度的同时确定问题实际上就是要确定一个气味样品的类别归属及其浓度大小。由于机器嗅觉方法用气敏传感器阵列来感知气味,这一问题从数学上可以被看成是高维测量空间的分类或函数估计问题。因此,有下列两种解决方法。
(A).将多种气味类别与浓度的同时确定问题看成分类问题。也就是说,用一个多输入多输出分类器或多个多输入单输出分类器来解决这一问题。采用一个多输入多输出分类器意味着将这一问题看成一个整体。如果有n1种气味,每一种气味有n2种浓度,则该分类器应有n1×n2个输出单元。当气味类别与浓度较多时,将之看成整体的缺点是多输出分类器学习时间长,分类精度低。若用多个多输入单输出分类器来解决这一问题,则一个单输出分类器代表一种气味的某个固定浓度点。这种做法的主要缺点是需要太多的分类器,当气味类别与浓度很多时,该方法是不实际的。
(B).将多种气味类别与浓度的同时确定问题看成函数逼近问题。这就是说,用一个多输入多输出或多个多输入单输出函数逼近模型来解决这一问题。我们知道,函数逼近模型的一个输出单元对任意一个输入会给出一个对应的输出,不管这个预测输出多么荒谬,这相当于函数逼近模型不知道说“不”。因此,这两种方法的效果并不理想。例如,可能会出现这样一种矛盾的现象,对一个气味样品,一个输出单元预测结果可能是100ppm(百万之一)甲醇,而另一个输出单元的预测结果可能是1000ppm乙醇。面对这种窘迫的境地我们是无能为力的。这一窘境同时也告诉我们,单一类型的函数逼近模型是无法解决多种气味类别与浓度的同时确定问题的,分析两个输出单元中哪一个预测精度高是没有意义的。
因为单一类型分类器的分类能力有限,人们于20世纪90年代初提出了分类器组合的概念。其基本思想是通过若干个简单分类器预测结果的组合以达到与单个复杂分类器相同甚至更好的推广性能。为了解决大规模学习问题,人们又提出了各种任务分解方法和模块化分类器模型。常用的任务分解方法不外乎一对一和一对多两种,现有组合策略包括最大值、最小值、平均值、大多数投票、和、积、自提升、装袋等。从理论上讲,现有分类器组合策略都可以用于函数逼近模型集成之中,但实际上,没有一个可以直接应用。
为了实现对多种气味类别与浓度的同时确定,本发明提出一种新的函数模型集合体及其组合策略。本发明的基本想法如下。一个函数逼近模型可以是一个多元对数线性回归模型、一个多元对数二次回归模型、一个单输出多层感知器和一个支持向量机。我们将一个模型看成一个专家,一个函数模型集合体由上述4个专家组成,代表着一种特定的气味。组内所有专家都用来自所代表的气味的样本进行训练。如果一个样本确实属于某个专家组代表的气味,则该专家组内所有成员的预测结果将是相当接近的,否则是相当分散的。换句话说,一个样本的类别由那个意见最一致的专家组所确定,其浓度等于该组内所有专家的平均预测值。这里,“意见最一致”由组内专家平均预测结果的相对标准差来度量。单纯考虑单个专家组的预测精度是没有意义的。与此同时,一个专家组的结构复杂性不受所代表的气味浓度点增多的影响。
根据多元对数线性回归模型和多元对数二次回归模型的特点,它们对一个气味样本的实际预测输出或者可能非常之大,甚至远远超过100%这一最高极限值,或者可能非常之小,远远小于浓度为0这一最低极限值。这些实际上并不存在的预测输出正好可以用来确定该样本不属于一个专家组所代表的气味的依据。相对而言,由于Sigmoid活化函数和Gaussian核的有界特性,感知器和支持向量机的预测输出总是在
这一范围内。
现有一种嗅觉模拟装置及其嗅觉模拟测试方法(参见专利申请号02111046.8),使用该套装置检测待测气味,得到多维响应信号,需要经计算机数据处理,最终得到气味的类别、整体强度或简单成分气味浓度估计值。申请号为02111046.8的发明没有具体涉及如何实现计算机数据处理的问题。
现有一种基于模块化组合神经网络的机器嗅觉气味识别方法(参见专利申请号03141537.7)。该发明将浓度估计问题转化为分类问题,没有涉及气味类别与浓度的同时快速估计问题和数据处理方法的结构简化问题。
发明内容
本发明是在现有的一种机器嗅觉装置及其嗅觉模拟测试方法(参见专利申请号02111046.8)和一种基于模块化组合神经网络的机器嗅觉气味识别方法(参见专利申请号03141537.7)的基础上,提出的一种基于函数逼近模型集合体和机器嗅觉的气味类别与强度同时确定方法。一个函数逼近模型集合体仅需学习来自所代表的气味的特征,专家组之间仅通过预测结果相对标准差的比较,就可使机器嗅觉装置具有对成千上万种气味进行类别判断和强度同时确定的能力。函数逼近模型集合体结构复杂性不因训练子集中浓度点的增多而变化。
本发明采用了下列技术方案机器嗅觉装置通过对大量气味的测量,得到大量学习样本,函数逼近模型集合体通过学习这些样本,确定了其最优结构和参数。在识别气味时,机器嗅觉装置将得到气味的特征,与函数逼近模型集合体记忆的气味特征比较,从而确定一个待定气味的类别与强度。
所述的一个函数逼近模型集合体或专家组由一个多元对数线性回归模型、一个多元对数二次回归模型、一个单输出多层感知器和一个支持向量机等4个专家所组成,代表着一种特定的气味,模拟气敏传感器阵列对所代表气味的响应。如果有n种气味,则有n个专家组。相应地,组内各专家均学习来自所代表气味的样本子集以确定其结构与参数。
所述的多元对数线性回归模型通过以下步骤确定其结构和参数a、将一个复杂的多输入多输出函数逼近问题转化为多个多输入单输出函数逼近问题。如果有n种气味,则有n个多输入单输出对数线性回归模型。
b、一个训练子集仅由来自于同一种气味的样本所组成。
c、输入特征分量的大小等于对应的气敏传感器的响应,期望输出dp1为气味已知浓度cp(ppm,百万分之一)的常用对数值lg(cp+0.1)。
d、一个多输入单输出对数线性回归模型j由对应于m个输入特征分量的系数(α1(j),α2(j),...,αm(j))和一个常系数a0(j)所确定。数学表达式为yp1(j)=α0(j)+α1(j)xp1(j)+···+αm(j)xpm(j)---(1)]]>
这里,yp1(j)为第j个回归模型的实际输出,xpi(j)为气味j中第p个样本的第i个输入分量。
e、一个增广矩阵X~j∈Rm+1]]>由一个训练子集的输入矩阵Xj∈Rm和元素全为1的一个列向量1∈R1所组成,即X~j={1,Xj}.]]>这里,m为传感器个数。
f、如果 的转置与 的乘积 可逆,则m+1个参数(α0(j),α1(j),α2(j),...,αm(j))用最小二乘法确定。
g、如果 的转置与 的乘积 不可逆,则上述m+1个参数用梯度下降法确定。
h、重复b~f,直到n个多元对数线性回归模型的参数都被确定为止。
所述的多元对数二次回归模型通过以下步骤确定其结构和参数a、将一个复杂的多输入多输出函数逼近问题转化为多个多输入单输出函数逼近问题。如果有n种气味,则有n个多输入单输出对数二次回归模型。
b、一个训练子集仅由来自于同一种气味的样本所组成。
c 、输入特征分量的大小等于对应的气敏传感器的响应,期望输出dp2为气味已知浓度cp(ppm,百万分之一)的常用对数值lg(cp+0.1)。
d、一个多输入单输出对数二次回归模型j由对应于m个输入特征分量的系数(β1(j),β2(j),...,βm(j)),对应于m个输入特征分量平方的系数(β11(j),β22(j),...,βmm(j))和一个常系数β0(j)所确定。数学表达式为yp2(j)=β0(j)+β1(j)xp1(j)+···+βm(j)xpm(j)+β11(j)(xp1(j))2+···+βmm(j)(xpm(j))2---(2)]]>这里,yp2(j)为第j个回归模型的实际输出,xpi(j)为气味j中第p个样本的第i个输入分量。
e、一个增广矩阵X~j∈Rm+1]]>由一个训练子集的输入矩阵Xj∈Rm,各个元素的平方Xj·Xj,以及元素全为1的一个列向量1∈R1所组成,即X~j={1,Xj,Xj·Xj}.]]>这里,m为传感器个数。
f、如果 的转置与 的乘积 可逆,则2m+1个参数(β0(j),β1(j),β2(j),...,βm(j),β11(j),β22(j),...,βmm(j)用最小二乘法确定。
g、如果 的转置与 的乘积 不可逆,则上述2m+1个参数用梯度下降法确定。
h、重复b~f,直到n个多元对数二次回归模型的参数都被确定为止。
所述的多输入单输出单隐层感知器模型通过以下步骤确定其结构和参数a、将一个复杂的多输入多输出函数逼近问题转化为多个多输入单输出函数逼近问题。如果有n种气味,则有n个多输入单输出感知器模型。
b、一个训练子集仅由来自于同一种气味的样本所组成。
c、输入特征分量的大小等于对应的气敏传感器响应成比例变换到
的范围内,期望输出dp3为先取气味已知浓度cp(百万分之一)的常用对数值1g(cp+0.1),然后成比例变换到
的范围内,即dp3=(1+1g(cp+0.1))2.8/5.0+0.1。
d、一个单隐层感知器模型j结构为m-s-1,隐单元和输出单元的活化函数均为f()=3(1+exp(-/3))-1,其参数—输入单元i(i=0,1,2,...,m)与隐单元h(h=0,1,2,...,s)之间权值whi(j)和隐单元h与输出单元j之间权值wjh(j)通过学习确定。数学表达式为yp3(j)=f(Σh=0swjhf(Σi=0mwhi(j)xpi))---(3)]]>这里,yp3(j)为第j个感知器的实际输出,xpi(j)为气味j中第p个样本的第i个输入分量。
e、隐节点数由经验公式 确定。
f、感知器的权值采用误差反传学习算法、链式求导规则和批学习方式确定。
g、重复b~f,直到n个单输出感知器模型的结构与参数都被确定为止。
所述的多输入单输出支持向量机模型通过以下步骤确定其结构和参数a、将一个复杂的多输入多输出函数逼近问题转化为多个多输入单输出函数逼近问题。如果有n种气味,则有n个多输入单输出对数线性回归模型。
b、一个训练子集仅由来自于同一种气味的样本所组成。
c、输入特征分量的大小等于对应的气敏传感器的响应,期望输出dp4为气味已知浓度cp的常用对数值1g(cp)。
d、支持向量机采用Gaussian核k(x,xs)=exp(-γ||x-xs||22).]]>这里,xs(j)为支持向量,通过学习确定γ为宽度参数,人为事先选择。数学表达式为yp4(j)=f(xp,Xsup(j),b(j))=Σs=1N~jbs(j)k(xp,xs(j))+b0(j)---(4)]]>这里,yp4(j)为第j个支持向量机的实际输出,xp为第p个样本, bs(j)和b0(j)为待定系数。
e、支持向量机的待定参数和支持向量通过解下列约束条件得到minb,ξ,ξ*J(b,ξ,ξ*)=12Σp=1Nj(bp(j))2+CΣp=1Nj(ξp(j)+ξp(j)*)]]>且dp4(j)-yp4(j)≤ϵ+ξp(j)yp4(j)-dp4(j)≤ϵ+ξp(j)*ξp(j),ξp(j)*≥0---(5)]]>
这里,ε和ξp(j)为支持向量的内部参数,由学习算法自动确定。
f、重复b~e,直到n个支持向量机的参数都被确定为止。
所述的一个专家组j中4个专家对一个待定样本xp的实际输出ypk(j)通过比例变换和指数变换转换为4个强度预测值cpk(j)。对多元对数线性回归模型、多元对数二次回归模型和支持向量机这3个专家,有cpk(j)=exp(ypk(j));]]>对单输出多层感知器,有cp3(j)=1g(5.0(yp3(j)-0.1)/2.8-1).]]>据此,可得到专家组j对样本xp的强度预测平均值c‾p(j)=14Σk=14cpk(j)---(6)]]>所述的专家组j对xp的强度预测相对标准差为ζp(j)=1c‾p(j)14-1Σk=14(cpk(j)-c‾p(j))2×100%---(7)]]>专家组j的两个实际输出为对xp的强度预测平均值cp(j)及其相对标准差ζp(j)。
所述的个专家组采用下列规则确定一个气味样品的类别与强度xp∈ωj且cp=c‾p(j),]]>如果ζp(j)=min1≤k≤n(ζp(k)),j=1,2,...,n---(8)]]>由于本发明采用了以上技术方案,因此具有以下的效果1.解决了如何选择最小的学习子集以训练各个函数逼近模块的问题。
2.多元对数线性回归模型和多元对数二次回归模型的函数逼近能力不够强,但它们在判断一个样本不属于某个类别的判断中发挥了重要作用。
3.发展了分类器组合策略,建立了确定样本类别与强度的简单有效方法。
图1是本发明机器嗅觉装置气味识别原理示意图。
图2是本发明机器嗅觉装置结构原理示意图。
图3是本发明机器嗅觉装置的一个采样流程和流量变化示意图。
图4是本发明函数逼近模型集合体决策原理示意图。
图5是本发明函数逼近模型集合体j结构示意图。
图6是本发明多元对数线性和二次回归模块j自动生成流程图。
图7是本发明前向单隐层感知器模块j自动生成流程图。
图8是本发明机器嗅觉装置记忆(学习)气味流程图。
图9是本发明机器嗅觉装置确定气味类别与强度流程图。
具体实施例方式
下面结合附图对本发明作进一步的详细描述。
本发明所基于的机器嗅觉装置如图2所示,本发明所解决的是如图1虚框内所示的技术问题。
根据上述机器嗅觉装置进行气味类别判断和强度估计的方法,如图2所示,包括如下步骤a、操作人员将15ml的待测液体或固体样品放置于250ml的样品瓶内,在55±0.1℃条件下保温30min。
b、操作人员将经温度平衡的样品瓶单向阀插入测试箱上的进气口,单向阀打开。微型隔膜泵将样品瓶顶空的呈香物质挥发气以1.0l/min的流量吸入密封的气体管道。这时,待测气味以40mm/s的速度略过传感器敏感膜表面,消毒后从排气口排入大气中。
c、当气体累积采样流量达到100±1.0ml时,进气电磁阀1关闭。然后,微型隔膜泵将环境空气吸入以清洗管道。在1.0min的间隔内,操作人员将被测样品瓶移走。
d、在气体流动过程中,气敏传感器阵列的响应经数据采集卡被记录下来,并被存入数据存储器中,由此得到多条响应曲线。
e、从每一条响应曲线上提取最大值,表征每一种气味的特征向量维数为16。
f、函数逼近模型集合体根据对气味一次测量得到的特征向量,在测得最大值10s后给出该气味的类别与强度。
g、一个具体的测试过程如下大流量环境空气还原(120s)-氧气或洁净空气还原(40s)—稳定(5s)—采样(5s)—环境空气清洗(120s)。
h、重复a~f步骤,进行多次测试。
权利要求
1.一种机器嗅觉同时确定气味类别与强度的方法,其特征在于,所述的方法由n个函数逼近模型集合体来代表n种气味,一一对应;其中每一个函数逼近模型集合体,由一个多元对数线性回归模型、一个多元对数二次回归模型、一个单输出感知器和一个支持向量机4个专家所组成;代表一种特定的气味,模仿气敏传感器阵列对所代表气味的响应;所述的函数逼近模型集合体通过以下步骤同时确定气味的类别与强度a、将一个复杂的n种气味类别与强度同时确定问题转化为n个多输入单输出函数逼近问题,这里,多输入是指气敏传感器阵列对一个气味样品的响应向量,维数等于传感器个数,单输出是指对应于该气味样本的强度值;b、设来自气味j的训练样本数为Nj,第p个气味样本xp,函数逼近模型k的实际输出为ypk(j),目标输出为dpk(j),则模块k对类别j所有训练样本的均方根误差为ϵk(j)=12Nj(dpk(j)-ypk(j))2---(1);]]>c、将一个函数逼近模型集合体j内4个专家的实际输出通过比例变换和指数变换转化为各自的气味强度预测值cpk(j),并在此基础上求强度预测平均值cp(j),cp(j)作为专家组j的一个实际输出。专家组j对xp的强度预测平均值为c‾p(j)=14Σk=14cpk(j)---(2);]]>d、计算一个专家组j中4个专家对xp的强度预测值的标准差,然后除以强度预测平均值cp(j),得到相对标准差ζp(j),相对标准差ζp(j)作为专家组的另一个实际输出,函数逼近模型集合体j对xp的强度预测相对标准差为ζp(j)=1c‾p(j)14-1Σk=14(cpk(j)-c‾p(j))2×100%---(3);]]>因此,函数逼近模型集合体j的两个实际输出为强度预测平均值cp(j)和相对标准差ζp(j);e、比较所有函数逼近模型集合体的强度预测相对标准差的大小。一个待定样本xp的类别由强度预测相对标准差最小的函数逼近模型集合体所确定,其强度为该函数逼近模型集合体的预测平均值,即xp∈ωj且cp=c‾p(j),]]>如果ζp(j)=min1≤k≤n(ζp(k)),]]>j=1,2,...,n(4)。
2.如权利要求1所述的方法,其特征在于,一个训练子集仅由来自同一种气味的样本对所组成。
3.如权利要求1所述的方法,其特征在于,其中的多元对数线性回归模型、多元对数二次回归模型和支持向量机,其训练子集输入为传感器阵列的响应向量,训练子集输出为期望强度的常用对数值。
4.如权利要求1所述的方法,其特征在于,其中的一个多元对数线性回归模型共有m+1个结构参数,这里,m为传感器个数。若由训练子集输入阵增加元素全为1的一个列向量组成的增广矩阵可逆,则这m+1个参数用最小二乘法确定;若该增广矩阵不可逆,则这些参数用梯度下降法确定。
5.如权利要求1所述的方法,其特征在于,其中一个多元对数二次回归模型共有2m+1个结构参数,略去交叉项,增广矩阵由训练子集输入阵,训练子集输入阵各元素的平方,再加元素全为1的一个列向量组成。若该增广矩阵可逆,这2m+1个参数用最小二乘法确定;若该增广矩阵不可逆,则这些参数用梯度下降法确定。
6.如权利要求1所述的方法,其特征在于,对一个函数逼近模型集合体的组成单元一单输出单隐层感知器,训练子集的输入特征分量为传感器响应成比例变化到
范围的实数值,其目标输出为期望浓度的常用对数值成比例变化到
范围的实数值。
7.如权利要求1所述的方法,其特征在于,各单输出感知器模块的初始结构由经验公式确定,优化结构通过对隐层输出矩阵进行奇异值分解确定。
8.如权利要求1所述的方法,其特征在于,各个单输出感知器模块的权值与阈值用误差反传算法确定,并采取批学习方式。
9.如权利要求1所述的方法,其特征在于,支持向量机采用Gaussian核,核的宽度人为确定,支持向量由求解二次最优化问题所确定。
全文摘要
本发明涉及一种机器嗅觉同时确定气味类别与强度的方法,所述的方法由n个函数逼近模型集合体来代表n种气味,一一对应;其中每一个函数逼近模型集合体,由一个多元对数线性回归模型、一个多元对数二次回归模型、一个单输出感知器和一个支持向量机4个专家所组成,代表着一种特定的气味。一个函数逼近模型集合体内各个专家的结构和参数通过学习来自所代表气味的训练样本集所确定。一个气味样本的最终类别与强度由预测相对标准差最小的函数逼近模型集合体所确定。利用本发明,机器嗅觉装置解决了高维多类别海量样本集的学习问题,具有对成千上万种气味类别与强度的同时确定能力。
文档编号G01N35/00GK1801136SQ20061002318
公开日2006年7月12日 申请日期2006年1月10日 优先权日2006年1月10日
发明者高大启, 杨云帆, 陈伟, 朱尚明 申请人:华东理工大学