一种并-串联模式识别方法及其在机器嗅觉中的应用的制作方法

文档序号:6572555阅读:356来源:国知局
专利名称:一种并-串联模式识别方法及其在机器嗅觉中的应用的制作方法
技术领域
本发明为一种面向大规模学习问题的模式识别方法及其在机器嗅觉仪器实时确定大规模气味类别与强度中的应用,涉及任务分解、不平衡样本集的虚拟平衡、并—串联神经网络模型的结构与参数优化、基于机器嗅觉的气味类别与强度同时确定方法及其应用。

背景技术
香料香精、酒类、卷烟、茶、大米、小麦、食用油等物品都有香气这一项质量检验指标,目前的检验“仪器”就是人的鼻子,描述香气质量好坏的无非是“正常”、“纯正”、“尚可”、“浓馥”等极其模糊的术语,难以做到科学、客观与公正。本发明用性能彼此重叠的多个气敏传感器组成阵列模仿人鼻中的大量嗅感受器细胞,用神经网络模型模拟人的逻辑与形象思维方式,构造智能化的机器嗅觉系统。本发明主要涉及面向大规模复杂气味类别确定与香气强度量化的模式识别理论和机器嗅觉实现方法,包括气敏传感器阵列技术、大规模学习任务分解、样本虚拟平衡、分类器和函数逼近模型选择与优化、组合策略,目的在于用机器嗅觉仪器快速准确地确定呈香物质的香气类别,量化香气强度,从而建立香料香精、酒类、酱油、醋、食用油等物品香气质量量化评定体系,为香气质量评定与量化提供新的分析方法与装置。
下面扼要介绍国家标准关于香料、浓香型白酒、大米、小麦、食用油的香气评定方法和要求。
《香料—香气评定法》GB/T14454.2-93(A)液体香料。用辨香纸分别蘸取容器内试样与标准样品约1~2cm(两者须接近等量),然后用嗅觉进行评香。......。(B)固体香料。试样和标准样品可直接(或擦在清洁的手背上)进行香气评定。......。标准样品由国家主管部门授权审发,并根据不同产品的特性定期审换,一般为1年。香气评定结果可用分数表示(满分40分)或选用纯正(39.1~40.0分)、较纯正(36.0~39.0分)、可以(32.0~35.9分)、尚可(28.0~31.9分)及格(24.0~27.9分)和不及格(24.0分以下)描述。
《浓香型白酒》GB10781.1-89香气要求。(A)优级具有浓郁的己酸乙酯为主体的复合香气;(B)一级具有较浓郁的己酸乙酯为主体的复合香气;(C)二级具有己酸乙酯为主体的复合香气。
《大米》GB1354-86特等、标准一等、标准二等、标准三等均用气味是否正常来作为检验标准。《小麦》GB1351-1999用具有一批小麦的综合气味来度量。
《食用油》GB1535-86一级和二级具有大豆油固有的气味和滋味,无异味;《芝麻香油》GB8233-87一级具有浓郁的芝麻油香味,无异味,二级具有显著的芝麻油味,无异味。《高级菜籽烹调油》ZBX14011-87用气味良好来度量;《浓香花生油》GB8615-88气味正常,无异味。
综上所述,我们可以看出,国家标准关于香气质量评定的术语是模糊的,评香师靠感官实际评定时很难做到科学、客观与公正。人们通常用一种香气来描述另一种香气。例如,我们会说某种香气像桔皮香气或香蕉香气,问题是什么是桔皮香气或香蕉香气又是什么香气?这是一个非常难以说明的问题。同样地,我们常用强烈、尖锐、芳香扑鼻等词句来形容香气的强度,但究竞香到什么程度就又难以说明了。感官分析方法强调更多的是经验,某厂评了一辈子酒的一位老师傅曾多次将市售工业酒精加水配制的酒精溶液评为优质酒,感官方法的局限性由此可见一斑(参见秦含章,白酒酿造的科学与技术,中国轻工业出版社,1997.5.)。
嗅觉是气味刺激鼻腔内嗅感受器细胞而在大脑中枢产生的一种复杂而模糊感觉,这种感觉不仅语言文字上的描述过于贫乏,而且受生理、心理等因素的影响难以做到评定结果的客观与公正。人们对过去曾经嗅闻过的香气,仅能留存在记忆和想象中,不能通过数据和记录作量化比较。现在,人们已能用气相色谱、色—质联用等分析方法测量气味的化学组成,即使分离和测定几十种乃至上百种组成成分也不再是难事,遗憾的是,化学成分与香气类型和强度的关系还很少被人们理解和掌握。因此,人们期待用仪器来代替人对香气类型与强弱等特征进行客观公正的评价和量化描述。正是在这种情况下,机器嗅觉方法日益受到人们的重视。
机器嗅觉研究的发展趋势之一是追求气敏器件的高灵敏度和高选择性。随着材料科学和制造工艺的进步,目前,单个金属氧化物半导体气敏器件的灵敏度已达1.0×10-9V/V。机器嗅觉的生理学原型是,生物对气味的辨别能力是大量嗅细胞、嗅神经和大脑中枢共同作用的结果,是一种整体效应。具体到人来说,一个鼻腔内约有5.0×107个嗅感受器细胞,生存期仅22天左右,单个嗅细胞的灵敏度与选择性并不高,但人却能对多种气味进行辨别,据说有经验的专家能辨别4,000多种气味。人的这种能力绝不是靠单个嗅细胞就能实现的。值得注意的是,人对香气香型与强弱等特征进行评价时未必知道它们的组成及浓度,甚至评定人员自己未必具有分析化学等专业知识。从这个意义上讲,人的嗅觉系统是机器嗅觉系统的一个很好的原型。机器嗅觉方法正是利用多个气敏传感器对复杂气味的组成成分都有响应却又互不相同这一特点,才得以借助多元数据分析方法对多种气味进行识别和整体质量定性分析。因此,机器嗅觉研究的另一个主要发展趋势是,在单个敏感器件具有必要的灵敏度和选择性的前提下,用响应范围较宽且重叠的多个传感器组成阵列,着重利用数据分析方法来提高测试系统的选择性与重复性,并把传感器阵列响应这一多维信号转换成与人的感官感受相一致的结果。这涉及到精密测量与控制、计算机、多元数据分析、分析化学、食品、香料香精等领域,具有重要的理论意义。
机器嗅觉技术的长处在于能快速准确地对气味进行定性分析,可以凭香气确定物品的类别、质量等级、真假、新鲜程度、生产过程控制、配方调整等,部分代替人来做这些既艰苦又繁琐的工作。例如,有毒有害气味的监测就可以让机器嗅觉系统来做。1990年代中期之前,机器嗅觉研究主要集中在简单气味的类别与浓度估计上;今天,研究对象集中在气味整体特征的分析与评价上。例如,奶制品腐败过程监测;水果和咖啡香气质量及成熟程度判定;水产品和肉制品新鲜程度确定;洁净水与废水区分;环境空气有害物质检测;毒品识别;酒与茶质量评定;疾病诊断,等等。若能做到不需要浓缩、冷凝等繁琐的预处理过程,且使用条件不苛刻,机器嗅觉技术的应用前景将十分广阔。
现在,机器嗅觉技术的能力还十分有限,大多数研究还处于实验室阶段。法国的αFOX智能电子鼻和英国的AROMA-Scan气味扫描仪近几年进入我国市场后没有站住脚这一事实说明,机器嗅觉理论与实践还有待于进一步发展与完善。与机器嗅觉有关的文献检索和专利查新结果如下(1)文献。1990年以前只有60多篇,到2000年为500多篇,截止到现在已达1,500多篇。这说明机器嗅觉的实质性研究工作是近几年才展开的。(2)专利。所有20多项专利都是20世纪90年代中期以后申请的,显示国际上已开始重视机器嗅觉领域的知识产权保护。(3)技术标准。通过对IHS国际标准数据库进行检索,未发现与机器嗅觉有关的产品技术标准,表明机器嗅觉技术的研究还有待深入和成熟。国内的浙江大学、大连理工大学、复旦大学、中科院电子所、吉林大学等单位近几年也开展了这方面的研究。截止到现在,国内发表的机器嗅觉相关论文仅100余篇,这说明国内对机器嗅觉相关理论与应用研究还有待于进一步深入。
对气味的类别进行判断是必要的,根据香料香精、食品、环保等行业的实际情况,更重要的是对多种复杂气味类别、强度和关键成分的同时估计。这种同时估计问题仅靠提高传感器的选择性是无法解决的。例如,酿造酒的主体香成分有50种左右,如果酒的香气变了,人们要求机器嗅觉方法能判断是哪些成分发生了变化,变化了多少。实际生活中,属于这一类型的问题很多,如香精香型和强度与配方的关系;装修涂料乃至空气质量与甲醛、苯、总挥发性有机物的关系;等等。这些问题的数学涵义是,在传感器阵列响应这一高维测量空间里,一种复杂气味的强度与某一成分含量的函数关系是一条复杂曲线,与两种及其以上成分含量的函数关系是一个复杂曲面;多种复杂气味的强度与某一成分的函数关系是多条复杂曲线,与两种及其以上成分的函数关系是多个复杂曲面,而且,这些复杂曲线或曲面可能相交。可以想象,解决多种香料香精、多种酿制品等诸如此类的复杂气味类别、强度和关键成分同时估计问题,包括神经网络和支持向量机在内的多元数据分析方法将面临极大的困难和挑战。
解决大规模复杂气味类别与强度的同时确定问题可以有以下三种途径 (A)将这种同时估计问题看成多输入多输出分类问题。这种做法是把一种气味的一个浓度点看成一个类别,分类器的输出单元与浓度点一一对应。当气味种类和浓度很多时,分类器的输出单元也很多。这样一来,分类器结构往往很庞大,学习时间很长。更重要的是,这种处理方法无法有效解决新出现浓度点的预测问题。例如,若一个样本恰好位于两个已知浓度点的中间,怎么办?因此,这种分析方法只适用于气味类别数与浓度点较少的场合。面对多种复杂气味类别与强度量化这样的高维大样本多类别分类问题,需要提出有效的任务分解方法、分类器结构优化方法与快速学习算法。
(B)将这种同时估计问题看成多输入多输出函数逼近问题。这种处理方式首先遇到的一个问题是,在定义域内,对任意一个输入向量,无论是多个多对一函数逼近模型还是一个多对多函数逼近模型都将会给出多个预测输出。如果一个输出单元代表一种气味及其强度,我们能说一个待定样品既可能是某种强度的某种气味,又可能是另一种强度的某种气味吗?例如,对一个样本x,那个代表甲醇的逼近模型输出单元说它是100ppm(百万分之一)的甲醇,另一个代表乙醇的输出单元说它是1000ppm的乙醇,这样的结果显然是十分荒谬的。20世纪90年代初出现的分类器集成模型及其组合策略为提高分类器的推广能力开辟了新的途径,但是,不仅最大、最小、平均、积、和、大多数投票等规则不能直接应用于函数逼近模型的组合,而且线性和二次等“弱”多元多项式模型的逼近能力也不够。为此,我们必须对适当阶次的多元多项式、神经网络、支持向量机等模型的逼近能力进行研究,提出函数逼近集成模型和新的组合策略。发明人在这方面已做了一些开创性的工作(参见发明专利ZL03141537.7一种基于模块化组合神经网络的机器嗅觉气味识别方法和发明专利200610023183.4机器嗅觉气味类别与强度同时确定方法<公开号1801136>)。
(C)将这种同时估计问题看成多输入多输出分类与函数逼近串联问题。这种方法是先确定一个样本的类别,然后确定它的强度。由于异构、手性、极性、官能团等现象的存在,结构相似的成分可能有完全不同的气味,反之亦然。也就是说,测量空间相邻的样本可能属于完全不同的类别,测量空间相距很远的样本又有可能属于同一类别。再考虑到多种复杂气味强度与两种及其以上成分的函数关系是多个复杂曲面这一影响因素,一种气味在测量空间形成的分布区域将十分复杂,给分类器设计带来很大困难。该方法遇到的另一个问题是过拟合,因而实际预测精度并不理想。
因此,解决多种复杂气味类别、强度和关键成分同时估计问题涉及特征提取、大规模学习任务分解、不平衡样本集的虚拟平衡、分类器选择与结构优化、函数逼近模型选择与结构优化、组合策略等内容,既具有重要的理论意义,又具有广阔的应用前景,是本发明的重点。这一问题的解决不仅将使机器嗅觉方法具有同时确定多种复杂气味的香型与强度的能力,而且给图像类别及其大小与颜色深浅、语音类别及其强弱等需要同时确定类别与“位置”的应用领域提供有效的解决方法。
综上所述,本发明以香料香精、酿造酒、酱油的质量评定为应用背景,重点研究面向大规模复杂气味类别与强度量化问题的模式识别模型和机器嗅觉实现方法,建立基于机器嗅觉的香气质量量化评价体系,具有重要的理论意义和广阔的应用前景。
发明专利《一种嗅觉模拟装置及其嗅觉模拟测试方法》(批准号ZL02111046.8)和《一种小型自动化机器嗅觉仪器与气味分析方法》(申请号200710036264.4)使用机器嗅觉装置检测气味,得到多维响应信号,没有涉及气味类别、强度或关键成分浓度问题。发明专利《一种基于模块化组合神经网络的机器嗅觉气味识别方法》(批准号ZL03141537.7)将浓度估计问题转化为分类问题,没有涉及气味类别与浓度的同时估计问题。发明专利《机器嗅觉气味类别与强度同时确定方法》(申请号200610023183.4,公开号1801136)将多种气味类别与强度的同时确定问题看成是多个函数逼近问题,并由多个函数逼近模型集合体一一加以解决,其缺点是,多个函数逼近模型集合体结构过于复杂,待定参数过多,分类和强度估计精度不够高。本发明克服了上述缺点。


发明内容
本发明是在现有的《一种基于模块化组合神经网络的机器嗅觉气味识别方法》(参见专利批准号ZL03141537.7)、《机器嗅觉气味类别与强度同时确定方法》(参见专利申请号200610023183.4)和《一种小型自动化机器嗅觉仪器与气味分析方法》(参见专利申请号200710036264.4)的基础上,为了使机器嗅觉仪器能够对大规模复杂气味的类别、强度和关键成分同时估计而提出的一种基于并—串联神经网络的模式识别方法。本发明提出的模式识别模型具有学习速度快、推广性能好、结构简单、待定参数少、分类正确率高、气味强度和关键成分预测精度高的优点。
机器嗅觉仪器的分析对象是大量液态、固态、膏状物质产生的顶空挥发气样品,或常温下的气态样品。这些顶空挥发气或气态样品既可以是单一化学成分的,也可以是由复杂化学成分组成的。这些样品来自于多种气味,而且,来自于同一气味的多个样品其浓度是变化的。机器嗅觉仪器用气敏传感器阵列对大规模气味样品进行测量,得到大量高维响应向量或学习样本,即得到大规模训练集。这些训练集用于确定模式识别模型的结构和参数。在结构和参数确定之后,根据气敏传感器阵列产生的高维响应向量,模式识别模型可以迅速确定一个气味样品的类别、强度和关键成分浓度。
为了实现上述目的,本发明采用的技术方案之一是 模式识别模型是一个两层串联结构。第一层为分类器层,用于确定一个待测样品的类别;第二层是函数逼近模型层,用于确定一个待测样品的强度或关键化学成分浓度。
设机器嗅觉仪器用m个气敏传感器组成的阵列测量了N个气味样品,则得到N行m列的响应矩阵X∈RN×m,称之为原始训练集,即X的样本数为N,维数为m,来自于n种气味{ω1,...,ωj,....,ωn},或X={X(1),X(2),...,X(j),...,X(n)}。
本发明采用的技术方案之二是第一层—分类器层由多个单输出单隐层神经网络并联所组成。一个单输出单隐层神经网络分类器j代表一种气味ωj,通过学习形成复杂决策边界,以便将所代表的气味样本X(j)与所有其他类别的样本X(~j)分开。n个单输出神经网络与n种气味一一对应。为此,本发明将一个n种气味识别问题转化为n个两种气味识别问题,也就是将一个n类问题{ω1,...,ωj,...,ωn}转化为n个两类问题{ωj,~ωj),j=1,2,...,n。
本发明采用的技术方案之三是第二层—函数逼近模型层由多个单输出单隐层神经网络并联所组成,一个单输出单隐层神经网络逼近模型j代表一种气味ωj,通过学习拟合气敏传感器阵列的响应X(j)与所代表的气味的强度和关键成分浓度C(j)之间的非线性关系。n个单输出神经网络与n种气味一一对应。为此,本发明将一个n种气味的强度估计问题转化为n个多输入—单输出函数逼近问题,也就是将一个m输入n输出函数逼近问题{X,C}∈RN×(m+n)转化为n个m输入—单输出函数逼近问题{X(j),C(j)}∈RNj×(m+1),j=1,2,...,n。这里,C∈RN×n为期望浓度矩阵,C(j)∈RN×1为气味ωj的期望浓度向量。
分类器层和函数逼近模型层的神经网络结构与参数均通过学习机器嗅觉仪器对大量气味样品的测量而得到的训练样本集所决定。
本发明采用的技术方案之四是一个单输出单隐层神经网络分类器j通过以下步骤确定其结构和参数 (1)形成最经济的训练子集Ξ(j),包括如下步骤 (1-a)产生一个初始超维斜椭球Θj0。Θj0的中心μj与X(j)的均值重合,其大小rmac(j)以恰好把来自气味ωj的所有训练样本X(j)包围在内为准。
(1-b)计算被包含在Θj0内且来自于~ωj的训练样本数N~j0。
(1-c)确定扩展超维斜椭球Θj的半径Rmin(j)。被包含在Θj0内且来自于~ωj的样本数N~j0越少,则Θj越大;反之,Θj越小。
(1-d)生成最终的训练子集Ξ(j),由包含在Θj内的所有样本X(j)和X(~j)组成。
(2)选择神经网络结构。神经网络分类器j的输入节点数为m,隐节点数为

输出节点数为1,隐节点和输出节点的活化函数为3(1+exp(-_/3))-1,输入分量成比例变化到
的范围内,目标输出dp(j)采用{0,3)编码,在第τ个迭代步的平均平方和误差为Ej(τ)。
(3)确定权值修正方式。神经网络j采用批学习方式。在解决一个两类问题Ξ(j)={X(j),X(~j)}时,对应于来自较小类别的样本xp(j),权值修正分量Δw(j)(τ)等于误差梯度分量_Ej(τ)/_wp(j)(τ)乘以一个放大因子λj=N~j/Nj;反之,权值修正分量Δw(j)(τ)等于_Ej(τ)/_wp(j)(τ)。
(4)修正神经网络的实际输出。如果样本xp在初始斜椭球Θj0之外,神经网络分类器j的实际输出yp(j)被乘以一个与斜椭球中心μj和Mahalanobis半径rmax(j)j、Rmin(j)有关的修正量,否则yp(j)保持不变。
(5)重复(1)~(4),直到n个单输出神经网络函数分类器的结构与参数都被确定为止。
本发明采用的技术方案之五是一个单输出神经网络函数逼近模型j通过以下步骤确定其结构和参数 (1)任务分解,形成学习样本子集{X(j),c(j))。在将一个n种气味的强度估计问题转化为n个函数逼近问题后,神经网络j的训练子集只有来自气味ωj的Nj个样本所组成,即{X(j),C(j)}∈RNj×(m+1)。C(j)为气味ωJ的期望浓度向量。
(2)数据预处理。输入特征分量等于气敏传感器的响应(电压值)成比例变换到
的范围内,期望输出tp(j)为先取气味浓度cp(j)(ppm)的常用对数值lg(cp(j)),然后成比例变换到
的范围内,即如果(去离子水的顶空挥发气浓度),定义 (3)选择神经网络j的结构和活化函数。单隐层神经网络j结构为m-s-1,隐节点数由公式


确定,隐单元和输出单元的活化函数均为f(_)=3(1+exp(-_/3))-1。
(4)确定权值修正方式。神经网络函数逼近模型j采用误差反传学习算法、链式求导规则和批学习方式,输入单元i(i=0,1,2,...,m)与隐单元h(h=0,1,2,...,s)之间权值whi(j)和隐单元h与输出单元j之间权值wjh通过学习确定。神经网络j实际输出的数学表达式为 这里,xpi(j)为气味ωj中第p个样本的第i个输入分量。
(5)重复(1)~(4),直到n个单输出神经网络函数逼近模型的结构与参数都被确定为止。
本发明采用的技术方案之六是对一个类别与强度待定的样本xp,其类别由分类器层输出值最大的单输出神经网络j所确定,然后,其强度由函数逼近模型层对应的单输出神经网络j所确定。也就是说,第一层的所有n个单输出神经网络都要给出自己关于xp的类别预测,xp属于输出最大的神经网络分类器j所代表的气味;在xp的类别由第一层输出值最大的神经网络分类器j确定之后,其强度只需要第二层第j个单输出神经网络逼近模型给出预测即可。
由于本发明采用了以上技术方案,因此具有以下的效果 1.解决了机器嗅觉技术对大规模气味类别与强度同时确定所面临的模式识别问题。
2.与函数逼近模型集合体相比,本发明提出的并—串联神经网络模型具有结构简单、学习速度快、推广能力强、分类和强度预测精度高的优点。
3.发展了任务分解方法,建立了简单有效的最经济训练子集的确定方法。
4.解决了一对多的任务分解方法产生的样本不平衡问题,从而使得单输出神经网络分类器具有良好的推广性能。



图1是本发明-一种并-串联模式识别方法及其在机器嗅觉中的应用,将气味样品转换为训练和测试样本的机器嗅觉仪器结构示意图。该机器嗅觉仪器组成单元为,测试箱1、恒温杯2、自动进样升降机构3、计算机与显示器4、氧气或干燥空气瓶5。详细说明请参见发明专利《一种小型自动化机器嗅觉仪器与气味分析方法》(申请号200710036260.4)。
图2是本发明-一种机器嗅觉仪器对一个气味样品进行测试以得到一个响应分量的工作流程图,包括环境空气大流量冲洗(传感器初步恢复)、氧气小流量冲洗(传感器精密标定)、平衡、顶空采样(传感器响应)、环境空气小流量冲洗(传感器初步恢复)并给出被测气味类别、强度及关键成分含量的分析结果、环境空气大流量冲洗(传感器初步恢复)这些步骤。详细说明请参见发明专利《一种小型自动化机器嗅觉仪器与气味分析方法》(申请号200710036260.4)。
图3是本发明一机器嗅觉仪器的其中一个气敏传感器对去离子水、0.1ppm甲苯、1.0ppm甲苯顶空挥发气的响应曲线(电压值),数据记录从平衡状态开始直至大流量环境空气冲洗50秒止。
图4是本发明-一种机器嗅觉仪器中的气敏传感器阵列(由16个气敏传感器组成)分别对1.0ppm甲苯顶空挥发气测试而得到的响应样本直方图(电压最大值)。
图5是本发明-一种机器嗅觉仪器中的气敏传感器阵列(由16个气敏传感器组成)分别对0.1ppm甲苯顶空挥发气测试而得到的响应样本直方图(电压最大值)。
图6是本发明-一种机器嗅觉仪器中的气敏传感器阵列(由16个气敏传感器组成)分别对去离子水、0.1ppm甲苯、1.0ppm甲苯顶空挥发气的测试而得到的响应样本直方图(电压最大值)。
图7是本发明-一种面向大规模气味类别与强度同时确定的并-串联神经网络模式识别模型结构图。
图8是本发明-一种面向大规模气味类别与强度同时确定的并-串联模式识别方法的第一层-神经网络分类器层的结构设计过程。
图9是本发明-一种面向大规模气味类别与强度同时确定的并-串联模式识别方法的第二层-神经网络函数逼近模型层的结构设计过程。
图10是本发明-一种面向大规模气味类别与强度同时确定的并-串联模式识别方法,在设计第一层-神经网络分类器层的结构时,任务分解和最经济训练子集的确定过程。
图11是本发明-一种面向大规模气味类别与强度同时确定的并-串联模式识别方法,并-串联神经网络模型的决策过程。
图12是本发明-一种面向大规模气味类别与强度同时确定的并-串联模式识别方法,一个应用实例-机器嗅觉仪器对4种液体呈香物质共1050个样品顶空挥发气响应数据阵的主成分分析图。

具体实施例方式 下面结合附图对本发明作进一步的详细描述。
本发明对气味测试用的机器嗅觉仪器结构如附图1所示,其特点是,由测试箱1、恒温杯2、自动进样升降机构3、计算机与显示器4、氧气或干燥空气瓶5共5大部分所组成。本发明主要解决附图1右边虚框内的模式识别问题。
请参见附图1和附图2,为了对大规模气味进行类别判断和强度估计,一种机器嗅觉仪器对气味的测试包括如下步骤 a,开机,仪器预热30分钟时,计算机将气敏传感器对环境空气的响应状态记为初始状态。
b,操作人员将10毫升液态、膏状或固态样品放入容积为150毫升的玻璃试瓶内,盖上硅橡胶瓶盖。
c,操作人员将玻璃试瓶放入恒温杯内,按下计时键,样品开始加热,计算机开始计时。被测样品在加热元件的作用下,准确恒温30分钟。
d,在恒温30分钟后,计算机发出指令,自动进样升降机构使恒温杯上升,固定在测试箱上的进样针因此穿过硅橡胶瓶盖,接触到顶空挥发气。
e,在电磁阀的作用下,顶空挥发气进气管道打开,氧气和环境进气管道断开,流量计开始计量。微型真空泵将顶空挥发气吸入气敏传感器阵列环形工作室,使之迅速掠过传感器敏感膜表面后从排气口排出。当顶空挥发气累积采样量达到50毫升时,采样进气管道断开,采样过程结束。然后,环境空气小流量进入,传感器进入初步恢复阶段。
f,各个气敏传感器对被测气味因此产生敏感响应,这些敏感响应通过高精度数据采集卡得到一个量化的多维响应向量; g,该向量经计算机数据处理后,10秒之内即可得到被测气味的类别、整体强度或简单成分气体浓度估计值,并通过显示器显示出来。
h,气味分析结果显示后,操作人员取走恒温杯,环境空气通过进样针大流量进入环形传感器工作室。操作人员为下一次测量做准备。
i,重复b~h,进行多次采样,一个完整的采样过程持续290秒。
除步骤b、c和h外,整个操作过程由仪器自动完成,从而有效避免了人为操作误差的影响。机器嗅觉仪器通过对气味样品的一次测量,得到一个维数为m的响应向量即气味样本。
请参见附图3,机器嗅觉仪器中的一个气敏传感器对去离子水、0.1ppm甲苯、1.0ppm甲苯挥发气的响应曲线。根据附图3,同一个气敏传感器对来自同一种气味但浓度变化的样品的响应曲线可能是变化的。
请参见附图4、附图5和附图6,取气敏传感器阵列对多个气味样品响应曲线的最大值,可得到气敏传感器阵列对去离子水、0.1ppm甲苯、1.0ppm甲苯挥发气多个响应向量的直方图。显然,由于三者浓度不同,相应的响应向量之间的差异是显著的,这些差异就是模式识别方法对气味类别与浓度进行估计的依据。
请参见附图7,根据一种面向大规模气味类别与强度同时确定的并一串联模式识别方法,本发明提出了一种并—联模式识别模型。其中,第一层—分类器层由n个单输出的单隐层神经网络并联所组成,与n种气味一一对应,用于确定气味类别;第二层—函数逼近模型层由n个单输出的单隐层神经网络并联所组成,与n种气味一一对应,用于确定气味强度及其关键成分的浓度。
请参见附图8,根据一种面向大规模气味类别与强度同时确定的并—串联模式识别方法,本发明提出了第一层—分类器层各单输出神经网络的设计过程。一个单输出神经网络代表一种气味。根据附图8,一个单输出神经网络通过学习形成决策边界,负责将所代表的气味与所有其他气味分开。经过任务分解1,原始训练集X被分解为n个训练子集,用于确定n个神经网络的结构与参数。一个训练子集只由来自于被代表气味的样本和与之相邻的来自于其他气味的部分样本所组成。
请参见附图9,根据一种面向大规模气味类别与强度同时确定的并-串联模式识别方法,本发明提出了第二层一函数逼近模型层各单输出神经网络的设计过程。一个单输出神经网络代表一种气味。根据附图9,一个单输出神经网络负责拟合传感器阵列响应与所代表气味强度和关键成分浓度之间的函数关系。经过任务分解2,原始训练集X被分解为n个训练子集,用于确定n个神经网络的结构与参数。一个训练子集只由来自于被代表气味的样本所组成。
请参见附图10,根据一种面向大规模气味类别与强度同时确定的并-串联模式识别方法,本发明提出了确定在单输出神经网络分类器j的结构与参数时,训练子集Ξ(j)的形成过程。根据附图10a,我们首先生成一个超维斜椭球Θj0。Θj0以来自气味ωj的训练样本X(j)的均值μj为中心,其大小由恰好将X(j)全部包围所确定。与此同时,在Θj0内,肯定也有来自其他气味~ωj的训练样本。请参见附图10b,根据Θj0内来自气味ωj和来自~ωj的样本数之比,我们由Θj0产生一个扩展斜椭球Θj。Θj与Θj0的中心相同,所有半轴的方向也相同。训练子集Ξ(j)由被包含在Θj内的所有样本所组成。
请参见附图11,根据一种面向大规模气味类别与强度同时确定的并-串联模式识别方法,本发明提出了并-串联神经网络模型的决策过程。对一个待定样本x,其类别由第一层n个分类器中输出最大的神经网络所确定。设第j个神经网络分类器的输出为最大,则x属于气味ωj;随后,x的强度和关键成分浓度仅由第二层对应的第j个神经网络函数逼近模型所确定。因此,为了确定一个待定样本的类别与强度,第一层所有n个神经网络分类器均须参加决策,但第二层只须一个神经网络函数逼近模型参加决策即可。
利用本发明,机器嗅觉方法可有效解决成千上万种气味类别与强度的同时估计问题。与发明专利《一种基于模块化组合神经网络的机器嗅觉气味识别方法》(申请号03141537.7)和《机器嗅觉气味类别与强度同时确定方法》(申请号200610023183.4)相比,本发明提出的并一串联模式识别模型具有结构简单、待定参数少、学习速度快、推广能力强、分类和强度预测精度高的优点。
让我们用一个实例来说明本发明的具体实施方式
和有效性。
4种液态呈香物质为乙醇、乙酸乙酯、己酸乙酯和乳酸乙酯,分别用去离子水稀释成4-6种浓度,如表1所示。每一种浓度配置50个样品,每个液态样品体积为15毫升。一个液态样品放置于容积为150毫升的恒温瓶内恒温30分钟。请参见图1,机器嗅觉仪器的气敏传感器阵列由TGS800,TGS812,TGS813,TGS816,TGS821,TGS822,TGS823,TGS824,TGS825,TGS826,TGS830,TGS831,TGS832,TGS842,TGS880,TGS883T共16个气敏传感器组成。机器嗅觉仪器的测量流程请参见图2,测量各个液态样品的顶空挥发气,共得到23×50=1150样本,每个样本的维数为m=16。这就是说,我们得 表1 乙醇、乙酸乙酯、己酸乙酯和乳酸乙酯共4种呈香物质经去离子水稀释后的浓度 表2 4个训练子集大小和4个单输出神经网络分类器的学习参数 到一个1150行16列的响应数据阵。图12为这1150个样本数据的主成分分析图。图12表明,各种气味在测量空间的分布不一定是线性的,而且类与类之间也不一定是线性可分的。我们从每一种浓度的50个样本中选取40个作为训练样本,其余10个作为测试样本。这样一来,原始训练集共有23×40=920个样本,测试集共有23×10=230个样本。这里,去离子水被看作一种浓度0.1ppm。
根据本发明,我们先用4个单输出神经网络解决4种气味的分类问题,然后再用4个单输出神经网络解决4种气味的浓度估计即函数逼近问题。
4个单输出神经网络分类器的隐节点数均为

训练子集Ξ(j)的样本数如表2所示,依次为442、508、597和748,平均样本数为573.75,只占原始训练样本数的573.75/920=62.36%。采用2.6G CPU、256M内存的个人计算机,令学习因子η=0.003,4个单输出神经网络分类器的学习时间总共为7.89秒,平均误差平方根均小于0.1。如果4个训练子集的样本数均为920,则学习时间为84.3409秒。前者比后者的学习速度提高10.69倍,分类正确率相同。
4个单输出神经网络函数逼近模型的隐节点数均为

训练子集样本数依次为280、200、280和280。这里,4个训练子集均以去离子水为基点。学习因子仍为η=0.003,4个单输出神经网络函数的学习总时间为26.52秒,对训练子集常用对数浓度的平均误差平方根在0.015~0.029之间。
4个单输出神经网络分类器的实际输出经修正后,对所有230个测试样本的分类正确率为100%,对浓度的估计误差在10%以内,须记忆的参数等价于83个16维的样本。表3列出了本发明和专利ZL03141537.7、200610023183.4学习与预测结果的比较。由表3我们可以看出,对这个应用实例,与其他2个发明专利相比,本发明提出的并—串联模式识别模型具有学习数度快,分类正确率高,浓度预测精度高,模式识别模型结构简单,综合性能好这样一系列优点。
表3本发明和专利ZL03141537.7、200610023183.4学习与预测结果比较
权利要求
1、一种并-串联模式识别方法,其特征在于,第一层-分类器层由多个单输出神经网络并联所组成,第二层-函数逼近模型层由多个单输出神经网络并联所组成,然后,分类器层与函数逼近模型层串联组成并-串联模式识别模型。这种基于神经网络的并-串联模式识别模型用于机器嗅觉仪器对大规模气味类别与强度的同时估计。
设机器嗅觉仪器用m个气敏传感器组成的阵列测量了一个来自气味ωj且浓度为cp(j)的样品p,则得到一个维数为m的响应向量若机器嗅觉仪器测量了N个气味样品,则得到响应矩阵或原始训练集X∈RN×m,即训练集的样本数为N,维数为m。这N个样品来自于n种气味{ω1,...,ωj,...,ωn},且来自于同一种气味ωj的样品其强度是变化的。
2、根据权利要求1所述的方法,其特征在于,分类器层由多个单输出神经网络并联所组成,一个n种气味识别问题被转化为n个两种气味识别问题,并由n个单输出神经网络——加以解决。
3、根据权利要求2所述的方法,其特征在于,单输出神经网络分类器j代表一种气味ωj,负责解决一个两类问题{ωj,~ωj},形成非线性决策边界,将来自气味ωj的样本集X(j)与来自其他类别~ωj的所有样本X(~j)分开。神经网络分类器j的结构是单隐层的,输入节点数为m,隐节点数为
输出节点数为1。
4、根据权利要求2所述的方法,其特征在于,在确定单输出神经网络分类器j的权值与阈值时,训练子集Ξ(j)={X(j),X~(j)}由来自ωj的所有样本X(j)和来自~ωj的一小部分样本X(~j)所组成。Ξ(j)的具体形成过程如下
a)产生一个初始超维斜椭球Θj0。Θj0的中心μj与X(j)的均值重合,其大小恰好把来自ωj的所有训练样本X(j)包围。设X(j)的样本数为Nj,协方差矩阵为∑j,Θj0的最大Mahalanobis半径rmax(j)为
如果协方差阵∑j奇异,则将之加上一个m×m的正态随机方阵0.005N(0,1),即∑j←∑j+0.005N(0,1),然后再按公式(1)求rmax(j)。
b)计算被包含Θj0内且来自于~ωj的样本数N~j0。设第p个训练样本xp_X(j)且xp∈X,N~j0由下列循环所确定
N~j0=0.
For p=1N-Nj
If
N~j0←N~j0+1.
End
c)扩展Θj0,形成超维斜椭球Θj,确定Θj的半径Rmin(j)。本发明提出确定Rmin(j)的依据是,被包含在Θj0内且来自于~ωj的样本数N~j0越少,Θj越大;反之,Θj越小。确定Rmin(j)的具体条件如下
If Nj/N~j0>1.0
Else
End
d)生成最终的训练子集Ξ(j)。Ξ(j)由包含在Θj内的所有训练样本组成。假设xp_X(j)且xp∈X,Ξ(j)由下列循环所生成
Ξ(j)(Nj)=X(j).
k=Nj.
For p=1N-Nj
If
Ξ(j)(k+1)←Ξ(j)(k)+xp,
k←k+1.
End
N(j)=k.
N~j=N(j)-Nj.
最终地,Ξ(j)={X(j),X(~j)}∈R(Nj+N~j)×m共包含N(j)=Nj+N~j个m维样本,即由来自ωj的所有训练样本X(j)和来自~ωj的部分样本X(~j)所组成。这里,Nj为来自~ωj的样本数。一般地,N~j>Nj。
5、根据权利要求2所述的方法,其特征在于,单输出神经网络分类器j在学习Ξ(j)以确定其权值与阈值时,对应于来自较小类别的样本xp,在第τ个迭代步,权值修正分量Δw(j)(τ)等于误差梯度_Ej(τ)/_wp(j)(τ)乘以一个放大倍数λj=N~j/Nj。如果λj<0,则令λj=1。神经网络分类器j采用批学习方式,隐节点和输出节点的活化函数为3(1+exp(-_/3))-1,输入分量xpi成比例变化到
的范围内,目标输出dp(j)采用{0,3}编码,平均平方和误差为Ej(τ)。
这里,yp(j)为单输出神经网络分类器j对样本xp∈Ξ(j)的实际输出。设N~j>Nj,在第τ次学习时,权值修正分量Δw(j)(τ)由下列循环所决定
Δw(j)(τ)=0.
Forp=1N(j),
If
Else
End。
6、根据权利要求2所述的方法,其特征在于,单输出神经网络分类器j的作用由生成训练子集Ξ(j)的初始超维斜椭球Θj0和扩展超维斜椭球Θj限制在局部范围内。本发明的具体做法是,如果样本xp在Θj0之外,神经网络分类器j的实际输出yp(j)被乘以一个与超维斜椭球中心μj和Mahalanobis半径rmax(j)、Rmin(j)有关的修正量,否则yp(j)保持不变。于是,本发明提出如下判断条件
If
Else
End
这里,ρp(j)是神经网络j对样本xp修正的实际输出。显然,当xp在Θj之外时,
7、根据权利要求1所述的方法,其特征在于,函数逼近模型层由多个单输出神经网络并联所组成。n种气味的强度估计问题由n个单输出神经网络一一加以解决。
8、根据权利要求7所述的方法,其特征在于,单输出神经网络函数逼近模型j代表一种气味ωj,负责拟合传感器阵列对来自ωj的所有不同强度样品的响应X(j)与强度C(j)之间的非线性关系。神经网络函数逼近模型j的结构是单隐层的,输入节点数为m,隐节点数为
输出节
点数为1。在确定单输出神经网络函数逼近模型j的权值与阈值时,训练样本子集仅由来自气味ωj的样本X(j)所组成。
9、根据权利要求7所述的方法,其特征在于,单输出神经网络函数逼近模型j在学习X(j)以确定其权值与阈值时,采用批学习方式,隐节点和输出节点的活化函数为f(_)=3(1+exp(-_/3))-1,输入分量xpi(j)成比例变化到
的范围内,目标输出tp(j)为
这里,cp(j)是气味ωj第p个样本xp(j)的强度或浓度,单位为ppm(百万分之一)。单输出神经网络函数逼近模型j对X(j)的平均平方利误差为
这里,ξp(j)为神经网络函数逼近模型j对样本的实际输出。
10、根据权利要求1所述的方法,其特征在于,分类器层的单输出神经网络与函数逼近模型层的单输出神经网络一一对应,即分类器层的单输出神经网络j与函数逼近模型层的单输出神经网络j均代表同一种气味ωj。
11、根据权利要求1所述的方法,其特征在于,对一个类别与强度待定的样本xp,其类别由分类器层输出值最大的单输出神经网络j所决定,然后,其强度由函数逼近模型层对应的单输出神经网络j所决定。即
本发明-一种并-串联模式识别方法及其在大规模气味类别与强度同时确定中的应用具有结构简单、待定参数少、学习速度快、分类和函数逼近精度高的优点。应用本发明,机器嗅觉仪器能够实现对成千上万种气味类别与强度的实时估计。
全文摘要
一种并-串联模式识别方法及其在机器嗅觉中的应用,其特点是,将大规模气味类别与强度同时确定问题先看作分类问题,然后看作函数逼近问题,分别由分类器层和函数逼近模型层串联组成的模型予以解决,包括以下4个实施步骤。(1)分类器层n个单输出神经网络负责确定n种气味的类别,一一对应。一个网络的训练子集由所代表气味的所有样本和相邻气味的部分样本组成。(2)函数逼近模型层n个单输出神经网络负责确定n种气味的强度,一一对应。一个网络的训练子集由所代表气味的所有样本组成。(3)不平衡训练子集的虚拟平衡。(4)n+1个单输出神经网络进行决策。利用本发明,机器嗅觉仪器可有效解决成千上万种气味类别与强度的同时估计问题。
文档编号G06N3/02GK101101299SQ20071004260
公开日2008年1月9日 申请日期2007年6月25日 优先权日2007年6月25日
发明者高大启, 刘芳君, 孙建立 申请人:华东理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1