本发明涉及农产品电子鼻检测领域,特别涉及一种基于双层集成神经网络的电子鼻预测方法。
背景技术:
目前为止,常用于电子鼻中气味信号的数据学习方法有支持向量机、逻辑斯蒂回归、决策树、随机森林、k-近邻、人工神经网络等算法。但由于电子鼻数据具有明显的非线性特性且易受环境、未知类别气味和采集装置的干扰影响,尽管相比较其它数据学习方法,人工神经网络能够更有效的学习并解释复杂的现实世界中的非线性传感器数据。但是随着研究的深入,神经网络暴露了一些不足,如缺乏严密的理论体系,使用者的经验对应用效果影响过大,神经网络模型的选择及其参数的设置,需要通过研究人员的经验和实验测试来完成,没有完整的知识体系结构能够对神经网络的使用及其输出结果做出严密的定量分析,训练过程会遇到局部最小、过拟合导致泛化性能下降等问题。导致其难以建立同时具备精确度高、稳定性好、泛化能力强的预测模型。
本发明提出一种基于集成卷积神经网络的电子鼻预测方法,该方法融合了卷积神经网络自动提取数据集中抽象局部、拟合能力强和集成算法能有效提高电子鼻预测模型泛化能力和稳定性等特点,建立具备精确度高、稳定性好、泛化能力强的电子鼻预测模型,进而提高电子鼻的性能。
技术实现要素:
本发明的目的在于提供基于集成卷积神经网络的电子鼻预测方法,融合了卷积神经网络自动提取数据集中抽象局部、拟合能力强和集成算法能有效提高预测模型泛化能力和稳定性等优点。一方面可以提高电子鼻预测模型的准确率,另一方面可以增强电子鼻预测模型的泛化能力。有效地提高了电子鼻的检测性能。
为了实现上述目的,本发明采用如下技术方案:
一种基于双层集成神经网络的电子鼻预测方法,具体包括以下步骤:
(1)使用电子鼻获取已知标签的样品的响应曲线;将响应曲线去基线得到样本数据集s1∈rm×n×k,然后对s1进行归一化处理,得到样本数据集s2∈rm×n×k,其中,m表示样本数,n表示电子鼻中的传感器数量,k表示检测时间;
(2)将s2分为训练数据集s3∈ra×n×k和测试数据集s4∈rb×n×k,a+b=m;为了符合卷积神经网络标准数据输入格式,进一步将s3和s4分别转换为训练集s31∈ra×n×k×1和测试集s41∈rb×n×k×1;
(3)构建第一层卷积神经网络,采用网格搜索法得到最佳卷积核大小和数量,然后通过中心点对称法获得f个卷积核大小和数量的组合,构成f个卷积神经网络;将训练集s31和测试集s41输入到f个卷积神经网络中,分别输出数据集o1和数据集o2;
(4)构建第二层卷积神经网络,采用网格搜索法,将数据集o1输入到第二层卷积神经网络中进行训练,以数据集o2的预测准确率作为评价准则,得到训练好的第二层卷积神经网络;
(5)第一层卷积神经网络和第二层卷积神经网络构成双层集成卷积神经网络模型;使用电子鼻采集待检测样品的响应曲线,通过步骤(1)中的方法对响应曲线进行预处理,得到待测样本数据集s'∈rm′×n×k,m′表示待测样本数;将s'转化为s"∈rm′×n×k×1并输入到所述的双层集成卷积神经网络模型中,得到待测样本的分类结果。
进一步的,所述步骤(3)具体为:
(3.1)构建第一层卷积神经网络,所述第一卷积神经网络设置有输入层、卷积层、池化层、全连接层和输出层;
(3.2)采用均匀分布法初始化神经网络权重;
(3.3)设置卷积核大小范围为[[1,1],[3,3],[5,5],...,[2t-1]],卷积核数量范围为[2,4,8,...,2t];采用网格搜索法对卷积层中的卷积核大小和数量进行寻优,具体为将卷积核大小和卷积核数量进行任意组合,得到t*t个卷积神经网络,采用训练集s31训练所述t*t个卷积神经网络,得到t*t个模型;将测试集s41输入到t*t个模型中,得到t*t个预测准确率,以测试集s41的预测准确率作为评价准则,得到最高预测准确率对应的模型,进而得到最佳卷积核大小[x1,x1]和数量z1;
(3.4)以x1、z1作为中心对称点,生成x1=[[x1-2i,x1-2i],...,[x1,x1],...,[x1+2i,x1+2i]]和z1=[z1/2j,...,z1,...,z1*2j],共得到f个卷积核大小和数量的组合,根据所述组合生成f个卷积神经网络;其中i和j是数量参数,f=(2i+1)*(2j+1);
(3.5)将训练集s31和测试集s41输入到f个卷积神经网络中,分别输出s31和s41对应的数据集o1=[output11,output12,...,output1f]和数据集o2=[output21,output22,...,output2f]。
进一步的,所述步骤(4)具体为:
(4.1)构建第二层卷积神经网络,所述第二卷积神经网络设置有输入层、卷积层、池化层、全连接层和输出层;
(4.2)采用均匀分布法初始化神经网络权重;
(4.3)设置卷积核大小范围为[[1,1],[3,3],[5,5],...,[2t-1]],卷积核数量范围为[2,4,8,...,2t];采用网格搜索法对卷积层中的卷积核大小和数量进行寻优,具体为将卷积核大小和卷积核数量进行任意组合,得到t*t个卷积神经网络,采用数据集o1训练所述t*t个卷积神经网络,得到t*t个模型;将数据集o2输入到t*t个模型中,得到t*t个预测准确率,以数据集o2的预测准确率作为评价准则,得到最高预测准确率对应的模型作为第二层卷积神经网络。
进一步的,所述的均匀分布法,其计算式为:
np=hp*wp*dp
其中,wp是每一层卷积神经网络中的第p个卷积层的权重矩阵,hp、wp、dp分别是第p个卷积层中卷积核的高、宽和卷积核数量。
本发明具有以下有益效果:
(1)本发明在构建第一层卷积神经网络阶段,通过网格搜索法确定卷积神经网络的参数,并基于最佳参数附近生成有差异性的卷积神经网络,即保持了预测模型的准确性,又保证了预测模型的差异性。
(2)本发明在构建第二层卷积神经网络阶段,以第一层f个卷积神经网络的输出作为输入,结合了集成学习的思想,提高了容错率,进一步提高了预测模型的抗干扰能力。
(3)本发明设计了双层集成结构,相比常用的用于电子鼻数据处理中的机器学习算法,本发明的集成神经网络不仅提高了模型的预测能力,还提高了预测模型的泛化能力。
附图说明
图1是电子鼻检测不同等级火腿样本传感器响应信号图,其中(a)为一级火腿的电子鼻响应曲线,(b)为二级火腿的电子鼻响应曲线,(c)为三级火腿的电子鼻响应曲线;
图2是构建第一层卷积神经网络的具体流程示意图;
图3是构建第二层卷积神经网络的具体流程示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
步骤一、在本实施例中,采用金华一等级、二等级、三等级火腿作为检测样品,实验样本由金字火腿股份有限公司提供。按照等级将样品分为三组,每组20个样品,每个样品200g,采用三根无味竹签插入火腿中,放置10s,然后将竹签放入250ml洗气瓶中,在室温下顶空30min,使该顶空装置内挥发物浓度达到稳定。每个样品不重复采样5次,每个等级火腿100个样本,使用电子鼻对300个实验样本进行检测,设置40s预清洗时间,100s进样时间,60s清洗时间,获得电子鼻的响应曲线,并对所有样本数据的类别进行标记,得到数据集s0,其中,s0∈r300×12×160。
三种不同等级火腿的电子鼻响应曲线如图1所示,可以看出,不同等级火腿的传感器响应强度有很大的差别。
本实施例中应用的是自制的电子鼻系统为检测仪器,由12个金属氧化物传感器,其型号与相应特性如表1所示:
表1自制电子鼻各传感器的相应特征
步骤二、对所有数据集s0进行去基线处理,得到数据集s1具体公式如下:
rnew=ri-rbaseline
其中,ri表示第i个响应曲线值,rbaseline表示基线,rnew表示去基线后的响应值;
对数据集s1进行标准化处理,得到标准化后的数据集s2,具体公式如下:
其中,fij表示第i个传感器的第j个值,fimean和fistd分别表示第i个传感器的均值和标准差,
步骤三、将数据集s2按7:3随机分为训练特征集s3和测试特征集s4,其中,s3∈r210×12×160,s4∈r90×12×160;由于卷积神经网络的数据输入为图像格式,需要将s3和s4转换为通道数为1的灰度图,因此对训练特征集s3和测试特征集s4进行矩阵转换,得到训练集s31和测试集s41,其中,s31∈r210×12×160×1,s41∈r90×12×160×1。
步骤四、在构建第一层卷积神经网络阶段,具体流程示意图如图2所示。卷积神经网络设置有输入层、2个卷积层、2个池化层、一个全连接层和一个输出层。
采用均匀分布法初始化神经网络权重,其计算式为:
np=hp*wp*dp
其中,wp是第一层卷积神经网络中的第p个卷积层的权重矩阵,hp、wp、dp分别是第一层卷积神经网络中的第p个卷积层中卷积核的高、宽和卷积核数量。
采用网格搜索法对卷积层中的卷积核大小和数量进行寻优,其中,所述卷积核大小范围为[[1,1],[3,3],[5,5],[7,7],[9,9],[11,11]],卷积核数量范围为[2,4,8,16,32,64]。将卷积核大小和卷积核数量进行任意组合,得到36(6×6)个卷积神经网络,采用训练集s31训练所述36个卷积神经网络,得到36个模型;将测试集s41输入到36个模型中,得到36个预测准确率,以测试集s41的预测准确率作为评价准则,得到最高预测准确率对应的模型,进而得到最佳卷积核大小[5,5]和数量32。
以所述最佳卷积核大小[5,5]和数量32为中心对称点,生成x1=[[1,1],[3,3],[5,5],[7,7],[9,9]]和z1=[8,16,32,64,128],总共有25个卷积核大小和数量的组合,根据所述卷积核大小和数量的组合值生成25个卷积神经网络。
记录基于训练集s31的25个卷积神经网络的o1=[output11,output12,...,output125],基于测试集s41的25个卷积神经网络的o2=[output21,output22,...,output225]。
步骤五、在构建第二层卷积神经网络阶段,具体流程示意图如图3所示。第二层卷积神经网络设置有输入层、2个卷积层、2个池化层、一个全连接层和输出层。
采用均匀分布法初始化神经网络权重,其计算式为:
np=hp*wp*dp
其中,wp是第二层卷积神经网络中的第p个卷积层的权重矩阵,hp、wp、dp分别是第二层卷积神经网络中的第p个卷积层中卷积核的高、宽和卷积核数量。
采用网格搜索法对卷积层中的卷积核大小和数量进行寻优,其中,所述卷积核大小范围为[[1,1],[3,3],[5,5],[7,7],[9,9],[11,11]],卷积核数量范围为[2,4,8,16,32,64]。将卷积核大小和卷积核数量进行任意组合,得到36(6×6)个卷积神经网络,输入数据集o1=[output11,output12,...,output125]到所述的36个卷积神经网络中进行训练,得到36个模型;将数据集o2输入到36个模型中,得到36个预测准确率,以数据集o2的预测准确率作为评价准则,得到最高预测准确率对应的模型作为第二层卷积神经网络。第一层卷积神经网络和第二层卷积神经网络构成双层集成卷积神经网络模型,完成模型的建立。
步骤六、为了验证模型的有效性,作为对比,分别采用基于支持向量机、逻辑斯蒂回归、k近邻算法和决策树建立的模型。由于集成卷积神经网络可以直接提取特征,所以未对数据进行降维处理。而对比模型中使用的数据集需要对数据进行降维处理,本文采用主成分分析对训练特征集s3和测试特征集s4进行降维处理。
表2预测准确率
从结果可以看出,无论是是那种学习算法建立的模型,集成卷积神经网络预测准确率远高于其它学习算法,说明该方法具有较高的推广应用价值。