一种基于遗传算法结合支持向量机的乌龙茶产地判别方法
【专利摘要】本发明涉及一种基于遗传算法结合支持向量机的乌龙茶产地判别方法,包括以下步骤:茶粉样品的准备;光谱信息的采集;光谱信息的预处理;基于遗传算法的波长筛选;模型的建立;产地的判别。本发明为乌龙茶产地判别提供了一种快速、准确的途径,有利于茶叶市场实现对茶叶品质管理的规范化。
【专利说明】
一种基于遗传算法结合支持向量机的乌龙茶产地判别方法
技术领域
[0001] 本发明涉及一种基于遗传算法结合支持向量机的乌龙茶产地判别方法。
【背景技术】
[0002] 安溪铁观音作为闽南乌龙茶的代表,被列为地理标志保护产品。其产地福建安溪 县是全国最大的乌龙茶主产区,也是全国茶叶生产标准化示范县,安溪铁观音地域特征明 显,独特悠雅的观音韵倍受青睐。然而,在茶叶原产地产品保护制度建立的过程中,仍存在 假冒产品标识、以次充好的现象,损害消费者利益。为保护地理标志产品的地域特色和品质 特征,促进市场公平交易,产地判别与溯源技术对保护地理标志产品的品质真实性及维护 中国茶叶品牌声誉具有重要意义。
【发明内容】
[0003] 有鉴于此,本发明的目的在于提供一种基于遗传算法结合支持向量机的乌龙茶产 地判别方法,为乌龙茶产地判别提供了一种快速、准确的途径,有利于茶叶市场实现对茶叶 品质管理的规范化。
[0004] 为实现上述目的,本发明采用如下技术方案:一种基于遗传算法结合支持向量机 的乌龙茶产地判别方法,其特征在于,包括以下步骤: 步骤Sl:茶粉样品的准备:收集各个乌龙茶产地的茶叶样品,将所述茶叶样品经粉碎机 研磨成茶粉,所述茶粉经过筛及封装冷藏后作为茶粉样品; 步骤S2:光谱信息的采集:基于Workf low设置茶粉样品的近红外光谱信息采集工作流, 利用近红外光谱仪采集所述茶粉样品于近红外范围内的漫反射光谱信息; 步骤S3:光谱信息的预处理:使用红外处理软件OPUS对所述步骤S2采集到的漫反射光 谱信息采用一阶导数及归一化进行预处理,同时处理后的数据从spc光谱格式转换为xls文 件格式; 步骤S4:基于遗传算法的波长筛选:将步骤S3中得到的xls文件格式的全波段光谱数据 平均分为多个子区间进行随机编码,采用选择、交叉和变异三种算法,以函数F=R/RMSEC的 最大值作为优化指标,选择最佳子区间组合作为参与建模的光谱谱区,其中R为相关系数, RMSEC为交叉验证的均方根误差; 步骤S5:模型的建立:根据茶叶样品的产地信息不同,设定对应的产地标签值,建立所 述光谱谱区与产地标签值间一一对应的数学模型,所述数学模型以所述光谱谱区作为输入 量,运用支持向量机对所述光谱谱区进行分析并分类,计算出相应的产地标签值; 步骤S6:产地的判别:将一份茶叶样品经步骤Sl至步骤S4处理得到的光谱谱区代入步 骤S5得到的数学模型进行相应的结果预测,从而确定所述茶叶样品的产地。
[0005] 进一步的,所述步骤Sl中茶粉过筛所用的为80目样品筛。
[0006] 进一步的,所述步骤Sl中每一份茶粉样品的质量为10_15g。
[0007] 进一步的,所述步骤S2中的近红外光谱仪为Antaris II傅立叶近红外光谱仪。
[0008]进一步的,所述Antaris II傅立叶近红外光谱仪的采集参数如下:扫描次数为64 次,分辨率为8CHT1,光谱范围为10000-4000cnf1。
[0009] 进一步的,所述步骤S4中随机编码时,0表示删去谱区,1表示选用谱区。
[0010] 进一步的,遗传算法的参数如下:染色体条数为70条,基因数为40个,变异概率为 〇. 1,交叉概率为〇. 6-0.9,迭代次数为20-25代。
[0011] 本发明与现有技术相比具有以下有益效果:本发明采用遗传算法和光谱技术的结 合,可有效地从茶叶近红外光谱数据中优选特征信息,简化判别模型,缩短运行时间,很大 程度上提高茶叶产地判别的效率和结果的准确性。本发明能准确、快速、科学地鉴别产地不 同、品质相近且容易模仿的地理标志产品,这对保证地理标志产品真实性,维护贸易公平和 保障消费者权益具有重要意义和应用价值。
【附图说明】
[0012] 图1是本发明方法流程图。
[0013] 图2是本发明一实施例的近红外光谱预处理图。
[0014] 图3是本发明一实施例的产地判别结果图。
[0015] 图4是支持向量机的线性可分情况下的最优分类面。
【具体实施方式】
[0016] 下面结合附图及实施例对本发明做进一步说明。
[0017] 请参照图1,本发明提供一种基于遗传算法结合支持向量机的乌龙茶产地判别方 法,其特征在于,包括以下步骤: 步骤Sl:茶粉样品的准备:收集各个乌龙茶产地的茶叶样品,将所述茶叶样品经粉碎机 研磨成茶粉,通过80目样品筛对所述茶粉进行过筛,并取筛下10-15g的茶粉编号后经封装 冷藏后作为茶粉样品; 步骤S2:光谱信息的采集:基于Workf low设置茶粉样品的近红外光谱信息采集工作流, 利用Antaris II傅立叶近红外光谱仪采集所述茶粉样品于近红外范围内的漫反射光谱信 息,请参照图2;具体做法是将茶粉样品装置于近红外光谱仪的采样瓶中,样品和背景的采 集完全自动化,无需取离样品,从而建立在高可靠性和稳固性基础上的高性能光谱。采集参 数为:扫描次数64次,分辨率8CHT 1,光谱范围lOOOOcnfl^OOcnf1; 步骤S3:光谱信息的预处理:使用红外处理软件OPUS对所述步骤S2采集到的漫反射光 谱信息采用一阶导数及归一化进行预处理,同时处理后的数据从spc光谱格式转换为xls文 件格式;光谱预处理可提高信噪比降低噪声,消除基线和其他因素的干扰; 步骤S4:基于遗传算法的波长筛选:结合近红外光谱的特征波长信息,将步骤S3中得到 的xls文件格式中光谱范围为lOOOO1000 cnf1区域的近红外光谱信息平均分为40个子区间, 进行随机编码,其中〇表示删去谱区,1表示选用谱区。采用选择、交叉和变异三种算法,以函 数F=R/RMSEC的最大值作为优化指标,选择最佳子区间组合作为参与建模的光谱谱区,其中 R为相关系数,RMSEC为交叉验证的均方根误差;遗传算法的参数设置如下:染色体条数为70 条,基因数为40个,变异概率为0.1,交叉概率为0.6-0.9,迭代次数为20-25代,遗传算法具 体包括以下步骤: 1、编码:全谱段光谱区间分为几个子区间,进行0-1二进制编码,编为I,建模时包括此 波段;若为0,不包括此波段。
[0018] 2、设置初始群体:即进行染色体条数,基因数,迭代次数等相关参数设置。
[0019] 3、选择适应值函数:用于评价模型的预测能力,评价指标转换得到适应值函数为: maxf(X)=R/RMSEP〇
[0020] 4、重复选择-交叉-变异三个算子,进行遗传筛选,直至最大繁殖代数时停止。
[0021 ]步骤S5:模型的建立:根据茶叶样品的产地信息不同,设定对应的产地标签值,例 如:安溪县茶样产地标签值设为1,大田县茶样产地标签值设为2,华安县茶样产地标签值设 为3;利用Matlab数学软件编译产地判别模型的相关语言,建立所述光谱谱区与产地标签值 间一一对应的数学模型,所述数学模型基于的化学计量学方法为遗传算法结合支持向量机 (SVM),请参照图3,该数学模型的判别参考指标为:准确判别率;相关系数R(Correlation Coefficient);交叉验证均方根误差RMSEC(Root Mean Square Error of Calibration); 支持向量机的原理如下: 支持向量机的原理起源于两类线性可分问题的数据分析和处理。
[0022] 对线性可分问题,设X为输入空间,Y为输出域,通常模式集合馨:=賴!《爲由两 类点组成,即Y={-1,1}。对于η个样本组成的训练集:
(4-1) 构造一个目标函数,寻找一个分割超平面,每个点距离超平面的远近可以表示为分类 预测的确信或准确程度,SVM就是要最大化这个间隔值。如二维空间中如图4所示,圆圈和 方形分别代表两类样品,设H为最优分类超平面,Hl,Η2分别表示各类样本中离分类超平面 最近且平行于分类超平面的支持向量,常称为supprot Verctot。将分类超平面记为4-2式, 则归一化后,对样本集(Xi,Yi)的分类超平面则满足4-3式。
[0023] 隊父_本_:=:0 (4-2) _IT :? il! i (4-3 ) 式中:W是垂直于分类超平面的法向量;margin=2/||W||为:区域间隔距离。
[0024] 遇线性不可分情况时,将其转换为高维空间中的线性可分问题,在该高维空问中 寻找最优分类面。 本试验以预处理后和经过遗传算法筛选后的光谱数据作为支持向量机的输入因子,训 练样本以建立判别模型。
[0025] 步骤S6:产地的判别:将一份茶叶样品经步骤Sl至步骤S4处理得到的光谱谱区代 入步骤S5得到的数学模型进行相应的结果预测,即通过GA-SVM模型预测出茶样的产地分类 值,再与茶样的产地标签值进行匹配,从而确定所述茶叶样品的产地。
[0026]以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与 修饰,皆应属本发明的涵盖范围。
【主权项】
1. 一种基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特征在于,包括以下 步骤: 步骤S1:茶粉样品的准备:收集各个乌龙茶产地的茶叶样品,将所述茶叶样品经粉碎机 研磨成茶粉,所述茶粉经过筛及封装冷藏后作为茶粉样品; 步骤S2:光谱信息的采集:基于Workflow设置茶粉样品的近红外光谱信息采集工作流, 利用近红外光谱仪采集所述茶粉样品于近红外范围内的漫反射光谱信息; 步骤S3:光谱信息的预处理:使用红外处理软件OPUS对所述步骤S2采集到的漫反射光 谱信息采用一阶导数及归一化进行预处理,同时处理后的数据从spc光谱格式转换为xls文 件格式; 步骤S4:基于遗传算法的波长筛选:将步骤S3中得到的xls文件格式的全波段光谱数据 平均分为多个子区间进行随机编码,采用选择、交叉和变异三种算法,以函数F=R/RMSEC的 最大值作为优化指标,选择最佳子区间组合作为参与建模的光谱谱区,其中R为相关系数, RMSEC为交叉验证的均方根误差; 步骤S5:模型的建立:根据茶叶样品的产地信息不同,设定对应的产地标签值,建立所 述光谱谱区与产地标签值间一一对应的数学模型,所述数学模型以所述光谱谱区作为输入 量,运用支持向量机对所述光谱谱区进行分析并分类,计算出相应的产地标签值; 步骤S6:产地的判别:将一份茶叶样品经步骤S1至步骤S4处理得到的光谱谱区代入步 骤S5得到的数学模型进行相应的结果预测,从而确定所述茶叶样品的产地。2. 根据权利要求1所述的基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特 征在于:所述步骤S1中茶粉过筛所用的为80目样品筛。3. 根据权利要求1所述的基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特 征在于:所述步骤S1中每一份茶粉样品的质量为10-15g。4. 根据权利要求1所述的基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特 征在于:所述步骤S2中的近红外光谱仪为Antaris II傅立叶近红外光谱仪。5. 根据权利要求5所述的基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特 征在于:所述Antaris II傅立叶近红外光谱仪的采集参数如下:扫描次数为64次,分辨率为 8cm-1,光谱范围为 10000-4000cm-1。6. 根据权利要求1所述的基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特 征在于:所述步骤S4中随机编码时,0表示删去谱区,1表示选用谱区。7. 根据权利要求1所述的基于遗传算法结合支持向量机的乌龙茶产地判别方法,其特 征在于:遗传算法的参数如下:染色体条数为70条,基因数为40个,变异概率为0.1,交叉概 率为0.6-0.9,迭代次数为20-25代。
【文档编号】G01N1/28GK105938093SQ201610400739
【公开日】2016年9月14日
【申请日】2016年6月8日
【发明人】孙威江, 王冰玉, 林馥茗, 黄艳
【申请人】福建农林大学