一种基于近红外光谱的作物种子品种真实性鉴别方法
【专利摘要】本发明公开了一种基于近红外光谱的作物种子品种真实性鉴别方法,该方法包括:步骤1:采集作物种子样本的近红外光谱数据作为训练样本,并对这些近红外光谱数据进行预处理;步骤2:从经过预处理的近红外光谱数据中选择所需的光谱数据,通过特征提取和建模方法建立作物种子的定性分析模型;步骤3:利用所建立的定性分析模型,对作为测试样本的待鉴别作物种子的光谱进行品种真实性鉴别。本发明建立在近红外光谱基础上,通过光谱预处理、特征提取、建模和鉴别等一系列操作,能够建立通用的近红外光谱定性分析模型,并能够快速准确地鉴别作物种子的品种真实性。
【专利说明】一种基于近红外光谱的作物种子品种真实性鉴别方法
【技术领域】
[0001] 本发明涉及作物种子的品种鉴别领域,特别是一种基于近红外光谱的作物种子品 种真实性鉴别方法。
【背景技术】
[0002] 中国是农业大国,农业是安天下、稳民心的战略产业。"国以农为本,农以种为先", 种业安全是我国粮食安全的前提,是农业安全的先决条件之一。然而,我国的种业市场不容 乐观,品种侵权行为严重,假劣种子坑农害农事件时有发生。企业维权难,诉讼难,追赔难, 致使许多优良品种遭受侵权,以至于形成育种的不如卖种的、搞科研的不如搞经营的怪象。
[0003] 目前所采用的品种鉴别方法大体可分为以下三类:一)基于形态特性的鉴别方 法,主要包括种子形态鉴别、幼苗形态鉴别、田间种植鉴别和计算机模拟形态分析等方法; 二)基于分子生物学技术的鉴别方法,主要包括蛋白质指纹图谱和DNA指纹图谱两类鉴别 方法;三)基于化学、物理特性的鉴别方法,主要有苯酚染色法、氢氧化钠染色法、氢氧化钾 染色法、荧光扫描图谱法等。
[0004] 以上方法均存在多种技术障碍:(1)鉴别时间长;(2)鉴别成本高;(3)过程烦琐;
[4] 鉴别者需要专门技术知识;(5)鉴别需要特定的测试条件、化学试剂、器材等。因此,种 业市场缺乏有效的快速现场鉴别技术手段和设备,给农业生产、管理执法等带来诸多困难, 难以有效保障种子安全与粮食安全。
[0005] 近红外光谱是基于物质对近红外谱区电磁波吸收的一种光谱技术,由于近红外光 谱分析技术具有简便、快捷、低成本、无污染以及不破坏样品等优点,因此被广泛应用于多 个行业。近红外定性分析主要用于物质的定性判别分析,即通过比较未知样品和建模样品 或标准样品的光谱来确定未知样品的归属。
[0006] 针对农作物种子品种真实性鉴别方法的现状与诸多不足,本发明提出一种基于近 红外光谱的作物种子品种真实性鉴别方法。
【发明内容】
[0007] (一)要解决的技术问题
[0008] 有鉴于此,本发明的主要目的是为了提供一种无损、低成本、易操作、高可靠的基 于近红外光谱的作物种子品种真实性鉴别方法,无需专业人士即可实现基于近红外光谱的 种子品种真实性快速鉴别,并改进了现有方法所建立的近红外定性分析模型的稳定性和适 应性不高的缺点。
[0009] (二)技术方案
[0010] 为达到上述目的,本发明提供了一种基于近红外光谱的作物种子品种真实性鉴别 方法,该方法包括:
[0011] 步骤1:采集作物种子样本的近红外光谱数据作为训练样本,并对这些近红外光 谱数据进行预处理;
[0012] 步骤2 :从经过预处理的近红外光谱数据中选择所需的光谱数据,通过特征提取 和建模方法建立作物种子的定性分析模型;
[0013] 步骤3 :利用所建立的定性分析模型,对作为测试样本的待鉴别作物种子的光谱 进行品种真实性鉴别。
[0014] 上述方案中,步骤1中所述的近红外光谱数据,其来源是近红外光谱仪。如果有相 同型号的多台近红外光谱仪,则在采集作物种子样本的近红外光谱数据时,多台近红外光 谱仪所处的外部环境相同;对同一份作物种子样本,在相同的测量时间点要求在不同的近 红外光谱仪上进行测量,得到对应的多条光谱数据。
[0015] 上述方案中,步骤1中所述对近红外光谱数据进行预处理,是为了去除或降低不 确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法 处理、平滑处理或中心化及标准化处理。所述不确定的背景信息是指受近红外光谱仪仪器 状态、测定条件与环境影响的信息。
[0016] 上述方案中,步骤2中所述从经过预处理的近红外光谱数据中选择所需的光谱数 据,是指从经过预处理的近红外光谱数据中选择具有代表性的建模样本数据;由于作物种 子的产地、出产年限、光谱采集时间不同、光谱采集仪器不同这些不确定信息,会给定性鉴 别造成影响,因此该具有代表性的建模样本数据是能够对这些不确定信息进行包容的建模 样本数据,以减小光谱的变动影响模型对光谱鉴别的准确性。
[0017] 上述方案中,除了所述的不确定信息的影响,由于不同仪器之间、不同测量时间的 差异,在挑选建模样本数据时,如果有相同型号的多台仪器,对于所挑选的同一时间点的测 试样本数据,该具有代表性的建模样本数据要同时包含不同仪器所采集的样本数据,以实 现多台仪器联合建模。根据样本光谱测量时间的不同,在挑选建模样本数据时,以逐步增加 不同时间测量的样本的基础上挑选合适的光谱数据作为该具有代表性的建模样本数据,以 实现延长建模周期。
[0018] 上述方案中,步骤2中所述建立作物种子的定性分析模型,包括对挑选的建模样 本数据进行降维处理,该降维处理包括主成分分析(PCA)、偏最小二乘法回归(PLS)或线性 鉴别分析(LDA)降维方法。
[0019] 上述方案中,步骤2中所述建立作物种子的定性分析模型,采用的建模方法根据 模型的适用范围及分析目标的不同采用不同的建模方法,包括基于高维形象几何分析的仿 生模式识别方法(BPR)、支持向量机(SVM)或最近欧氏距离方法。
[0020] 上述方案中,步骤3中所述利用所建立的定性分析模型,对作为测试样本的待鉴 别作物种子的光谱进行品种真实性鉴别,包括:首先获取作为测试样本的待鉴别作物种子 的光谱数据,然后对该待鉴别作物种子的光谱数据进行预处理、特征提取,最后利用所建立 的定性分析模型进行快速鉴别,并给出鉴别结果。
[0021] 上述方案中,该方法在对采集的近红外光谱数据进行的预处理与特征提取操作, 与所述的定性分析模型所使用的预处理与特征提取操作相同。
[0022] (三)有益效果
[0023] 从上述技术方案中可以看出,本发明具有以下有益效果:
[0024] (1)本发明的基于近红外光谱的作物种子品种真实性鉴别方法,在建模过程中采 取了逐步增加不同时间测量的样本数据来建立模型,延长了建模周期,显著提高了所建模 型的稳定性。其次,由于挑选了不同仪器所采集的样本数据,实现了多台仪器联合建模,显 著提高了所建模型的适应性。
[0025] (2)本发明的基于近红外光谱的作物种子品种真实性鉴别方法,在实际应用中, 不同近红外光谱仪间由于光路的设计、元器件选用、装配误差及外部使用环境等原因,使得 对同样的样品测得的光谱响应间存在一定的差异,这种差异甚至可能超过了待鉴别物品的 种间差别,导致一台仪器上建立的鉴别模型不能直接用于另一台仪器上测量的样品光谱分 析,而本发明所提供的方法就能很好地解决这一问题。
[0026] (3)本发明的基于近红外光谱的作物种子品种真实性鉴别方法,能够快速对作物 种子的品种真实性做出鉴别,鉴别时间少成本低,对测试者不要求具有专业知识,应用方 便,可用于大规模普及。
[0027] (4)本发明的基于近红外光谱的作物种子品种真实性鉴别方法,可以应用于农作 物种子的单倍体多倍体检测、母本杂交种的检测等农业应用领域,还可以应用于石油化工、 医药制药、生物分析研究、食品安全等方面。
【专利附图】
【附图说明】
[0028] 图1是本发明提供的基于近红外光谱的作物种子品种真实性鉴别方法的流程图。
[0029] 图2是依照本发明实施例的延长建模周期模型性能的变化。
[0030] 图3是依照本发明实施例的联合建模延长建模周期模型性能测试结果。
[0031] 图4是依照本发明实施例的不同建模方式平均正确识别率变化。
【具体实施方式】
[0032] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0033] 需要说明的是,本发明提出的实验方法和操作并非表示此方法只局限于农业领 域,在石油化工、医药制药、生物分析研究、食品安全等方面均有利用价值。算法中预处理方 法、特征提取方法以及建模方法并不固定,实验者可以根据不同的情况以及不同的实验经 验来合理选择各步骤方法,实施例使用的各步骤算法并非用来限制本发明。
[0034] 如图1所示,图1是本发明提供的基于近红外光谱的作物种子品种真实性鉴别方 法的流程图,该方法包括:
[0035] 步骤1 :采集作物种子样本的近红外光谱数据作为训练样本,并对这些近红外光 谱数据进行预处理;
[0036] 步骤2 :从经过预处理的近红外光谱数据中选择所需的光谱数据,通过特征提取 和建模方法建立作物种子的定性分析模型;
[0037] 步骤3 :利用所建立的定性分析模型,对作为测试样本的待鉴别作物种子的光谱 进行品种真实性鉴别。
[0038] 其中,步骤1中所述的近红外光谱数据,其来源是近红外光谱仪。如果有相同型号 的多台近红外光谱仪,则在采集作物种子样本的近红外光谱数据时,多台近红外光谱仪所 处的外部环境相同;对同一份作物种子样本,在相同的测量时间点要求在不同的近红外光 谱仪上进行测量,得到对应的多条光谱数据。所述对近红外光谱数据进行预处理,是为了去 除或降低不确定的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处 理、导数法处理、平滑处理或中心化及标准化处理。所述不确定的背景信息是指受近红外光 谱仪仪器状态、测定条件与环境影响的信息。
[0039] 步骤2中所述从经过预处理的近红外光谱数据中选择所需的光谱数据,是指从经 过预处理的近红外光谱数据中选择具有代表性的建模样本数据;由于作物种子的产地、出 产年限、光谱采集时间不同、光谱采集仪器不同这些不确定信息,会给定性鉴别造成影响, 因此该具有代表性的建模样本数据是能够对这些不确定信息进行包容的建模样本数据,以 减小光谱的变动影响模型对光谱鉴别的准确性。
[0040] 除了所述的不确定信息的影响,由于不同仪器之间、不同测量时间的差异,在挑选 建模样本数据时,如果有相同型号的多台仪器,对于所挑选的同一时间点的测试样本数据, 该具有代表性的建模样本数据要同时包含不同仪器所采集的样本数据,以实现多台仪器联 合建模。根据样本光谱测量时间的不同,在挑选建模样本数据时,以逐步增加不同时间测量 的样本的基础上挑选合适的光谱数据作为该具有代表性的建模样本数据,以实现延长建模 周期。
[0041] 步骤2中所述建立作物种子的定性分析模型,包括对挑选的建模样本数据进行 降维处理,该降维处理包括主成分分析(PCA)、偏最小二乘法回归(PLS)或线性鉴别分析 (LDA)降维方法。
[0042] 步骤2中所述建立作物种子的定性分析模型,采用的建模方法根据模型的适用范 围及分析目标的不同采用不同的建模方法,包括基于高维形象几何分析的仿生模式识别方 法(BPR)、支持向量机(SVM)或最近欧氏距离方法。
[0043] 步骤3中所述利用所建立的定性分析模型,对作为测试样本的待鉴别作物种子的 光谱进行品种真实性鉴别,包括:首先获取作为测试样本的待鉴别作物种子的光谱数据,然 后对该待鉴别作物种子的光谱数据进行预处理、特征提取,最后利用所建立的定性分析模 型进行快速鉴别,并给出鉴别结果。
[0044] 该方法在对采集的近红外光谱数据进行的预处理与特征提取操作,与所述的定性 分析模型所使用的预处理与特征提取操作相同。
[0045] 以下采用不同的建模方法作为不同的实施例,并用实验结果来验证此发明的有益 效果。
[0046] 本实施例中的实验仪器采用杭州聚光科技公司(FPI)的SupNIR-2700系列的近红 外光谱仪,仪器参数如下:仪器适用的样品状态为颗粒或粉末状等固体,光源为卤钨灯,波 长范围为1000?1800nm,有效光程为0· 2?5mm,波长准确性为0· 2nm,测定形式是非接触 漫反射。实验使用两台仪器,根据出厂日期先后分别标定为仪器A、仪器B。
[0047] 实验所用样品为玉米种子,共有7个品种,均为杆粒样品,分别为:屯玉2102,屯玉 2104,屯玉2105,屯玉2106,屯玉2107,屯玉2109,屯玉2110。样品在非测量阶段进行了冷 藏保鲜处理,测量阶段对样品所处实验环境的温度和湿度进行检测,尽量保持恒定。
[0048](一)采集样本光谱数据
[0049] 实验过程中均为整杯样本测量,在一个测量时间点,对于同一份样本,分别在仪器 A和仪器B上各测一次,得到对应两条光谱,每个品种在A仪器上测10条,对应在B仪器上 测10条,7个品种共140条光谱。
[0050] 分不同时间(时间跨度90天)重复采集了 11次实验数据,分别为:时间间隔5天 的数据(4 次,2013-3-12, 3-17, 3-22, 3-27)、时间间隔 6 天的数据(3 次,2013-4-4,4-10, 4-16)和时间间隔12天的数据(4次,2013-5-3,5-15,5-27,6-8)。将所有数据按照采集时 间先后顺序编号为1?11,按照仪器的不同分别编号为A1?All以及B1?B11,同时将同 一时间在仪器A和仪器B上得到的数据混合,组成另一组数据,将其编号为C1?Cl 1。另外 单独用仪器A测量6组不同时间的光谱数据,测量时间分别为2013-1-4,1-9,1-16,1-21, 2-27, 3-8,将其按时间先后顺序编号为D1?D6。
[0051] 数据预处理采用数字滤波(Filtering)、移动窗口平滑(Smoothing)、一阶数据求 导(First Derivative,FD)、矢量归一化(Vector Normalization,VN)相结合的方法。数字 滤波的方法是为了滤除光谱数据中的噪声数据,分离出真正有用的玉米种子的光谱数据。 对光谱进行导数处理,是近红外光谱分析中常用的基线校正和提高分辨率的预处理方法, 一阶导数的主要作用是消除光谱平移。矢量归一化主要是在一定程度上消除光谱测量中产 生的随机误差,主要有光程的变化或装样多少的变化对光谱产生的影响。
[0052] (二)建立近红外定性分析模型
[0053] 近红外定性分析用于物质的定性判别分析,定性分析模型性能的优劣决定了判别 结果的好坏,因此对所建模型的性能要求较高。为了深入探讨定性分析模型的性能,实施例 从模型的稳定性与适应性方面对模型性能进行测试,设计了两个实验,分别研究了单台仪 器延长建模周期建模和多台仪器联合建模对模型稳定性和适应性的影响。
[0054] 建模过程中采用的降维方法为:用偏最小二乘法回归(PLS)进行一次降维,线性 鉴别分析(LDA)进行二次降维。
[0055] 建模过程中采用的建模方法为:用K-S法挑选构网(建模)样本点,仿生模式识别 方法(BPR)进行建模。本文两个实验的建模方法都是基于上述方法。
[0056] 仿生模式识别的识别思想完全不同于传统模式识别(最佳覆盖与最佳划分的区 别),更加接近人类认识事物的模式。其使用封闭的几何形体对每类样本进行覆盖,对同类 样本覆盖紧致,同时可以有效拒识非本类样本。因此,使用仿生模式识别的建模方法能够取 得更好的鉴别效果。
[0057] 实验一:单台仪器延长建模周期建模
[0058] 根据建模所用仪器的不同分别将模型编号为ma和mb (以下编号准则同理),所建 模型分别编号为ml、m2、m3、m4、m5。ml所用建模数据为A5(B5),m2所用建模数据为A5、 A4 (B5、B4),m3所用建模数据为A5?A3 (B5?B3),m4所用建模数据为A5?A2 (B5?B2), m5所用建模数据为A5?A1 (B5?B1)。因此,实验一所建模型包括:mal?ma5,mbl?mb5。
[0059] 实验二:多台仪器延长建模周期联合建模
[0060] 用C1?C5数据集建立5个模型,模型编号分别为L1?L5,其中,L1用C5建模, L2用C5、C4建模,L3用C5?C3建模,L4用C5?C2建模,L5用C5?C1建模。
[0061] (三)鉴别作物种子的品种真实性
[0062] 在鉴别品利种真实性时,对待测样本光谱的数据所使用的预处理、降维方法等都 与建模时所米用的对应方法相同。
[0063] 测试结果用正确识别率(Correct Acceptance Rate, CAR)和正确拒识率(Correct Rejection Rate, CRR)来表示,公式如下:
[0064] CAR = Nl/N
[0065] CRR = 1-N2/(N3-N)
[0066] 其中,N1表示正确识别成当前品种的样本数,N2表示其他品种识别成当前品种的 样本数,N3表示7个品种的总测试样本数,N表示当前品种的总测试样本数。
[0067] 对实验一确定测试集:A6?All和B6?B11,并统计每个品种的正确识别率和正 确拒识率并求平均值;对实验二确定测试集:A6?All和B6?B11,并统计所有参与测试的 品种的平均正确识别率和平均正确拒识率。
[0068] (四)实验结果统计
[0069] 实验一:单台仪器延长建模周期建模的测试结果如图2所示。图2中,mal?ma5 分别表示用仪器A所测量的建模数据所建的5个模型,mbl?mb5分别表示用仪器B所测 量的建模数据所建的5个模型,并且从ml?m5模型建立的建模周期逐渐延长,模型的识别 效果越来越好,模型的稳定性得到改善,同时使得模型在台间仪器的适应性方面也得到了 相应的改善。
[0070] 实验二:多台仪器延长建模周期联合建模的测试结果如图3所示。图3中,L1? L5分别表示联合建模的5个模型,并且从L1?L5模型建立的建模周期逐渐延长,发现联合 建模不仅可以明显改善模型的适应性,同时对模型的稳定性也有较大的提升,延长了模型 的适用期限。
[0071] 图4不同建模方式平均正确识别率变化。由图4可知,无论是对仪器A还是仪器B 上的数据,多天多仪器联合建立的模型都有较好的识别效果,并且随着建模周期的延长,识 别效果也有一定提高。实验证明,多台仪器联合建模延长建模周期的方法不仅可以有效提 高模型的适应性,而且可以有效提高模型的稳健性,这种方法集合了联合建模和延长建模 周期方法的优点,使模型性能更加优越。
[0072] 本发明在建立近红外定性分析模型的步骤中提出了联合建模的方法,使定性分析 模型的性能得到明显改善。联合建模相对于单独建模,可以有效缩短建模时间,减少采集建 模数据的工作量以及采集数据的频率,具有一定的实用价值。
[0073] 因此,可以在不延长建模周期的基础上,应用联合建模的方法,提高模型的稳定性 和适应性。该方法相对于目前其他建模方法得到了更准确可靠的品种真实性鉴别结果。
[0074] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
【权利要求】
1. 一种基于近红外光谱的作物种子品种真实性鉴别方法,其特征在于,该方法包括: 步骤1 :采集作物种子样本的近红外光谱数据作为训练样本,并对这些近红外光谱数 据进行预处理; 步骤2 :从经过预处理的近红外光谱数据中选择所需的光谱数据,通过特征提取和建 模方法建立作物种子的定性分析模型; 步骤3 :利用所建立的定性分析模型,对作为测试样本的待鉴别作物种子的光谱进行 品种真实性鉴别。
2. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,步骤1中所述的近红外光谱数据,其来源是近红外光谱仪。
3. 根据权利要求2所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,如果有相同型号的多台近红外光谱仪,则在采集作物种子样本的近红外光谱数据时,多 台近红外光谱仪所处的外部环境相同;对同一份作物种子样本,在相同的测量时间点要求 在不同的近红外光谱仪上进行测量,得到对应的多条光谱数据。
4. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,步骤1中所述对近红外光谱数据进行预处理,是为了去除或降低不确定的背景信息对 光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中 心化及标准化处理。
5. 根据权利要求4所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,所述不确定的背景信息是指受近红外光谱仪仪器状态、测定条件与环境影响的信息。
6. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,步骤2中所述从经过预处理的近红外光谱数据中选择所需的光谱数据,是指从经过预 处理的近红外光谱数据中选择具有代表性的建模样本数据;由于作物种子的产地、出产年 限、光谱采集时间不同、光谱采集仪器不同这些不确定信息,会给定性鉴别造成影响,因此 该具有代表性的建模样本数据是能够对这些不确定信息进行包容的建模样本数据,以减小 光谱的变动影响模型对光谱鉴别的准确性。
7. 根据权利要求6所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,除了所述的不确定信息的影响,由于不同仪器之间、不同测量时间的差异,在挑选建模 样本数据时,如果有相同型号的多台仪器,对于所挑选的同一时间点的测试样本数据,该具 有代表性的建模样本数据要同时包含不同仪器所采集的样本数据,以实现多台仪器联合建 模。
8. 根据权利要求6所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征 在于,根据样本光谱测量时间的不同,在挑选建模样本数据时,以逐步增加不同时间测量的 样本的基础上挑选合适的光谱数据作为该具有代表性的建模样本数据,以实现延长建模周 期。
9. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征在 于,步骤2中所述建立作物种子的定性分析模型,包括对挑选的建模样本数据进行降维处 理,该降维处理包括主成分分析(PCA)、偏最小二乘法回归(PLS)或线性鉴别分析(LDA)降 维方法。
10. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征 在于,步骤2中所述建立作物种子的定性分析模型,采用的建模方法根据模型的适用范围 及分析目标的不同采用不同的建模方法,包括基于高维形象几何分析的仿生模式识别方法 (BPR)、支持向量机(SVM)或最近欧氏距离方法。
11. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征 在于,步骤3中所述利用所建立的定性分析模型,对作为测试样本的待鉴别作物种子的光 谱进行品种真实性鉴别,包括: 首先获取作为测试样本的待鉴别作物种子的光谱数据,然后对该待鉴别作物种子的光 谱数据进行预处理、特征提取,最后利用所建立的定性分析模型进行快速鉴别,并给出鉴别 结果。
12. 根据权利要求1所述的基于近红外光谱的作物种子品种真实性鉴别方法,其特征 在于,该方法在对采集的近红外光谱数据进行的预处理与特征提取操作,与所述的定性分 析模型所使用的预处理与特征提取操作相同。
【文档编号】G01N21/3563GK104062262SQ201410325360
【公开日】2014年9月24日 申请日期:2014年7月9日 优先权日:2014年7月9日
【发明者】李卫军, 董肖莉, 张丽萍, 曹吾 申请人:中国科学院半导体研究所