玉米单粒种子蛋白质检测模型的构建方法及其应用
【专利摘要】本发明涉及作物单粒种子的蛋白质含量检测,具体公开了玉米单粒种子蛋白质检测模型的构建方法,构建方法具体为采集样品的漫反射光谱,选择有效波长,依次进行平滑(9点窗)→一阶差分→标准化处理,并利用偏最小二乘法(PLS)降维,PLS、支持向量机法(SVR)分别建模,由未知样品在同样条件下获得的近红外光谱数据,并对该数据进行同样的预处理和特征提取,最后利用所建立的定量分析模型检测该样品的蛋白质含量。
【专利说明】
玉米单粒种子蛋白质检测模型的构建方法及其应用
技术领域
[0001 ]本发明涉及作物单籽粒种子鉴别,具体地说,涉及玉米单粒种子蛋白质含量检测 模型的构建方法。
【背景技术】
[0002]种子是农业的灵魂。我国是农业大国,种子是农业生产的基本生产资料,中国作为 世界上人口最多的国家,种业发展关系到国计民生,是我国农业领域支柱产业,也是保证我 国粮食安全,抢占资源战略至高点的关键。在作物育种领域,育种材料的营养成分准确鉴定 对加快育种进程具有重要作用。目前作物育种材料的任何成分检测与鉴定都是依赖于化学 成分分析,杂交种子纯度鉴定依赖于分子标记指纹图谱。活力检测使用"四唑"法,发芽实验 检测压滤,上述检测分析工作都存在耗时长,附带中间产物污染环境的问题,而且检测成分 单一,无法实现单粒样品和无损检测的需要。近红外光谱分析技术快速、简便、环保、无损分 析的特点使其在育种材料检测具有独特的优点。虽然近红外光谱分析技术经在农产品的营 养成分检测应用方面已经非常成熟,但目前国内外对利用近红外技术建立检测玉米单籽粒 营养成分含量的模型的研究还很少。国内现已有的检测玉米营养成分的近红外模型,其光 谱是由多个籽粒混合在一起采集得到的,而它的参考化学值,也是由许多籽粒混合磨成粉 末,然后利用化学方法得到的。由于即使是同一品种,不同大小的种子其营养成分含量也会 有所不同,故由混合群体种子所建立的近红外定量分析模型,只适合用来检测群体种子的 营养成分,而不能有效的检测玉米单籽粒的营养成分含量。国外对建立近红外单籽粒玉米 检测模型的研究较早。如〇rman(1992)便开始研究近红外检测玉米单籽粒的含油量。建模所 用的单籽粒含油量化学参考值也是由NMR检测得到。Baye(2006)在研究单籽粒近红外光谱 检测玉米的营养成分中,单籽粒的蛋白、淀粉等的化学参考值也是在多籽粒混合研磨测化 学值的基础上得到的。Tallada(2009)在研究利用单籽粒近红外技术检测玉米特性(氨基 酸、蛋白、可溶性糖、油)的研究中,他在每个样本中选取30粒玉米籽粒分别采集光谱,然后 以这30个光谱的平均值作为这个样本的光谱;再用这30粒玉米籽粒混合磨成粉末,然后用 化学分析法检测各个营养成分的参考化学值,以次作为该样本的参考化学值。由此可见,国 外也未能解决如何建立真正意义上的单籽粒近红外检测模型的难题。建立由单籽粒的光谱 和参比值数据发展而来的近红外定量分析模型是个难题,这主要是因为近红外技术是一种 间接检测目标含量的分析手段。因为种子很小,所检测的目的物质含量很小,很难用现有的 化学方法准确测出一颗种子的参比化学值。没有准确的参比化学值,就不能建立准确的近 红外校正模型,这是因为参比化学值的误差会加入模型预测的误差里,如果参比化学值的 误差较大,必然会导致模型预测效果的误差增大。D 〇Well(2002)认为近红外光谱所能检测 的化合物的最低限为0.1% (质量分数)Jatrick观察到牧草种子的含油量小于5mg时便不 能被近红外模型准确预测。Agelet(2014)指出近红外检测的最低限可能会高于0.1%,因为 这与种子的大小以及所要检测的物质的特性有关。比如水分的检测限相对于其他化合物而 言就比较低,这主要是因为水在近红外处有较强的吸收。单籽粒近红外检测的瓶颈就在于 如何准确获取单籽粒中目标物质的含量,只要检测营养成分的实验标准差能小于样本之间 营养成分含量的差异,就有可能成功建立真正意义上的单籽粒近红外模型,可以利用差异 显著性分析来判断建模的可行性。就目前而言,玉米单籽粒的含油量可以用NMR准确测定, 水分可以用烘箱烘干法测定,蛋白可以用燃烧法测定,其他的化学成分还没有找到更好的 方法。目前国内外对利用近红外技术建立检测玉米单籽粒营养成分含量的研究还很少,本 研究致力于探索如何建立适用于检测玉米单籽粒营养成分的近红外定量分析技术。
【发明内容】
[0003] 为了解决现有技术中存在的问题,本发明的目的是提供一种玉米单籽粒种子蛋白 质含量检测的方法。
[0004] 为了实现本发明目的,本发明技术方案如下:
[0005] 第一方面,本发明提供了玉米单籽粒种子蛋白质检测模型的构建方法,包括如下 步骤:
[0006] si.采集单籽粒的漫反射光谱;
[0007] S2.采用微量凯氏定氮法(GB 5009.5-2010)获得单籽粒的蛋白质含量参比值,并 依据该国标法获取实验员的实验标准差;
[0008] S3.光谱预处理:选择有效波长,增大信噪比,消除干扰;
[0009] S4.光谱特征提取:利用PLS对数据降维;
[001 0] S5 ·采用PLS方法和SVR法分别建立定量分析模型。
[0011] 进一步地,采集样品漫反射光谱后,剔除异常光谱,获得样品的原始光谱。
[0012] 采集漫反射光谱时仪器为美国生产的MircroNIR-1700微型近红外光谱仪JDS Uniphase[JDSU]Corporation,Milpitas,编号S1-00239)。仪器的分辨率:12 · 5nm,扫描谱区 范围:900nm~1650nm。数据分析软件为Matlab 2011b〇
[0013] 为了扩大样本的代表性,所述样品为不同时间收获、不同遗传物质、含水量在8.8 ~13.8 %的成熟种子。当样本满足上述条件时,能提高模型的包容性。采集样本图谱时,1粒 种子为1个样本,每粒种子重复扫描光谱3次,以平均光谱近似作为该样本光谱。
[0014] 进一步地,所述S1为采集205个样本以上的样品,进行至少3次的重复。能够更好的 使构建的鉴别模型具有更高的容变性,稳定性,适用于更广泛的样品以及更复杂的样品蛋 白质含量检测。
[0015] 进一步地,所述有效波长为900nm~1650nm。所剔除的一些波段的噪声信息已经大 于有用信息。本方法所选取的有效波长是后期模型达到最优预测能力和高稳定性的必要前 提。
[0016] 进一步地,选择有效波长后,依次进行移动窗口平均(平滑)、一阶差分导数、标准 化处理。用平滑处理降低噪声及随机误差,有效的获取有用信息,增大信噪比,用一阶差分 导数处理以消除基线的平移和其他干扰,用标准化处理以消除光谱的绝对吸收值,突出样 品间的差异。该处理方式和处理顺序下,可以消除仪器因素、光谱扫描背景、进样或是样品 性质(温度等)、测量的误差、光的散射等因素的影响,可以有效提取玉米种子的有效信息, 能增强后期建模效果,作为优选,移动窗口平均处理中,平滑窗口设为9; 一阶差分导数处理 中,差分宽度设为1。进一步地,利用PLS将数据降到15维,
[0017] 采用微量凯氏定氮法(GB 5009.5-2010)获得单籽粒的蛋白质含量参比值。单籽粒 经简单破碎后,完全进入消化炉进行消化,然后利用全自动微量凯氏定氮仪(VELP,UDK 142)进行蛋白含量检测,获得单籽粒的蛋白含量参比值。进一步地,实验员需要依据该国标 法,对同一样品进行平行实验至少7次,以获取实验标准差。
[0018] 第二方面,本发明提供了一种作物单籽粒种子蛋白含量的检测方法,包括如下步 骤:
[0019] 步骤1、利用前述方法对特定样品建立定量分析模型;
[0020] 步骤2、由未知样品在同样条件下获得的近红外光谱数据,并对该数据进行同样的 预处理和特征提取,最后利用所建立的定量分析模型检测该样品的蛋白质含量。
[0021] 选择线性相关的PLS法和非线性相关的SVR法分别建立模型,用建立好的模型预测 未知样本,以评价模型的预测效果。
[0022]对所建定量模型的评价指标主要有以下几种:决定系数(Coef f icient of Determination,!?2),校正标准误差(Standard Error of Calibration,SEC),预测标准误 差(Standard Error of Prediction,SEP),相对预测标准误差(Relative Standard Error of Prediction,RSEP),范围误差(Relative Performance Determinant,RPD),SEP/SEC。
[0023] 详细算法如下面公式所示:
[0024] (1)决定系数R2(Coefficient of Determination)
[0026] 式中,yi,actuai:第i样品的参比值;
[0027] y1; predated :第i样品的近红外模型预测值;
[0028] yactuai:所有样品参比值的平均值;
[0029] η:样品数;
[0030] R2被用来评价由建模集建立的模型拟合效果。在浓度范围相同的前提下,R 2越接近 1,表示预测值越接近参比值,即准确性越高;若R2等于1,则表示完全拟合;若R 2为负值,则表 示模型拟合效果极差。另外,R2的大小与待测量的分布范围关系极大,对于分布范围很广的 待测量,有可能出现R 2接近1,但其准确性较差的情况。
[0031] (2)校正标准误差(Standard Error of Calibration,SEC)
[0033] 式中,yi,actual:校正集中第i样品的参比值;
[0034] y1; predicted :校正集中第i样品的模型预测值;
[0035] η:校正集的样品数;
[0036] R:维数
[0037] SEC越小,表明模型对建模集的样本预测效果越好。
[0038] (3)预测标准误差(Standard Error of Prediction,SEP)
[0040] 式中,yi,actual:预测集中第i样品的参比值;
[0041] 预测集中第i样品的模型预测值;
[0042] m:预测集的样品数;
[0043] SEP值越小,表明所建模型的预测能力越强、预测结果越准确。
[0044] (5)范围误差比RPD(Relative Performance Determinant)
[0045] RPD = SD/SEP
[0046] 式中,SD:建模数据分布标准差
[0047] RPD表示近红外分析模型对SD范围内的样品加以分级的数目,它代表了模型的分 辨能力。RPD越大表明分级数越多、模型的分辨能力越大。一般RPD彡2 · 5时,模型即可应用于 品种育种的筛选。
[0048] (6)SEP/SEC
[0049] SEP/SEC用来评价模型的稳健性。模型的稳健性是模型应对待测样品光谱变动的 性质,它表示模型容许光谱变动的范围。SEP/SEC值越小,表明模型的稳健性越好,应对样品 光谱变动的能力越强。ICC在近红外分析标准中规定在正常的容变性范围内,SEP/SEC应小 于 1.2。
[0050] 本发明的有益效果在于:
[0051] 本发明提供了作物单籽粒种子蛋白质近红外定量分析模型的构建方法,目的是提 供一种检测作物单籽粒种子营养成分含量的方法。
[0052] 本发明运用近红外光谱技术对不同蛋白含量、不同遗传亲缘关系的玉米单籽粒建 立近红外定量分析模型。利用PLS和SVR所建模型效果基本相同,两个模型的R 2分别为 0·9870、0·9871,SEC分别为0·32%、0·32%,SEP分别为0·46%、0·46%,RSEP分别为4·61%、 4·60%,Rro分别为6·ll、6·ll,SEP/SEC分别为l·43、l·44。
【附图说明】
[0053] 图1为本发明实施例1中微型近红外光谱仪JDSU实物图。
[0054] 图2为本发明实施例1中玉米胚朝上光谱采集方式示意图。
[0055] 图3为本发明实施例1中漫反射光谱采集装置示意图。
[0056]图4为本发明实施例1中原始光谱。
[0057] 图5为本发明实施例1中预处理后的光谱。
[0058] 图6为本发明实施例1中累积贡献率随主成分数增加的变化趋势。
[0059] 图7为本发明实施例1中平均标准误差随主成分数增加的变化趋势。
[0060] 图8为本发明实施例1中PLS模型的校正集的预测值与参比值散点图。
[0061] 图9为本发明实施例1中PLS模型的预测集的预测值与参比值散点图。
[0062]图10为本发明实施例1中SVR模型的校正集的预测值与参比值散点图。
[0063]图11为本发明实施例1中SVR模型的预测集的预测值与参比值散点图。
【具体实施方式】
[0064] 下面将结合实施例对本发明进行详细说明。需要理解的是以下实施例的给出仅是 为了起到说明的目的,并不是用于对本发明的范围进行限制。本领域的技术人员在不背离 本发明的宗旨和精神的情况下,可以对本发明进行各种修改和替换。
[0065] 下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
[0066] 下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0067] 实施例1近红外光谱分析技术检测玉米单籽粒蛋白质含量的研究
[0068] ( -)、材料
[0069] 实验材料为321粒代表不同时间、不同地点、不同品种的玉米种子,品种包含有农 大86、玉源5号、陇玉3号、农大49673-36、1?11^2、豫87-1、齐319、昌7-2、良玉88罕、迪卡517(^ 等,共计约300多个品种。实验材料包含杂交种、测交种、自交系、重组自交系等,也包含晚熟 品种和早熟品种,以及不同年限(2013、2014、2015收获)、不同地点(海南、中国农大上庄实 验站)的种子。所有玉米种子均为自然干燥,水分含量介于8.8%和13.8%之间。
[0070] 仪器设备:实验采用的近红外光谱仪为美国生产的MircroNIR-1700微型近红外光 谱仪(JDS Uniphase[JDSU]Corporation,Milpitas,编号S1-00239),见图 1 〇
[0071] (二)、方法
[0072] 1.光谱采集
[0073] 1.1光谱仪器参数设置
[0074] 近红外仪器JDSU设置参数为:积分时间lOOOOys/次,积分次数400次,故扫描一粒 种子得到一条光谱需用4s。
[0075] 1.2仪器设备的预热
[0076] 仪器与计算机通过数据线进行连接,在仪器进行光谱采集前,仪器需要预热使其 内部达到稳定的温度,以致仪器不会在实验过程当中温度的变化造成系统偏差,影响光谱 采集的质量及数据分析结果。
[0077] 1.3光谱采集方式
[0078]光谱采集方式为漫反射,玉米摆放方式为种胚朝上,见图2。用JDSU扫描321粒代表 不同时间收获、不同种植地点、不同品种的种子。在这里一粒种子为一个样本,每粒种子扫 描1次获得一条光谱,共获取321份光谱。
[0079]在进行光谱采集时,对JDSU微型光谱仪添加了外置的氧化铝材质遮光盖扣在仪器 上方,防止外界光的干扰,见图3。每扫10粒种子,进行一次白板校正。
[0080] 2.蛋白参比值测定
[0081 ]蛋白质测定原理按方法《食品安全国家标准食品中蛋白质的测定》(GB 5009.5-2010),采用意大利VELP-DK8半自动消化炉和VELP-UDK142全自动凯氏定氮仪两个仪器。单 粒种子用德国IKA-A11分析研磨机(小型)轻度粉碎后全部进入消化炉进行高温消化,然后 利用全自动凯氏定氮仪蒸馏,最后用l〇ml微量滴定管滴定馏出液。
[0082]为了了解用于蛋白检测的标准化学方法的标准差,实验采用38号品种9粒大小一 致的玉米种子,用标准方法检测其蛋白含量,具体参数见表1。校正集(建模集)和预测集的 蛋白含量统计参数分别见表2和表3。
[0083]表1.蛋白质标准参考方法的标准差
[0085]表2.校正集蛋白相对含量的统计描述
[0087]表3.预测集蛋白相对含量的统计描述
[0089] 3.光谱数据处理
[0090] 选择900nm~1650nm的有效波长,对原始光谱依次采用如下预处理:平滑(9点窗) -一阶差分(差分宽度为I)-标准化。原始光谱及预处理后的光谱分别见图4和图5。
[0091] 4.模型的建立
[0092] 本实验分别采用偏最小二乘法(PLS)和支持向量机法(SVR)分别建立模型。利用 PLS法建立模型时,将数据的维数降到15维,具体累积贡献率和平均标准误差随主成分数增 加的变化趋势分别见图6和图7。
[0093](三)结果与分析 [0094] 1.模型预测效果
[0095] 由建模集建立模型后,再用该模型分析预测集中样本(单籽粒)的蛋白质含量,以 检验模型的预测效果,预测效果见表4。
[0096] 表4.蛋白质近红外模型对未知样本的预测结果(%)
[0099]
[0100] PLS模型的校正集的预测值与参比值散点图、预测集的预测值与参比值散点图见 图8和图9 AVR模型的校正集的预测值与参比值散点图、预测集的预测值与参比值散点图见 图10和图11。具体模型评价参数见表5。
[01 01 ]表5.蛋白质模型评价参数一览表
[0103] 2.结果分析
[0104] (1)由图8到图11以及表5可以看出,PLSR和SVR法所建立的模型效果基本相同,R2 均达到0.98以上,拟合效果比较理想;SEP均为0.46,虽比参比实验方法的标准差稍微大一 些,但对未知样本蛋白质含量的预测值基本接近参比值,处在可以接受的范围;RPD均大于 5,模型既可以用于育种筛选,也可以用于质量控制。SEP/SEC的值略大于1.2,说明模型应对 样品光谱变动的能力较弱,模型的稳定性还有待提高。总体来说,由评价参数可以看出由玉 米单籽粒的光谱数据和参比值数据所建立的蛋白质近红外定量分析模型是可行的。
[0105] (2)两个模型的SEP值(0.46、0.46)均大于标准实验方法的实验标准差(0.34 ),主 要是因为SEP除了包含实验标准差外,还包含其他误差,如环境的变化、光谱采集的随机误 差以及其他非确定信息的影响。另外采集光谱时,每粒种子只扫描一次,随机误差较大。若 每粒种子多扫描几条光谱,然后以平均光谱作为该粒种子的光谱,便可以大大减小随机误 差。模型的进一步改善,还有赖于实验方法的改进以及提高光谱质量。
【主权项】
1. 作物单籽粒种子蛋白质检测模型的构建方法,其特征在于,包括如下步骤:51. 采集单籽粒的漫反射光谱;52. 采用微量凯氏定氮法获得单籽粒的蛋白质含量参比值,并依据该国标法获取实验 员的实验标准差;53. 光谱预处理:选择有效波长,增大信噪比,消除干扰;54. 光谱特征提取:利用PLS对数据降维;55. 采用PLS方法和SVR法分别建立定量分析模型。2. 根据权利要求1所述的方法,其特征在于,所述样品为不同时间收获、不同遗传物质、 含水量在8.8~13.8 %的成熟种子。3. 根据权利要求1所述的方法,其特征在于,所述S1为采集205个样本以上的光谱,进行 至少3次的重复。4. 根据权利要求1所述的方法,其特征在于,所述S2为将作物单籽粒经简单破碎后,进 入消化炉进行消化,进行蛋白含量检测。5. 根据权利要求1所述的方法,其特征在于,S3中所述有效波长为900nm~1650nm。6. 根据权利要求5所述的方法,其特征在于,选择有效波长后,依次进行平滑、一阶差 分、标准化处理,增大信噪比,消除干扰。7. 根据权利要求6所述的方法,其特征在于,光谱平滑处理中,平滑窗口设为9; 一阶差 分导数处理中,差分宽度设为1。8. 根据权利要求5~7任一项所述的方法,其特征在于,所述S4具体为利用PLS将数据降 到15维。9. 一种作物单籽粒种子蛋白含量的检测方法,其特征在于,包括如下步骤: 步骤1、利用权利要求1~8任一项所述的方法对特定样品建立定量分析模型; 步骤2、由未知样品在同样条件下获得的近红外光谱数据,并对该数据进行同样的预处 理和特征提取,最后利用所建立的定量分析模型检测该样品的蛋白质含量。
【文档编号】G01N31/00GK106018321SQ201610308187
【公开日】2016年10月12日
【申请日】2016年5月11日
【发明人】康定明, 申兵辉, 张新玉, 赵怡锟, 王皎月, 严衍禄
【申请人】中国农业大学