一种基于多尺度太赫兹光谱的原包装奶粉无损检测方法
背景技术:
奶粉具有营养丰富、成分配比合理、易被人体吸收等优点,深受人们喜爱,长期以来一直是婴幼儿的主要营养来源和中老年人主要营养补给品之一。然而,近年来在高额利润的驱使下,以营养成份造假为主导的、“三聚氰胺”“皮革奶”等奶粉安全问题层出不穷,已成为我国政治、经济、公共卫生多重领域下的主要矛盾之一。然而,传统的奶粉检测方法大都依赖于高值易耗的仪器和设备,存在检测成本高、样品前处理繁琐、需要拆包装检测等问题,费时费力且费用高,严重阻碍了传统仪器检测方法在广大基层现场检测的推广,更无法满足我国当前奶粉安全筛查的严峻局势。此外,目前的检测方法都需要对奶粉包装进行拆封处理,会对商品包装造成不可逆的损伤,并造成食品安全执法中不必要的浪费及开支,难以适应我国当前严峻的奶粉安全形势。因此,迫切需要开发新型高效的奶粉原包装无损检测技术,以快速获取奶粉的营养成份及品质信息。
光谱检测技术目前是一种良好的快速检测技术,但传统的光谱建模方法一般采用多元线性回归校正法,如偏最小二乘法、岭回归等,但由于光谱信号大多存在严重的基线漂移和背景、基质等干扰,需要在光谱进行多元回归校正前对其进行去噪、平滑等预处理。但在预处理过程中,不同预处理算法克服光谱干扰的偏重点差异较大,易造成有效信息的丢失,使得所建出的模型预测效果和稳健性较差。在面对复杂体系的太赫兹光谱时,这类算法缺陷尤为显著,其原因在于太赫兹光谱的谱峰较宽,简单的光谱预处理难以准确提取待测物质的太赫兹光谱谱带信息。因此,发展新型高效的太赫兹光谱解析技术迫在眉睫。
技术实现要素:
基于传统光谱建模方法的缺陷,为满足奶粉品质高通量筛查的需求,本发明提供一种原包装奶粉无损检测方法。技术方案如下:
一种基于多尺度太赫兹光谱的原包装奶粉无损检测方法,包括以下步骤:
s1、通过太赫兹光谱信号采集系统采集营养成分真实值已知并合格的原包装奶粉的太赫兹光谱,将其作为校正集的原始光谱。
s2、进行高密度小波变换,根据原包装奶粉太赫兹光谱信号的特征,选取最优高密度小波基。
s3、采用步骤s2中所选取的最优高密度小波基,对比原始光谱信号在不同分解尺度下不同样品间信号的差异性,按照交叉预测误差最小的方式确立最优的分解尺度。
s4、采用步骤s2、s3中确立的最优高密度小波分解参数,包括最优高密度小波基和最优分解尺度,对太赫兹光谱信号进行多尺度高密度小波分解,获得各层高密度小波系数。
s5、对步骤s4中所获取的各层高密度小波系数,分别采用偏最小二乘回归算法建立预测子模型,过程如步骤s6、s7所述。
s6、以步骤s4中获得的各层高密度小波系数中的某一层为自变量,对应营养成分的含量为因变量,进行1000-5000次的偏最小二乘蒙特卡罗交叉验证,根据蒙特卡罗交叉验证均方根误差最小原则确定预测子模型的最优主成分数,并记录对应的最小交叉验证均方根误差。
s7、根据步骤s6中确立的最优主成分数,采用非线性迭代偏最小二乘法建立对应的预测子模型。
s8、对于不同层次的高密度小波系数,通过重复步骤s6和s7分别建立对应的预测子模型,构成预测子模型组。
s9、通过合适的融合策略,对所有的预测子模型进行融合:可采用步骤s5中所得的各子模型蒙特卡罗交叉验证均方根误差为融合依据,以蒙特卡罗交叉验证均方根误差平方的倒数为子模型的权重,并通过权值融合方式得到最终多尺度融合模型。
s10、进一步收集验证样本,验证所建立的多尺度融合模型的预测效果,如模型的预测误差能够达检测需求,则保留该模型,否则重新计算和修正该模型,直至该模型达到检测需求。
s11、针对不同营养成分,重复进行步骤s1-s10,完成不同营养成分预测模型的训练。
本发明由于采取以上技术方案,其具有以下优点:
首先采用太赫兹光谱实现了原包装奶粉的无损检测,检测时无需样品预处理,避免了传统检测过程中对非金属奶粉外包装的破坏,且不会对内部奶粉品质造成影响;其次采用高密度小波变换以过采样的方式显著提升了太赫兹光谱的时/频多尺度分辨能力,有利于准确提取奶粉体系中待测物质的太赫兹谱带信息;分析终端采用多尺度建模的方式实现一键式操作,具备良好的易用性;本发明还具有检测速度快、系统响应速度快(仅需数十秒即可完成一次检测)、操作简便、预测精度高可实现现场检测等优点。此外,本方法相比较于常规奶粉检测方法,无需破坏奶粉包装即可实现奶粉的营养成分检测及品质鉴定,极大提升了奶粉的检测效率和性能,尤其适用于海关大规模通关检测、食品安全现场执法检测及终端客户现场检测等领域,提升奶粉安全筛查的效率及经济性,为提高乳制品安全监管效率提供有力的技术支持,在奶粉无损检测领域具有广阔的应用前景。
附图说明
图1是光谱信号采集系统的关键结构示意图。
图中标号说明:1飞秒激光器;2为半波片;3为分束镜;4延迟装置;5斩波器;6透镜;7高通光电导天线砷化镓晶体;8离轴抛物面镜;9为硅透镜;10为碲化锌晶体;11为透镜;12为偏振片;13为四分之一波片;14为沃拉斯顿棱镜;15为平衡二极管;16为锁相放大器;17为计算机;18为反射镜;19为充有氮气的箱体;20为非金属包装的原包装奶粉样品。
图2是本发明的算法流程框图。
图3是奶粉太赫兹吸收光谱。
图4是高密度小波变换系数序列。
图5是蒙特卡罗交叉验证示意图。
具体实施方式
太赫兹光谱是基于飞秒激光技术的新型光谱测量技术,具有穿透性强、能量较低、安全性高、等优点,本发明利用太赫兹波能量较低且对大多数非金属材料和非极性物质穿透性极强的特性,针对非金属包装的奶粉产品,利用太赫兹波穿透其外包装直接获取内部奶粉的太赫兹光谱信息,通过进行高密度小波多尺度建模处理,得到样品中的关键营养成分信息。检测过程既不破坏奶粉原包装又不对奶粉品质造成损坏。
本发明由信号采集终端和信号分析终端两部分构成。各部分详细介绍如下:
1、信号采集终端:
信号采集终端主要由太赫兹时域光谱信号采集系统(如附图1所示),和控制模块构成。
(1)太赫兹时域光谱信号采集系统主要由太赫兹光源,样品池,太赫兹检测器等部分构成,其主要任务为产生太赫兹脉冲波并透射样品池中的样品,并由太赫兹探测器收集太赫兹信号。
(2)控制模块由高性能运算芯片和控制电路构成,主要负责协调、控制、监控太赫兹时域光谱信号的采集过程,确保光谱信号的正确性,并负责将采集的光谱信号发送至信号分析终端进行处理。
(3)信号采集终端工作过程简述如下:
s1、太赫兹时域光谱分析系统中飞秒激光器1产生激光脉冲,通过半波片2,分束镜3,激光分为泵浦光和探测光。
s2、泵浦光通过延迟装置4,斩波器5,透镜6,高通光电导天线砷化镓晶体7,由离轴抛物面镜8和硅透镜9聚焦后准直射到非金属包装的原包装奶粉样品20,透过样品20后再经硅透镜9及离轴抛物面镜8与探测光共线后再次聚焦到碲化锌晶体10上。
s3、探测光经透镜11,偏振片12与泵浦光共线后再次聚焦到碲化锌晶体10上。
s4、太赫兹脉冲通过碲化锌晶体10后,通过四分之一波片13,沃拉斯顿棱镜14,经平衡二极管15探测,将信号送入锁相放大器16放大后输入计算机17进行处理。
s5、本系统中使用反射镜18改变光路方向。
s6、透镜6,高通光电导天线砷化镓晶体7,立轴抛物面镜8,硅透镜9,非金属包装的原包装奶粉样品20,碲化锌晶体10,透镜11,偏振片12,四分之一波片13,沃拉斯顿棱镜14和平衡二极管15密封在充有氮气的箱体19内。
2、信号分析处理终端:
该终端一般由具有较强运算能力的高性能工作站构成,主要负责收集来自信号采集终端的太赫兹光谱信号并采用高密度小波变换以过采样的方式显著提升其时/频多尺度分辨能力,并通过数据预处理与多元校正的一体化运算避免奶粉定量信息丢失,进而完成太赫兹光谱的多尺度建模过程,以此获得奶粉的营养成分和品质信息。
在多尺度建模算法中,需要对光谱信号进行多尺度分解,其分解方式由尺度算法决定,因此,尺度算法是多尺度建模算法的核心,其性能将直接影响最终建模的效果。然而,传统的离散小波变换,仅可粗略实现信号的时/频多尺度分解,且存在分辨率差、时频分析不够精细、信号易畸变等诸多缺陷,不适用于太赫兹光谱的解析。高密度小波变换具分辨率高、紧支撑、过采样等优点,能够以过采样的方式有效提升原始光谱的时/频多尺度分辨率,进而提供比离散小波变换更多的尺度信息,显著提升复杂体系太赫兹光谱的物质分辨能力。因此,高密度小波变换能够有效克服目前的太赫兹光谱分辨率较低、频带较窄的缺陷。
本发明根据不同物质太赫兹波谱带的特征性差异,以样品的太赫兹波时域吸收谱为光谱信号,采用高密度小波多尺度建模算法对太赫兹时域吸收光谱进行多尺度解析,有效提升原始光谱的分辨率,突出特征信号在频域上的响应。针对各尺度高密度小波系数序列,分别采用偏最小二乘算法建立预测子模型,并采用权重融合策略对子模型进行融合,进而得到最终的高密度小波多尺度融合模型,并以此测量原包装中奶粉的不同营养成份的含量信息。在此基础上,实现奶粉品质的准确判断。
多尺度建模算法步骤如下:
s1、通过太赫兹光谱信号采集系统采集有代表性的原包装奶粉光谱,其营养成分真实值可由传统的检测方法获得,并将其作为校正集的原始光谱。
s2、根据原包装奶粉太赫兹光谱信号的特征,选取最优的高密度小波基,实际中可根据奶粉中不同营养成分物质的吸收峰特性确定不同的最优高密度小波基,如2vm、4vm、bi4等。
s3、采用步骤s2中所选取的最优高密度小波基,对比原始光谱信号在不同分解尺度下不同样品间信号的差异性,按照交叉预测误差最小的方式确立最优的分解尺度。
s4、采用步骤s2、s3中确立的最优高密度小波分解参数对太赫兹光谱信号进行多尺度高密度小波分解,获得各层高密度小波系数。
s5、对步骤s4中所获取的各层高密度小波系数,分别采用偏最小二乘回归算法建立预测子模型,其具体过程如步骤s6、s7所述。
s6、以步骤s4中获得的各层高密度小波系数中的某一层为自变量,对应营养成分的含量为因变量,进行1000-5000次的偏最小二乘蒙特卡罗交叉验证,并根据蒙特卡罗交叉验证均方根误差最小原则确定预测子模型的最优主成分数,并记录对应的最小交叉验证均方根误差。
步骤s6中所述的蒙特卡特交叉验证均方根误差具体如下:
式中:mcrmsecv为蒙特卡罗交叉验证均方根误差,t为蒙特卡罗抽样次数,n为每次抽样预测的样品数,pressi为第i次蒙特卡罗抽样的预测误差平方和,cir为第i次蒙特卡罗抽样的样品真实值,cip为第i次蒙特卡罗抽样的样品预测值。
s7、根据步骤s6中确立的最优主成分数,采用非线性迭代偏最小二乘法建立对应的预测子模型。
s8、对于不同层次的小波系数,通过重复步骤s6和s7分别建立对应的预测子模型,构成预测子模型组。
s9、通过合适的融合策略,对所有的预测子模型进行融合。实际中,可采用步骤s5中所得的各子模型蒙特卡罗交叉验证均方根误差为融合依据。例如,以蒙特卡罗交叉验证均方根误差平方的倒数为子模型的权重,并通过权值融合方式得到最终多尺度融合模型。基于蒙特卡特交叉验证均方根误差的融合策略具体公式如下:
式中:mf为融合模型,msi为第i个子模型,m为子模型总数,wi是第i个子模型的权重,mcrmsecvi为第i个子模型的蒙特卡特交叉验证均方根误差。
s10、进一步收集验证样本,验证所建立多尺度融合模型的预测效果,如模型的预测误差能够达检测需求,则保留该模型,否则重新计算该模型,直至该模型达到检测需求。
s11、针对不同营养成分,重复进行步骤s1-s10,完成不同营养成分预测模型的训练。
下面结合实施例进行说明。
本发明采用的光谱信号采集系统的最佳工作模式如下所述:
飞秒激光器1发出中心波长为800nm的飞秒激光脉冲,脉冲宽度为100fs,重复频率为80mhz,输出功率为720mw。进入太赫兹时域光谱分析系统后,光束经半波片2和分束镜3后分为较强的泵浦光和较弱的探测光束。泵浦光通过延迟器4,经频率为1.1khz的斩波器5斩波,经透镜6聚焦后入射到高通光电导天线砷化镓gaas7晶体上,通过光整流效应产生频率范围约为0.2~3thz的太赫兹脉冲。太赫兹脉冲经离轴抛物面镜8及硅透镜9聚焦后入射到带有非金属包装的样品20上。探测光通过透镜11,偏振片12后与透过样品射出的泵浦光共线后再次聚焦入射到探测元件碲化锌znte10晶体上。这时太赫兹脉冲的电场通过电光效应调制电光晶体碲化锌晶体10的折射率椭球,使探测脉冲的偏振态发生改变。脉冲通过四分之一波片13,沃拉斯顿棱14后,经平衡二极管15探测光的偏振态的变化,即可得到载有样品信息的太赫兹脉冲电场的大小及变化信号,将信号送入锁相放大器16进行放大,并通过改变延迟长度的方法探测太赫兹信号的整个时域波形,最后将信号送入计算机17进行处理。为防止空气中水蒸汽对太赫兹信号的影响,从产生太赫兹信号的砷化镓晶体7、待测样品20到探测晶体碲化锌znte10的这一段光路被密封在充有氮气的箱体19内。箱体19内的相对湿度小于2%,温度为294k21℃。在探测过程中,系统信噪比为1000,谱分辨率好于40ghz。
由于太赫兹波对于塑料、纸盒、纸袋、布袋以及泡沫等非金属包装可以完全透过,且透过率远高于其他波长的电磁波;但对于金属包装和铝箔复合材料,太赫兹无法通过,故而本发明样品为纸盒、纸袋、塑料等非金属包装的原包装奶粉(20),金属包装奶粉不在此列。
预测过程如下:
s1、收集已有营养成分真实值的奶粉标准样品300个,其各项营养成分所覆盖的范围尽可能广阔,分布尽可能均匀。以蛋白质为例,样本中的蛋白质含量覆盖范围为10g/100g-21g/100g,样品浓度间隔为0.1g/100g。
s2、对收集到的300个标准样品采用太赫兹信号收集系统进行光谱采集,获取其原始吸收光谱,作为校正集样本的原始光谱,如附图3所示。附图3为包装内奶粉的太赫兹吸收光谱实例。
s3、根据奶粉中蛋白质吸收峰的特性,选取最优高密度小波基:“4vm”。
s4、通过对比不同分解尺度下不同样品信号间的差异性,可确立蛋白质含量的最优分解尺度为4层。并获得该分解尺度下的校正集样本各层小波系数。本例中,信号将被分解为9层高密度小波系数序列,如附图4所示。附图4为各层次小波系数按升序排列后的小波系数示意图。
s5、对各层小波系数分别采用蒙特卡罗交叉验证确定最优主成分数,抽样次数为1000次,抽样比例为70%。其中第一层小波系数的蒙特卡罗交叉验证结果如图5所示,由蒙特卡罗交叉验证均方根误差最小原则,可确定主成分数为10,并记录最小蒙特卡罗交叉验证误差。
s6、根据步骤s5所得最优主成分数,采用非线性迭代偏最小二乘算法建立预测子模型。
s7、对于不同层次的高密度小波系数,重复步骤s5、s6建立所有的预测子模型。
s8、依据各子模型的蒙特卡罗交叉验证均方根误差,计算各子模型的权重,并进行权重融合,得到最终的多尺度融合模型。
s9、在完成模型建立后,新收集100个样本作为验证集进行预测,并与真实值进行对比验证。结果表明,对于蛋白质,检测误差不超过5%,足够达到检测需求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,例如,将该技术应用于其它营养成分(如脂肪、碳水化合物、亚油酸、亚麻酸、乳糖等成分)的检测,这些改进和润饰也应视为本发明的保护范围。