本发明属于烟叶风格数字化表征领域,具体是一种基于烟叶化学成分的烤烟风格数字化赋值方法。
背景技术:
1、烟叶原料是卷烟生产的第一车间,烟叶风格是烟叶可用性的决定性因素,是卷烟叶组配方数字化设计的关键与重点。20世纪50年代,研究人员将全国烤烟划分为浓、中、清三大香型,随着我国经济社会高速发展,与上个世纪相比,现阶段中国烟叶生产布局、种植技术等已发生巨大变化,工业企业对烟叶原料的利用由粗放向精细化转变。“全国烤烟烟叶香型风格区划”(全国烤烟烟叶香型风格区划,中国烟草学报,2019,25(4),1-9.)通过生态、感官、化学、代谢四个维度的划分和交叉验证,将全国烟叶划分为八大生态区(风格):西南高原生态区-清甜香型(i生态区)、黔桂山地生态区-蜜甜香型(ii生态区)、武陵秦巴生态区-醇甜香型(iii生态区)、黄淮平原生态区-焦甜焦香型(iv生态区)、南岭丘陵生态区-焦甜醇甜香型(v生态区)、武夷丘陵生态区-清甜蜜甜香型(vi生态区)、沂蒙丘陵生态区-蜜甜焦香型(vii生态区)、东北平原生态区-木香蜜甜香型(viii生态区)等八大生态区。既往烟叶风格表征多采用感官评价法,但存在感官评吸数据获取效率低,数据质量受影响因素多等问题。最近,有采用近红外+算法模型表征烟叶风格(应用近红外光谱投影模型法分析烟叶的产区与风格特征,光谱学与光谱分析,2014,34(10):2764-2768.),专利(申请号:201610629658.8)中公开一种基于40种不同类型物质的检测含量对烤烟烟叶的清香香型进行定量判定的方法。但仍存在问题,(1)未见对国产烟叶八大生态区风格的表征,两篇公开报道仅是对烟叶浓、中、清香型的表征,风格分类少,不够精细;(2)未实现对烟叶风格的数字化赋值,两篇报道仅是对浓、中、清香型风格的判别,没有对烟叶风格进行数字化赋值,这就无法实现后续的叶组配方数字化设计及打叶复烤模块数字化组配。
2、最近,本案发明人已建立了基于近红外光谱的烟叶中70种化学成分的预测模型((1)acs omega 2022,7,43,38650-38659;(2)一种基于光谱转换的烟草化学成分预测方法及装置,202210751386.4;(3)microchemical journal2023,189,108522.),本发明通过收集全国八大生态区烟叶,对所有烟叶样品进行近红外光谱扫描,基于文献中报道的模型(acs omega 2022,7,43,38650-38659.)获取烟叶中的70种化学成分,以70种化学成分为基础,采用判别分类建模手段,构建基于化学成分的烟叶风格判别模型。在此基础上,依据各烟叶距离各类风格质心的距离,对烤烟风格进行数字化赋值。该方法基于烟叶化学成分构建烟叶风格判别模型,可快速对八大生态区烟叶风格进行判别,且可实现对典型、亚型产地及交叠地带烟叶风格的定量表征,可摆脱既往通过感官评价这种主观方法对烟叶风格的判断方法,可提高烟叶风格表征的准确性和工作效率,且不同风格烟叶物质基础清晰,真正实现了烟叶风格的快速、客观、稳健和精准表征,为后续卷烟叶组配方、打叶复烤模块配方的数字化设计奠定了坚实基础。
技术实现思路
1、本发明的目的正是基于上述现有技术状况而开发的一种基于烟叶化学成分的烤烟风格数字化赋值方法。
2、本发明的目的是通过以下技术方案来实现的:
3、一种基于烟叶化学成分的数字化表征烟叶风格的方法,收集全国八大生态区烟叶样品,对样品进行近红外光谱扫描,基于样品的近红外光谱获取各个烟叶样品的70种化学成分,采用逐步引入的方法确定烤烟判别模型的建模指标,采用线性判别的方法建立烤烟风格判别模型,基于模型获取7维判别函数、各香型质心函数及标准偏差,根据具体某个烟叶样品的7维函数,计算该样品距离各个质心的距离,根据该样品距离各个生态区质心的距离,对该烟叶风格进行数字化赋值。
4、具体步骤如下:
5、(1)收集全国八大生态区烟叶样品,将所有烟叶样品水分控制到6-8%,采用粉碎机将其粉碎到60-80目,对所有烟叶样品进行近红外光谱扫描。
6、(2)采用文献((1)acs omega 2022,7,43,38650-38659;(2)一种基于光谱转换的烟草化学成分预测方法及装置,202210751386.4;(3)
7、microchemical journal 2023,189,108522.)中报道的方法,基于各个烟叶样品的近红外光谱获取各个烟叶样品的70种化学成分,包括:水溶性总糖、还原糖、总植物碱、总氮、钾、氯、淀粉、硫酸根、磷酸根、钙、镁、新绿原酸、绿原酸、隐绿原酸、莨菪亭、芸香苷、乙二酸、丙二酸、丁二酸、苹果酸、柠檬酸、香草酸、十四酸、十六酸、亚油酸+油酸、亚麻酸、十八酸、二十酸、天冬氨酸、苏氨酸、丝氨酸、天冬酰胺、谷氨酸、谷酰胺、甘氨酸、丙氨酸、缬氨酸、胱氨酸、蛋氨酸、异亮氨酸、亮氨酸、酪氨酸、苯丙氨酸、4-氨基丁酸、赖氨酸、组氨酸、色氨酸、精氨酸、脯氨酸、1-脱氧-1-l-丙氨酸-d-果糖(fru-ala)、1-脱氧-1-l-缬氨酸-d-果糖(fru-val)、1-脱氧-1-l-脯氨酸-d-果糖(fru-pro)、1-脱氧-1-l-苯丙氨酸-d-果糖(fru-phe)、l-脱氧-1-l-色氨酸-d-果糖(fru-trp)、1-脱氧-1-l-异亮氨酸-d-果糖(fru-ile)、1-脱氧-1-l-亮氨酸-d-果糖(fru-leu)、1-脱氧-1-l-天冬酰胺-d-果糖(fru-asn)、1-脱氧-1-l-谷氨酸-d-果糖(fru-glu)、1-脱氧-1-l-氨基丁酸-d-果糖(fru-amb)、1-脱氧-1-l-天冬氨酸-d-果糖(fru-asp)、1-脱氧-1-l-谷氨酰胺-d-果糖(fru-gln)、1-脱氧-1-l-甘氨酸-d-果糖(fru-gly)、1-脱氧-1-l-组氨酸-d-果糖(fru-his)、1-脱氧-1-l-苏氨酸-d-果糖(fru-thr)、1-脱氧-1-l-酪氨酸-d-果糖(fru-tyr)、葡萄糖胺(glu-an)、二氯甲烷提取物、ph、茄尼醇、新植二烯;
8、(3)采用有进有出的策略对变量进行逐步引入,即每一步都要对已入选变量和剩余备选变量在当前筛选轮次的变量组合条件下的判别能力进行检验。这里对变量的判别能力用wilks统计量构造的偏f值加以衡量。首先将判别能力最强的变量引入,先引入的变量,随着其他变量的引入,其显著性可能降低,在后续每个轮次的筛选中,都要检查每个已入选的变量是否不再显著,即该变量的偏f值是否低于2.71。低于2.71时,应将不再显著的变量剔除。然后,考察每个剩余备选变量的显著性,计算每个剩余备选变量的偏f值。将剩余备选变量中偏f值最大,且大于3.84的变量引入。以此操作循环筛选,直到没有需要剔除和需要引入的变量,此时循环停止,筛选结束。分别以70个指标任意一个为起始点,采用上述方法进行指标筛选,统计每一个指标被筛选到的频次,选择出现2/3以上频次的指标为最终建模指标。最终确定的建模指标为总糖、还原糖、总植物碱、淀粉、钾、镁、氯、硫酸根、ph、新植二烯、绿原酸、芸香苷、新绿原酸、隐绿原酸、莨菪亭、苹果酸、乙二酸、柠檬酸、丙二酸、香草酸、油酸+亚麻酸、十六酸、亚油酸、十八酸、十四酸、二十酸、脯氨酸、缬氨酸、丝氨酸、谷氨酸、4-氨基丁酸、组氨酸、酪氨酸、甘氨酸、fru-pro、fru-asn、fru-ala、fru-gln、fru-asp、fru-phe、fru-trp、glu-an、fru-his、fru-tyr、fru-gly、fru-thr等46种。
9、(4)采用线性判别的方法,构建基于化学成分的烟叶生态区判别模型,7维线性判别函数为:
10、表1基于化学成分的烟叶风格判别模型线性判别函数
11、
12、
13、
14、八大生态区及(即8个烟叶风格)的质心函数为:
15、表2:8个烟叶风格的质心函数
16、 风格 函数y1 函数y2 函数y3 函数y4 函数y5 函数y6 函数y7 风格i -0.0378 1.2903 0.2000 0.2552 -0.4359 0.3567 0.2259 风格ii 0.1186 0.0077 0.4997 0.3025 0.4521 0.0043 0.3712 风格iii -0.0522 0.1207 0.4331 0.1735 0.6436 0.0227 -0.2227 风格iv -1.5333 -0.4656 0.0809 -0.0356 -0.2212 0.4912 0.3128 风格v 0.6465 -1.2346 0.1432 0.1815 -0.0371 -0.5286 -0.4890 风格vi 1.7002 -0.5753 -0.5319 -1.4126 0.2890 -0.4286 -0.3336 风格vii -1.2576 -0.3317 0.0770 -0.3830 -0.0556 -1.0999 0.3929 风格viii -0.3667 0.7026 -2.7419 0.6710 -1.0889 0.4881 0.0520
17、八大生态区及(即8个烟叶风格)在7维空间上的sd为:
18、表3:8个烟叶风格在7维空间上的sd
19、 风格 维度1 维度2 维度3 维度4 维度5 维度6 维度7 风格i 0.3577 0.4130 0.3488 0.3867 0.3747 0.3720 0.3545 风格ii 0.3192 0.4457 0.3312 0.3368 0.4756 0.4222 0.4089 风格iii 0.3541 0.3806 0.2912 0.3977 0.3777 0.3976 0.3597 风格iv 0.4169 0.4040 0.4049 0.3022 0.3638 0.5840 0.3207 风格v 0.3560 0.3290 0.3551 0.3231 0.3006 0.3371 0.4047 风格vi 0.4082 0.4113 0.4068 0.5100 0.3604 0.3848 0.3418 风格vii 0.2425 0.1909 0.3450 0.3255 0.1767 0.3042 0.3319 风格viii 0.2739 0.4043 0.4848 0.4656 0.4720 0.3954 0.4401
20、基于上述烟叶风格判别模型,对建模外烟叶样品的判别正确率如下:
21、表4八大生态区烟叶样品的判别正确率
22、
23、
24、8个烟叶风格的判别准确率分别为94.4%、94.4%、96.5%、100.0%、98.7%、96.5%、100.0%和100.0%,判别错误的样品是由于其处于生态区交叠地带。
25、(6)依据各样品距离8个风格烟叶质心的距离,进行风格指数赋值,赋值的依据是距离某个风格质心的距离越近,表明样品在该风格上越突出,因此赋值分数越高,距离某个风格质心的距离越远,表明样品在该风格上越不突出,因此赋值分数越小,赋值范围为0~5。另外,根据某一风格烟叶在所在风格指数上的得分尽量大,在其他风格指数上的得分尽量小的原则,确定具体赋值方法为:
26、表5烟叶风格赋值原则
27、 样品距离风格质心的距离 赋值公式 <![cdata[s<sub>n</sub>≤1.6]]> 5 <![cdata[1.6<s<sub>n</sub><5.6]]> <![cdata[6.6-s<sub>n</sub>]]> <![cdata[5.6<=s<sub>n</sub><7]]> <![cdata[(7-s<sub>n</sub>)/1.4]]> <![cdata[s<sub>n</sub>>=7]]> 0
28、其中sn的计算公式为:
29、
30、注:公式(1)中ai表示该样品点a在第i维(1-7)空间坐标,计算公式该样品的46个化学成分标准化后乘以第i维的线性判别函数(见表1),ci表示第n(i、ii、iii、iv、v、vi、vii、viii)生态区质心的第i维空间坐标,sdi表示第n生态区样品集在第i维空间的标准偏差。ci和sdi值见表2和表3。
31、本发明提供的烟叶风格数字化表征方法具有如下优点:
32、(1)基于近红外光谱快速分析技术获取的70种化学成分实现对烟叶风格快速、客观、稳健和精准的表征,可摆脱既往通过感官评价这种主观方法对烟叶风格的表征,实现烟叶风格快速、客观、稳健和精准表征。
33、(2)采用有进有出的策略对变量进行逐步引入,且分别以70个指标任意一个为起始点,采用上述方法进行指标筛选,统计每一个指标被筛选到的频次,选择出现2/3以上频次的指标为最终建模指标,增加了建模指标的稳健性。
34、(3)采用线性判别的方法,构建烟叶风格判别模型,首次实现基于化学成分对国内8个风格烟叶的精准判别,构建了国产烟叶风格空间,获取了7维线性判别函数及8个风格的质心函数。
35、(4)构建了国产8个风格烟叶赋值方法,通过计算每个烟叶距离8个风格质心之间的距离,可实现对典型、亚型产地及交叠地带烟叶风格的精准定量表征,为后续叶组配方的数字化设计、打叶复烤模块数字化设计奠定了坚实基础。