清香型优质烟叶物理特性指标预测分析

2022-12-19 12:55陈凡景元书谢新乔杨继周
科学技术与工程 2022年32期
关键词:烟叶含水率特性

陈凡,景元书*,谢新乔,杨继周

(1.南京信息工程大学应用气象学院,南京 210044; 2.江苏省农业气象重点实验室,南京 210044; 3.红塔烟草(集团)有限责任公司原料部,玉溪 653100)

烟叶品质是生态条件、品种和栽培方式共同作用下的结果,其中,生态条件对烟叶产质量和风格特征具有重要影响,不同烟区烟叶品质与风格特征都有较大差异[1-4]。烟叶物理特性是烟叶品质评价中的重要组成部分,其主要指标如含梗率、填充性、平衡含水率等是卷烟加工性能的重要指标,直接影响着卷烟制造过程中的产品风格、生产成本及其他经济因素[5-6],此外,烟叶物理指标与外观质量、化学成分、评吸质量也存在着极显著性典型相关关系[7-8]。黎根等[9]利用统计分析和系统聚类的方法研究分析了湖北省各烟区的烟叶物理特性指标;杨俊等[10]分析了河南4个主产区烟叶的物理特性上的异同,明确了4个烟区的烟叶厚度均高于适宜标准,多地区烟叶含梗率未达到标准范围30%~33%。此外,影响烟叶物理特性因素的研究多集中在施肥、采收方式、调制方法对烟叶物理特性的影响中[11-12]。在烟叶物理特性与气象、土壤等生态因子间的关系研究中多是采用关分析、关联度分析、偏相关分析或灰色关联度简单描述两者之间的关系[13]。但这些研究只能定性描述烟叶物理指标与影响因子间的关系,从定量角度进行分析预测的研究较少。

为此,根据玉溪烟区物理特性指标与生态因子的相关关系,采用相关分析、Lasso算法等筛选生态因子,并在此基础上利用多元线性统计与BP(back propagation)神经网络两种算法分别构建清香型优质烟叶物理特性预测模型,为不同生态条件下提升烟叶品质、促进烟叶品质评价智能精准化提供科学理论依据。

1 材料与方法

1.1 数据来源

玉溪地处云南中部地区(23°19′N~24°58′N,101°16′E~103°09′E),南近海洋、北倚高原,光照强,昼夜温差大,属于亚热带季风气候。该地区自然条件优越,土壤状况适宜,是中国优质清香型烟叶种植最适宜区之一,其烟叶种植面积、总产量和总销售均居全国前列,被誉称为“云烟之乡”。该市各乡镇地区的烟叶数据、气象土壤等数据共同组成一套完整的烟叶数据库。

基于2019—2020年玉溪市115份优质烟叶的物理指标数据及对应的气象、土壤和海拔数据进行研究分析,其中,烟叶物理特性数据主要选取单叶重、页面密度、含梗率、平衡含水率、拉力6种烟叶主要物理指标;气象数据包括烟叶大田期(4月下旬—9月上旬)的平均气温、降水量和日照时数;土壤数据包括土壤pH、有机质、全氮、有效磷、速效钾和氯离子。

1.2 模型的建立及检验

1.2.1 模型参数选择

为充分反映各时段气象因子对烟叶物理指标的影响,对气象因子进行膨化处理,即将大田期以旬为单位分为14旬,以第1旬为气象因子膨化时段组合的起始时间,第14旬作为时段组合的终止时间,将旬平均气温、降水量和日照时数依次按照连续1旬,2旬,…,14旬进行不同时段的膨化组合,分别得到105个因子组合,3个气象因子共得到315个因子组合。

采用相关分析计算物理指标与生态因子之间的相系数,并进行多重共线性检验。可知,多数方差膨胀因子(VIF)大于10,部分VIF值超过1 900,一般而言,VIF过大(大于5或10)则有多重共线性问题,即生态因子间存在着明显的多重共线性,选择利用Lasso算法筛选出最终的模型参数[14]。Lasso算法是目前处理多重共线性的一种重要方法,在构建方程的过程中,能将参数估计值降为0,更容易产生稀疏解,实现“降维”,可用于做特征筛选。表1为筛选后的生态因子与烟叶主要物理特性指标间的相关系数。

表1 筛选后的生态因子与烟叶主要物理特性指标的相关系数

1.2.2 构建烟叶物理特性统计预测模型

由于影响烟叶物理特性指标的因子较多,因此采用多元线性统计算法进行构建预测模型,计算并分析各生态因子对烟叶物理特性指标的相对贡献率[15]。

Yj=a0j+a1jx1j+a2jx2j+…+anjxnj

(1)

(2)

式中:Yj为第j项烤烟质量特征;x1j,x2j,…,xnj为选入模型的变量;a0j为第j项烤烟质量特征模型的常数值;a1j,a2j,…,anj为第j项生态因子变量的回归系数值;gij为第i项生态因子对第j项烤烟特性变化的相对贡献率;a′ij为第j项烤烟特性标准化回归方程中的第i项生态因子的回归系数值;a′1j,a′2j,…,a′nj为相应的回归系数值。

1.2.3 构建烟叶物理特性神经网络预测模型

BP神经网络是一种多层前向型网络,非线性映射能力强、可以不断趋近任意连续函数的一种机器学习算法,通常由3层结构(输入层、隐含层和输出层)就可以实现映射,每一层有N个神经元[16-17]。

选取生态因子作为BP神经网络的输入值,烟叶物理特性指标作为输出值,根据经验公式来确定隐含层的神经元数目,其中,选取最大训练次数为1 000,学习速率为0.01,误差精度为0.000 01,其余参数设为默认值。

由于输入层的生态因子数据的单位和数量级方面存在差异,而对于BP神经网络而言,输入值和输出值应限制在一定范围内,确保即使是较大的输入值,也能进入网络转化函数梯度大的区域,以提高网络训练的速度和精准度[18]。常见的数据归一化方法包括min-max标准化、标准差标准化等。

(1)min-max标准化。可将原始数据经过线性变换转化为[-1,1]区间内,函数可表示为

(3)

式(3)中:x′i为标准化后的样本对应值;xi为第i个样本数据值;xmax、xmin分别为样本数据的最大值和最小值。

(2)标准差标准化。经过转换的数据将符合标准正态分布,即标准化后数据均值为0,标准差为1,函数可表示为

(4)

式(4)中:μ、σ分别为原始数据的均值和方差。

采用第一种min-max标准化方法进行数据归一化处理。

1.2.4 模型检验

统计判据中,均方根误差(root mean square error, RMSE)和归一化均方根误差(normalized root mean square error, nRMSE)均是用来衡量观测值与实测值之间的偏差,反映测量精度的物理量,一般而言,nRMSE<10%,表示模型模拟结果非常好,nRMSE<20%,表示模型模拟结果较好,nRMSE<30%,表示模型模拟结果一般[19],其表达式分别为

(5)

(6)

2 结果与分析

2.1 烟叶物理特性的描述性统计

从表2可以看出,玉溪烟叶主要物理特性指标的标准差、变异程度均较小。其中,2020年烟叶单叶重的变异系数最大(19.39%),2019年的平衡含水率变异系数最小(5.20%);从峰度系数可看出,物理特性指标中,近两年烟叶叶片密度、拉力和填充针的峰度系数小于0,为平阔峰,其余指标仅2020年厚度指标峰度小于0,其余峰度值均大于0,,为尖峭峰;从偏度系数来看,2020年厚度指标峰度为负偏锋,其余主要物理特性指标为正偏峰。

为便于描述,将单叶重、叶面密度、含梗率、平衡含水率、拉力、填充值的最适宜范围分别设置为9.0~11.0 g、70.0~75.0 g/m2、≤25.0%、≥13.5%、1.8~2.0 N、≥4.3 cm3/g,适宜范围为7.0~9.0 g或11.0~13.0 g、60.0~70.0 g/m2或75.0~85.0 g/m2、25.0%~31.0%、12.0%~13.5%、1.4~1.8 N或2.0~2.4 N、3.9~4.3 cm3/g[20]。从表2可以看出,玉溪市2019年烟叶物理特性指标均处于适宜范围内,其中单叶重、平衡含水率处于最适宜范围;2020年的叶片密度、含梗率低于适宜范围,其余指标处于适宜范围内,平衡含水率处于最适宜范围。可见,玉溪烟叶的物理特性整体表现良好,其中平衡含水率表现最为优异。

表2 玉溪烟叶主要物理特性指标描述统计

2.2 玉溪烟区大田期气象特征

利用2009—2018年的平均气温、降水量和日照时数数据计算得到历年旬平均气温、旬降水量与旬日照时数,并与2019年、2020年的相应数据进行对比分析。从图1中可以看出,玉溪历年来平均气温变化较小,大田期间温差不超过5 ℃,整体呈现先升高后降低的趋势;降水量变化较大,降水量高值区主要分布在7月中旬—8月上旬,而5月中旬降水量最少;日照时数呈现前期高后期低的趋势,其中最高值出现在5月上旬。分析可知,2019年玉溪烟区大田期间,平均气温、降水量和日照时数基本长期略低于历年数据;而2020年除4月下旬低于历年旬平均气温3.3 ℃外,基本略高于历年平均气温,降水量和日照时数基本低于历年数据。

图1 玉溪烟区大田期气象因素变化特征

2.3 统计算法的生态预测模型构建

依据筛选出的生态因子分别建立烟叶主要物理特性指标预测方程为

Y1=-4.574 4+0.543 4t3-0.000 3p1+

0.022 1p5-0.023 3p7+0.052 1p8+

0.079 6p9-0.033 5r2-0.056 9r5-

0.030 1r7+0.961 4x1-0.049 9x4+

0.014 0x5+0.073 9x6

(7)

Y2=33.202 6-0.022 5p2-0.005 7p4+

0.044 3p5+0.022 8p8+0.092 3p9+

0.034 7p11-0.156 3r5+0.101 7r6-

1.822 9x3+0.231 1x6+0.004 2x7

(8)

Y3=54.354 4-0.576 7t2-0.005p2+

0.005 6p4-0.066 2p6-0.017 5p8-

0.013 3p11+0.033 6r5-0.027 1r6-

0.968 4x1+0.191 1x2-0.022 7x4-

0.013 2x5

(9)

Y4=15.928 6-0.095 4t4+0.000 02p1+

0.002 5p4-0.009 7p5+0.021 8p6+

0.005 4p8+0.021 6p10-0.018 2r1+

0.000 02r6+0.673 9x3-0.003 3x5-

0.019 7x6

(10)

Y5=0.207 5+0.080 1t1+0.000 3p3+

0.002 4p5-0.002p6-0.001 5p9-

0.001 7r2-0.004 2r4+0.002 9r6-

0.001 7r7-0.068 1x1+0.001 1x2+

0.003 6x4-0.000 3x5-0.002 3x6+

0.000 2x7

(11)

Y6=5.047 9+0.021 6t5+0.001 9p2-

0.000 8p3+0.000 8p5-0.001 5p9-

0.033 4p10+0.001 5r1-0.002 7r3-

0.188 9x1-0.026 3x2-0.137 6x3-

0.003 2x4+0.001 7x5

(12)

式中:Y1~Y6分别为单叶重、叶面密度、含梗率、平衡含水率、拉力、填充值;t1~t7分别为8月、8月中旬、5月、5月下旬、4月下旬—5月上旬、7月中旬、4月下旬至6月下旬的平均气温;p1~p12分别为8月中旬—9月上旬、8月中旬—8月下旬、8月中旬、5月中旬—8月下旬、7月上旬—8月下旬、8月下旬、4月下旬—6月上旬、5月下旬、5月上中旬、5月上旬、4月下旬、4月下旬—6月中旬的降水量;r1~r7分别为8月下旬—9月上旬、8月上中旬、7月中旬、5月下旬—6月下旬、6月中旬、5月上中旬、4月下旬的日照时数;x1~x7分别为土壤pH、有机质、全氮、有效磷、速效钾、氯离子和海拔高度。

可以看出,气象因子中,降水量对烟叶主要物理特性指标的影响较大,而平均气温的影响较小;土壤因子中,速效钾对除叶面密度外的物理特性指标均有明显影响;海拔因子对叶面密度有正效应,而对拉力有负效应。

将生态因子分为气象因子和土壤海拔因子两大类进行计算其对烟叶主要物理特性指标的贡献率,如表3所示。可以看出,气象因子对物理特性指标的相对贡献率明显大于土壤海拔因子的相对贡献率,其平均贡献率分别为71.15%和28.85%。

表3 生态因子对烟叶主要物理特性指标相对贡献率

2.4 神经网络生态预测模型构建

随机选取115组样本数据中的70%作为网络模型的训练样本,其余30%为测试样本,根据上述各物理特性指标所选取的生态因子作为输入值,烟叶物理特性指标作为输出值,图2为训练完成后单叶重、叶面密度、含梗率、平衡含水率、拉力、填充值的验证样本模拟值与实测值的统计分析。可以看出,神经网络算法模拟出的预测值基本符合实测值的变化趋势,两者重合程度较高,即模拟效果较好,但仍存在某些值的预测值与实测值相差较大。

图2 烟叶物理特性的神经网络预测模型模拟结果

2.5 两种算法的生态预测模型验证

经验证,统计算法与神经网络算法的物理特性指标预测模型的均方根误差RMSE与归一化均方根误差nRMSE如表4所示。可以看出,统计模型的物理特性指标的RMSE、nRMSE均低于神经网络模型,单叶重、叶面密度、含梗率、平衡含水率、拉力、填充值统计预测模型的RMSE分别为2.12 g、12.18 g/m2、3.02%、0.76%、0.31 N、0.47 cm3/g,nRMSE分别为17.40%、13.08%、10.03%、5.58%、24.27%、12.18%、13.76%;神经网络预测模型的RMSE分别为1.27 g、4.51 g/m2、2.42%、0.76%、0.16 N、0.34 cm3/g,nRMSE分别为10.80%、8.38%、8.00%、5.48%、13.07%、8.74%、9.08%。除统计模型中的拉力模型nRMSE大于20%,模拟效果较差,其余模型模拟效果均较好,其中两种预测模型中平衡含水率模拟效果最好的且相差不大,RMSE均为0.76%,nRMSE分别为5.58%和5.48%;模拟效果较差的为拉力,nRMSE分别为24.27%和13.07%。

表4 烟叶主要物理特性指标不同预测模型的误差分析

3 讨论

玉溪地区烟叶物理特性表现较好,各指标的标准差与变异系数均较小,除2020年叶片密度、含梗率低于适宜范围,其他指标均处于适宜范围内,其中,2019年单叶重和平衡含水率、2020年平衡含水率处于最适宜范围。就大田期气象特征来说,云南烟区平均气温偏低,降水量中等偏少,日照时数中等;云南玉溪地区2019年平均气温、降水量和日照时数长期略低于历年数据;2020年略高于历年平均气温,但降水量和日照时数仍低于历年数据,其气象要素变化趋势与李震等[21]的研究结果基本一致。其中,各物理特性指标与降水各因子间的相关系数较大,且降水影响因子较多,即降水量是影响该烟区清香型优质烟叶物理特性品质的关键因子。

统计算法的各物理特性指标预测模型nRMSE平均值小于15%,平衡含水率的nRMSE仅有5.58%,说明算法构建的预测模型在实际应用中具有一定的可行性,但叶面密度预测模型的RMSE为12.18 g/m2,拉力预测模型的nRMSE为24.27%,预测效果较差,其原因可能有:①生态因子对烟叶物理特性指标的影响是个复杂的系统[22-23],较难通过确定的数学关系式准确描述两者之间的关系;②除了生态因子外,自身遗传特性和栽培手段也是影响烟叶物理特性的重要因素[24-25]。神经网络算法的烟叶物理特性指标预测模型的nRMSE均小于统计算法模型,其平均值小于10%,表明模型模拟效果很好,模拟结果准确。但统计模型中的各参数值具有明显物理意义,且能够准确计算出各生态因子对预测模型的相对贡献率,所以说两种算法预测烟叶物理特性指标模型各有优势和劣势,今后的研究中可以将神经网络算法更加优化,可以将统计算法与神经网络算法结合使用,构建出更便于实际应用、模拟效果更好的模型。

4 结论

基于云南省玉溪市2019—2020年烟叶物理特性与生态因子(气候、土壤和海拔)相关数据,建立利用多元线性与神经网络两种方法分别构建清香型优质烟叶物理特性预测模型,得出以下主要结论。

(1)玉溪地区烟叶物理特性表现较好,各指标的标准差与变异系数均较小,基本处于适宜范围内,其中,2019年的单叶重和平衡含水率与2020年的平衡含水率处于最适宜范围;就大田期气象特征来说,云南烟区平均气温偏低,降水量中等偏少,日照时数中等。

(2)气象因子对玉溪烟叶物理特性的相对贡献率均超过了土壤、海拔,平均贡献率约为71%,其中,气象因子对拉力的相对贡献率最高,为80%,对填充值的相对贡献率最低,为52%。

(3)烟叶物理特性神经网络预测模型的RMSE、nRMSE明显低于多元线性预测模型,平衡含水率的nRMSE为5.48%,叶面密度、含梗率、填充值的nRMSE低于10%,模拟效果良好。

猜你喜欢
烟叶含水率特性
630MW机组石膏高含水率原因分析及处理
昆明森林可燃物燃烧机理研究
谷稗的生物学特性和栽培技术
不同介质下油水两相流含水率测量模型构建与仿真
色彩特性
关于新形势下烟叶生产可持续发展的思考
进一步凸显定制安装特性的优势 Integra DRX-5.2
烟叶主要真菌病害的发生与防治
Quick Charge 4:什么是新的?
原油含水率在线测量技术研究