基于高光谱技术的采摘期烟叶水分含量研究*

2021-09-23 14:19刘红芸吴雪梅李德仑张富贵张大斌黄华成
中国农机化学报 2021年9期
关键词:马氏烟叶校正

刘红芸,吴雪梅,李德仑,张富贵,张大斌,黄华成

(1. 贵州大学机械工程学院,贵阳市,550025; 2. 贵州省烟草农业科学研究院,贵阳市,550081)

0 引言

采摘期烟叶含水量是烟草工艺技术指标之一,直接影响烤后烟叶的品质。准确地检测采摘期烟叶水分含量,对烟草工艺具有重要意义。高光谱技术是一种无损检测技术,主要是通过对物体样品光谱信息的测量后,可在一定程度上体现被测物体内部物理结构及化学成分的差别[1-2]。与传统的化学成分检测技术相比,高光谱图像技术是一种物理检测技术。通过建立高光谱分析模型,可同时预测多个指标,并具有分析快速、操作简单、无损也无需对检测样品预处理等诸多优势[3-5]。目前,虽然国内外也有相关研究从高光谱图像技术及反射率的角度成功地估算作物的氮含量、叶绿素含量、水分含量及进行了病害检测等[6-13],但是目前国内外利用高光谱技术鉴定烟叶含水量的报道较少。因此,高光谱技术可用来对采摘期鲜烟叶叶片水分含量进行检测。

高光谱技术对烟草叶片水分含量进行预测时,烟叶样本中存在未知的光谱异常样本,会直接影响模型精度[14]。在建立烟草叶片水分含量分析模型时,烟叶的光谱值与化学值之间具有一定的相关性。然而,数据集中存在异常光谱样本时,会导致这种相关性降低,模型预测精度也会随之降低。因此,有必要对异常样本进行识别和处理后再进行建模分析。

本研究利用MSC、SNV、归一化(Normalize)、数据中心化(Mean centering)、标准化(Autoscales)、移动窗口平滑、SG卷积平滑法、Savitzky-Golay一阶导数、Savitzky-Golay二阶导数、一阶导数(FD)、二阶导数(SD)多种方法来对样本的高光谱数据进行预处理,再利用主成分分析结合马氏距离(PCA-MD)的方法来消除异常样本,选出最佳预处理方法,然后使用偏最小二乘法建立了烟叶水分含量模型。验证高光谱技术应用于烟叶水分含量预测的可行性,实现快速、无损和科学的烟叶水分含量检测。

1 材料与方法

1.1 试验地点

本研究以贵州省天柱县(黔东南地区)、息烽县(黔中地区)、安龙县(黔西南地区)、道真县(黔北地区)和威宁县(黔西北地区)五个地区采摘期云烟87中部烟叶为研究对象,于2019年7月30日—8月20日期间进行,每个地区选择30个样本,共采集150个烟叶样本。

1.2 试验数据获取

1.2.1 高光谱数据的获取

首先选择晴朗、无风的天气在户外采用GaiaSky-mini2机载高光谱成像仪(四川双利合谱)拍摄所采集烟叶样本的高光谱图像,并进行光谱图像的黑白校正。然后使用ENVI5.3软件对鲜烟叶叶片感兴趣区域(Region of Interesting,ROI)进行绘制,但考虑到传感器镜头边缘存在减光现象,所选区域应尽量避开主茎,远离图像边缘且尽可能大的包络烟叶叶面部分。最后计算样本ROI内的平均光谱数据值,将其作为烟叶叶片的原始光谱。本次所拍摄的光谱数据波长范围为371.08~1 037.89 nm,包含176个波长点。

1.2.2 叶片水分含量的测定

在采集高光谱图像后,将每一个烟叶样本的叶片与主茎分开,用0.01 g的电子称称重并记录为烟叶的鲜质量(记为m0),立刻使用写好标签的锡纸包裹(锡纸标签与烟样标签一致),放入液态氮中保存(保证鲜烟叶化学性质不受到损失)。将样本带回实验室,取出液态氮所保存的样品,使用镊子将锡纸扎破后,然后放入真空冷冻干燥机处理后,进行称重并记录为烟叶干质量(记为m1)。通过式(1)计算水分含量。

(1)

式中:f——样本的水分含量;

m0——样本的鲜质量;

m1——样本的干质量。

1.3 数据处理方法

1.3.1 预处理方法

由于受到外部环境和仪器暗电流的影响,在光谱数据采集过程中会出现散射、高频随机噪声和基线漂移等问题,影响后续建立模型精度和稳定性[15]。为了消除这些不良因素影响,应用多元散射校正、标准正态变量交换、归一化、数据中心化、标准化、移动窗口平滑、Savitzky-Golay卷积平滑、一阶导数、二阶导数等方法对光谱进行预处理。

1.3.2 主成分分析结合马氏距离剔除异常样本(PCA-MD)

主成分分析(PCA)是采用降维的方式,在损失很少信息的条件下将原本多变量转化为只有维数较少且互不相关变量来替代,可以计算出每个样本光谱各个变量的主成分得分,是采用数学方法来降低光谱数据维数的有效方法[16-17]。

马氏距离是计算空间中两个不同数据点相似度的方法[18-20]。马氏距离考虑了不相等的方差以及特征之间的相关性,通过对数据点的特征分配不同的权重来充分评估数据点之间的距离。而且马氏距离可以调节数据的几何情况,使得类似数据点之间的间距很小。因此,它可以用来提高聚类或分类算法的性能。

本文利用每个样品的光谱数据与校正集的平均光谱数据之间的间距作为马氏距离,结合主成分分析所得烟叶样本得分,计算各个样本的马氏距离,然后将其与阈值作比较,并通过去除异常光谱样品来提高模型的准确性,计算方法如式(2)~式(3)。

(2)

(3)

式中:M——校正集光谱主成分得分矩阵的协方差阵;

ti——样本i的主成分得分向量;

Di——校正集样本i的马氏距离。

检验校正集中的异常样本存在的阈值计算如式(4)所示。

Dth=Dm+e·σd

(4)

式中:e——给定阈值调整权重系数;

Dm、σd——m个样本马氏距离的平均值、标准差;

Dth——校正集阈值范围。

凡满足Di≥Dth,认为校正集中第i个样本是异常样本,予以剔除;反之Di

1.3.3 PLS预测模型

偏最小二乘法(PLS)是一种高效提取信息的方法,结合了多种统计分析方法的优点,是用于光谱数据分析的重要方法。本研究将全波段波长作为模型的输入变量,利用交叉验证的方法(cross validation)来选取主成分数,建立烟叶水分含量的PLS预测模型,通过模型的评价指标来确定模型精度。

利用相关系数R与均方根误差RMSE对模型的稳定性和估测能力进行检验。R越大,即数值越靠近1,说明该模型的拟合精度越高,并且模型越稳定;RMSE越小,则模型估测能力便越好、准确度越高。文中采用RMSEC表示校正集样本均方根误差及RMSEP表示预测集样本均方根误差,相关计算公式如式(5)~式(6)。

(5)

(6)

式中:yi——各烟叶样本的水分含量真实值;

m——校正集样本量;

n——预测集样本量。

2 结果与分析

2.1 预处理

未经预处理的原始光谱曲线图和经过不同预处理方法处理后烟叶样本光谱曲线如图1所示。

烟叶反射率的原始光谱显示出明显的散射噪声和基线漂移,尽管这种分散的光谱曲线呈现出相似的变化趋势(图1(a))。经过多元散射校正、移动窗口平滑、SG卷积平滑等预处理后的光谱曲线吸收和反射特征更加明显,都有不同程度的强化和去噪作用。多元散射校正(图1(b))、SNV(图1(c))和标准化(图1(d))处理后,光谱的重合度明显提高,减少了散射噪声的影响,但在400~500 nm波段范围内造成了光谱分散。

(a) Original spectrum (b) MSC (c) SNV

移动窗口平滑(图1(f))和SG卷积平滑(图1(g))处理后,明显减少了700~1 000 nm范围内曲线的波动。归一化(图1(e))和数据中心化(图1(h))处理后,光谱都归入了某个特定的数值区间之内,在一定程度上减小了尺寸差异大和数据信息结构不同的干扰。Savitzky-Golay一阶求导(图1(i))、Savitzky-Golay二阶求导(图1(j))、直接差分一阶求导(图1(k))、直接差分二阶求导(图1(l))与原始光谱曲线相比,吸收峰数量明显增加。

2.2 样本划分

在冷冻干燥处理过程中,将液态氮所保存的样品取出及使用镊子将锡纸扎破时,造成9个试验样本损坏,最后测量水分含量的试验样本总数为141。先使用Matlab2016a软件的光谱预处理方法来进行处理141个采摘期鲜烟叶样本原始光谱,然后将烟叶样本光谱数据顺序随机打乱,使得划分样本时水分数据在预测集和校正集中分散均匀,然后以3∶1的比例把样本数据集均匀地分成校正集及预测集。统计校正集和预测集样本水分含量的结果如表1所示。校正集样品烟叶水分含量变化范围在66.98%~78.42%之间,标准偏差为2.291 7%;预测集样品含水量在67.64%~79.22%之间,标准偏差为2.651 3%。

表1 水分含量数据统计Tab. 1 Statistics of moisture contents

2.3 不同光谱预处理的主成分分析

取前15个主成分特征值的贡献率进行比较,如图2所示。

图2 不同光谱预处理的前15个主成分累计贡献率

为了对比各个预处理方法下光谱的主成分分析效果,分别对原始光谱进行多元散射校正(MSC)、归一化(Normalize)、标准正态变量交换(SNV)、标准化(Autoscales)、数据中心化(Mean centering)、移动窗口平滑、Savitzky-Golay卷积平滑法、Savitzky-Golay一阶导数、Savitzky-Golay二阶导数、一阶导数(FD)、二阶导数(SD)的方法对原始光谱数据进行预处理,然后采用主成分分析求得它们的主成分累积贡献率。

从图2可以看出,Savitzky-Golay卷积平滑和移动窗口平滑预处理的前4个主成分累积贡献率大于98%。结合主成分分析聚类效果,采用Savitzky-Golay卷积平滑和移动窗口平滑法效果相对较好,选择这两种光谱预处理方法的前4个主成分对马氏距离进行计算。

2.4 剔除异常品对预测效果的研究

采用交叉验证对移动窗口平滑以及SG卷积平滑法预处理后光谱数据选取的主因子个数皆为5。106个样本(校正集)经过主成分分析的马氏距离如图3所示,使用移动窗口平滑法确定模型的最佳阈值为0.9,马氏距离为2.574 1,剔除样本个数为15;Savitzky-Golay卷积平滑法最佳阈值为2.2,马氏距离为3.700 4,剔除样本个数为3。

(a) 移动窗口平滑

本试验应用马氏距离法鉴别异常光谱样品并将其去除来增加PLS烟叶水分预测模型的精确度。设置阈值调整权重系数e=0.1∶0.1∶3。使用不同的权重系数e,便会得到不同的阈值,当马氏距离大于设定阈值时,对应的样本将被剔除。随着e的增大,剔除样品的个数逐渐减少。将异常光谱样品剔除后,使用交叉验证(cross validation)法对主成分数进行选取。采取PLS分别建立烟叶水分预估模型时,不同参数e下建立的PLS模型具有不同效果,选择RMSEC最小时对应的参数e和其剔除异常光谱样本后的校正集来建立的PLS作为最终确定的烟叶水分含量定量分析模型。

2.5 建模预测效果比较

以校正集烟叶样品水分含量与估测水分含量之间的相关系数Rtrain,预测集样品水分含量和估测水分含量的之间相关系数Rtest,校正集样本均方根误差RMSEC及预测集样本均方根误差RMSEP作为评价PLS模型优劣的指标。相关系数的值越高、均方根误差的值越低,说明PLS模型对于烟叶水分含量的估测效果越好。在最佳建模参数下建立的PLS模型效果如表2、图4所示。移动窗口平滑法处理的PCA-DA-PLS模型,校正集Rtrain=0.833 1、RMSEC=1.299 9,预测集Rtest=0.848 3、RMSEP=1.459 6;SG平滑处理的PCA-DA-PLS模型,交叉验证法得到五个最佳主成分数,校正集(Rtrain=0.856 9、RMSEC=1.211 5),预测集(Rtest=0.852 7、RMSEP=1.376 6)。SG平滑法预处理的PCA-DA-PLS模型的效果最佳,建立的PLS模型对烟叶含水量预测能力相对较好,取前五个主成分计算水分含量如式(7)所示。

Y=74.02X1+79.28X2+77.26X3+69.71X4+

58.77X5+70.897 7

(7)

式中:Y——水分预测值;

Xi——第i个主成分对应的光谱数据。

表2 最佳建模参数下建立的PLS模型效果Tab. 2 PLS model effect established under the best modeling parameters

(a) 移动窗口平滑校正集 (b) SG平滑校正集

3 结论

为了检测采摘期烟叶水分含量,获取烟叶叶面高光谱数据,本文利用主成分分析结合马氏距离的方法来剔除异常样本,建立烟叶含水量的PLS估测模型。

1) 采用MSC、SG卷积平滑、Moving-averag等方法预处理后的鲜烟叶样本光谱曲线的吸收和反射特征更加明显。比较了多种预处理方法的主成分分析结果,得出SG卷积平滑法与移动窗口平滑法效果最佳,二者的前4个主成分累计得分达到98%。

2) 在采用PCA-MD剔除异常样本后,SG平滑法预处理的PCA-DA-PLS模型的效果最佳,剔除3个异常样本,交叉验证法得到5个最佳主成分数,建立的PLS模型对烟叶含水量估测能力最好,校正集相关系数Rtrain为0.856 9、均方差RMSEC为1.211 5,预测集相关系数Rtest为0.852 7、均方差RMSEP为1.376 6。

3) 利用高光谱图像技术预测烟叶的水分含量效果甚佳,实现了烟叶水分含量快速、无损地估测。

猜你喜欢
马氏烟叶校正
一类时间变换的强马氏过程
有环的可逆马氏链的统计确认
劉光第《南旋記》校正
关于树指标非齐次马氏链的广义熵遍历定理
关于新形势下烟叶生产可持续发展的思考
一致可数可加马氏链不变测度的存在性
一类具有校正隔离率随机SIQS模型的绝灭性与分布
烟叶主要真菌病害的发生与防治
机内校正
一种降低造纸法再造烟叶平滑度的方法