胡艳培, 白铁成, 陈好斌, 姚江河, 刘冠华, 杨洪坤
(1.塔里木大学信息工程学院,新疆阿拉尔 843300; 2.塔里木大学经济与管理学院,新疆阿拉尔 843300)
在塔里木河周边生长着大片的天然胡杨林,这道天然林带绵延数百公里,可以减缓和防止世界上第二大沙漠——塔克拉玛干沙漠北移,且具有调节当地气候、防止水土流失导致土地沙化和保障绿洲农业生产等优点。胡杨树通过多年进化长出不同大小的叶片,小叶片可有效减少水分蒸发,大叶片为自身的生长提供养分与能量,因此胡杨叶片能够合理地利用每一滴水。近年来,胡杨正在面临虫害和缺水等新的问题,导致塔里木河沿岸大片的胡杨林濒临死亡。因此对胡杨的健康状况实施有效保护的前提条件是及时有效地进行监测,而叶片的含水量是判断胡杨生长状况的重要依据。传统的人工对叶片检测的方法不但费时而且费力,效果不是很好,所以研究一种快速、有效、无损的检测方法对胡杨林的有效保护具有重要的现实意义。
近红外光谱(near infrared,简称NIR)技术检测已被广泛地应用在食品、石化、烟草、医药、农业等行业,此技术是一种低成本、快速和无损的检测方法[1-5],其主要应用于农产品品质鉴定(小麦、花生、番茄、玉米、红枣、苹果和大豆等)[6-13]、植物叶片水分含量检测[14]、土壤性质分析[15]和早期病虫害诊断[16]等,另外近红外光谱技术在指纹、血迹、火药等刑事犯罪检验方面具有可行性[17],但有关胡杨叶片含水量的光谱预处理方法研究的相关报道很少。
在近红外光谱应用时,不仅可以检测到样品中有用的信息,还可以检测到其他的信息和噪声,这是因为受到样本背景、电噪声、杂散射等因素的干扰。在建立模型前对原始的光谱数据进行预处理是分析样品中成分的前提条件,不同光谱的预处理方法、校正样本的选择方法和建模方法有很多,比如归一化、标准化、均值中心化、标准正态变量变换、多元散射校正和去趋势等算法是常用的光谱预处理方法。禁忌搜索算法、连续投影算法(successive ections algorithm,简称SPA)、粒子群优化算法、遗传算法(genetic algorithm,简称GA)、相关系数法等是常用的特征波长的筛选方法。模型建立方面,主要采用竞争性自适应重加权算法(carpls and carsplelda,简称CARS)、偏最小二乘法(partial least squares,简称PLS)、误差反向传输(back propagation,简称BP)神经网络、支持向量机(support vector machine,简称SVM)等方法。SPA算法不仅可以从严重重叠的光谱信息中提取有用的信息,还可以消除波长变量之间的共线性干扰,提高建模的精度,在火龙果总酸含量[18]、葡萄果皮花色苷含量[19]、油菜叶片氨基酸总量[20]、羊肉品质[21]无损检测中的应用也验证了连续投影算法的有效性。虽然各种光谱的预处理方法、建模方法得到了普遍的应用,但不同作物的光谱响应会有所不同,胡杨叶片含水量的建模方法和光谱预处理方法需要进一步去验证。
本研究以胡杨叶片为研究对象,比较多种不同的光谱预处理方法对胡杨叶片水分含量模型的影响,进而确定适合于近红外光谱分析胡杨叶片含水量的预处理方法,以此来简化模型的运算过程,为大面积遥感监测以及进一步研究胡杨叶片的含水量提供理论依据和数据支撑。
试验用的胡杨叶片样品为采集于新疆第一师十四团胡杨林中的300张胡杨叶片,从中选择完好无损的100张胡杨叶片,用自封袋包装并放置在冰箱中储藏,然后集中一个时间点进行光谱采集和水分测定。
试验中采用Zolix GaiaSorter近红外成像高光谱仪,光谱数据的采集操作和数据存储采用配套的软件获得。样本在室内恒温下进行扫描,光谱分辨率为5 nm,采样点为4 nm,测定范围为900~1 700 nm,获取一维影像和光谱信息,通过ENVI(Research System Inc,美国)软件获取每张叶片的平均光谱值作为原始光谱,每个样本数据测量4次取平均值,导出Excel 2010文件。标准正态变量变换、数据中心化、归一化、SPA和偏最小二乘回归算法在MATLAB 2014a(The MathWorks Inc,美国)中实现,叶片水分含量采用远近红外快速干燥箱进行烘干法测量。
本研究通过4种方法对胡杨叶片原始光谱数据进行预处理与分析,分别采用数据中心化、归一化(normalization)和标准正态变量变换(standard normal variate transformation,简称SNV)3种预处理方法。
近红外光谱分析要从复杂的信息中有效地提取具有代表性的信息建立模型,不仅可以提高建模精度,还可以减少模型的储存空间。还有就是采集到的样本不含化学成分数据的,如果不进行筛选而直接进行分析,费用也是昂贵的。目前,样本的选择方法主要包括遥感技术(random sampling,简称RS)、基于欧氏距离的样本选择方法(kennard-stone,简称KS)、基于欧式距离和浓度的样本选择方法(sample set partitioning based on joint x-y distance,简称SPXY)剔除方式、连续投影算法(successive ections algorithm,简称SPA)等。本研究基于光谱主成分和样品含水量分析,选用SPXY方法进行校正集样本的选择,从100个胡杨叶片样本中选择65个校正集样本,35个预测集样本。
校正模型可通过波长选择使模型简化、消除非线性或无关变量从而使模型具有更强的预测能力和更好的稳健性。
SPA算法可以从严重重叠的光谱信息中提取有用的信息、消除变量之间的共线性干扰、简化建模,在波长变量选择上得到广泛的应用。SPA算法在初始状态时挑取1个波长,向前运行时采用循环的方法,每循环1次计算出它在未选入波长上的投影,进而选取在投影向量中的最大波长,然后将投影向量引入到波长组合中,直到循环结束。设XK(0)表示初始的迭代向量,XM×K表示光谱的吸收矩阵,M表示样本数,K表示波长数,用N(N 因此,建立了N×K波长组合对,模型的建立通过提取波长数和迭代向量的组合来实现,使用RMSE确定模型的差异,从中选出变量的个数、相对应的波长、最小均方根误差。为了简化模型,防止出现过度拟合,建立MIR(多元线性回归)的模型,剔除各个波长的残差平方和,得到用于建模的特征波长。 使用偏最小二乘法(partial least squares,简称PLS)建立模型,采用相关系数r、预测精度(precision)、预测均方根误差(root mean square erroe of prediction,简称RMSEP)和交叉验证预测均方差(root mean square prediction of cross validation,简称RMSPCV)等参数来评价各个预处理方法对所建立模型的影响。对于同一样品集的同一组分,预测均方根误差越小,表示所建模型的预测能力越强,结果越准确,预测越精确。 由胡杨叶片的水分含量测定统计结果可知,水分含量最大值为0.678 6,最小值为0.446 7,平均值为 0.605 2,标准偏差为0.042 5。胡杨叶片样品数按照3 ∶1的比例分为校正集和预测集。 图1-a为采集到的100张胡杨叶片的原始光谱。可以看出,光谱内存在大量的散射基线漂移和噪声,因此需要对原始的光谱数据进行预处理,建立和优化模型。如图1-b和图1-c所示,预处理后的光谱有效地去除了噪声、背景干扰、散射、基线漂移影响,光谱特征增强,有利于特征波长的选择。图1-d显示,归一化后的光谱波峰和波谷区分明显,消除了部分噪声、散射的影响。对比分析可知,图1-b和图1-c效果更佳,更能说明原始光谱预处理之后的效果。 对原始光谱进行SNV、数据中心化和归一化处理后的光谱通过连续投影算法进行变量的选择,最终变量数采用标准误差也称均方根误差(root mean square error,简称RMSE)选定,如图2为SPA处理后的筛选变量个数与波长效果,具体波长选择结果如表1所示。 由表1可以看出,从原始光谱+SPA处理后共选出7个光谱特征波长,考虑到908 nm在光谱仪边缘位置,所以建模时要剔除908 nm特征变量,最后选择6个特征波长。从原始光谱+SNV+SPA初步筛选出7个光谱特征波长,由于 1 758 nm 为边缘位置,要剔除,最终获得6个特征波长。从原始光谱+数据中心化+SPA处理后初步筛选出6个光谱特征波长,1 755 nm为边缘位置,要剔除,最终获得5个特征波长。从原始光谱+归一化+SPA处理后初步筛选出8个光谱特征波长,由于905 nm和908 nm在边缘位置,所以要剔除,最终获得6个特征波长。从选择的变量波长可以看出,胡杨叶片水分含量在1 000至1 700 nm波段有较高的相关性光谱特征,可用于胡杨叶片水分的快速无损检测,采用SPA算法选择光谱变量不仅可以减少模型建立的复杂度,还降低了光谱数据维数。 本研究对胡杨叶片光谱数据进行优化采用原始光谱+SPA、原始光谱+归一化+SPA、原始光谱+数据中心化+SPA、 原始光谱+SNV+SPA 4种光谱预处理方法, 然后建立PLS模型,预测的散点图如图3所示。 表2为采用4种光谱的数据预处理方法对胡杨叶片建模优化后的结果。由表2可以看出,不同的光谱预处理方法对PLS建立的模型参数存在一定的影响。在4种光谱预处理方法中,r最大值为0.774 72,最小值为0.674 24;RMSEP最小值为0.018 216,最大值为0.021 434;Precision最大值为 0.976 63,最小值为0.971 44。综合对比分析得出,通过采用原始光谱+SNV+SPA的方法预处理后,r由0.674 24增加到0.774 72,Precision由0.971 44增加到0.976 63,RMSEP由0.021 434降低到0.018 24,RMSPCV由0.046 132降低到0.045 642。结果表明, 原始光谱+SNV+SPA降低了噪声的干扰,提高了建模精度和相关性,因此所建立的模型具有较好的预测效果。 表1 不同预处理方法波长的筛选结果 表2 不同光谱预处理方法及参数比较 本研究利用近红外光谱技术来检测胡杨叶片水分含量,并且建立了胡杨叶片的预测模型,同时对比了4种不同光谱预处理方法。综合分析得出,原始光谱+标准正态变量变换+SPA预处理后相关系数最大,所建模型的预测精度最高,交叉验证预测均方差最小,分别为0.774 72、0.976 63、0.045 642。由此可以看出,SNV+SPA近红外光谱预处理方法可用于胡杨叶片水分含量的检测。1.6 建模方法
2 结果与分析
2.1 胡杨叶片水分含量
2.2 样品光谱及处理后光谱
2.3 SPA处理结果
2.4 预测模型建立
2.5 光谱建模精度及预处理分析
3 结论