姜 鸿,唐荣年,叶林蔚
(海南大学 机电工程学院,海南 海口 570228)
橡胶广泛应用于日常生活中,为提高橡胶产量,须及时定量估算橡胶树在生长过程中氮元素的含量[1].近红外光谱(Near-infrared ,NIR)技术因其具有快速、无损等特性,广泛应用于物质质量的检测[2-3].
近红外全光谱数据携带大量冗余信息,从众多波长中提取特征波长并建立高精度预测模型是重要的研究方向.例如,723 nm处的一阶导数反射率被用来建立苹果叶片氮素含量的估计模型[4].Huang[5]等的实验结果表明,在550 nm和670 nm时,氮素含量水平对甜椒叶片的反射率影响最大.这些实验虽然有效地提取了极少量特征波长,但同时也丢失了大量相关信息.
为选取合适的特征波长进行建模,许多单一波长选择方法和波长间隔选择方法被用来简化多元校正模型.单波长选择方法如遗传算法(Genetic Algorithm,GA)[6]、连续投影算法(Successive Projections Algorithm,SPA)[7]和竞争自适应重加权采样(Competitive Adaptive Reweighted Sampling,CARS)[8]虽然去除了冗余数据,但同时也丢失了连续波长段所携带的信息.波长间隔选择方法如后向间隔偏最小二乘法(interval Partial Least Squares, iPLS)[9]和间隔随机蛙算法(interval Random Frog, iRF)[10]虽然保留了波长段的特征信息,但是并没有充分考虑到光谱的不同特征波段携带着较大差别的的信息量.以上提取波长的方法一定程度上减少了算法负担,但仍不能较好地解决共线性带来的困扰.由粗放到细致的多分辨率提取特征提取方法就能很好地解决此问题[11].
Chen[12]等通过分数阶微分处理提升原始光谱的表达能力.Tang[13]等提出了CB-SPA虽然成功地提取特征波长并建立模型以估计橡胶树的氮素含量,但仅仅是简单地应用算法进行波长挑选,没有考虑到光谱的波长段特征信息.
因此,笔者提出了一种基于自适应间隔随机竞争自适应重加权采样(AIRF-CARS)波长选择方法,由AIRF对全光谱进行粗选,再由CARS对光谱波长段进行细选,最后由偏最小二乘回归法(Partial Least Squares Regression,PLSR)建立橡胶树氮素光谱诊断模型,进一步压缩冗余信息,改善特征波波段的运算速度,为便携式田间多波段光谱仪的研发提供理论支撑.
1.1 试验数据采集本文选取的147个橡胶树叶片样本,采集自中国热带农业科学院位于海南省儋州市的试验基地,品种为RY-7-33-97.通过美国ASD公司生产的便携式光谱仪FieldSpec3采集橡胶叶片样品的近红外光谱数据,波长范围为926~1 678 nm(230个光谱点),光谱采样间隔为3.25 nm.为了避免测量叶脉,在叶肉部分的上、中、下3个区域分别扫描6次,并将所得的36条光谱曲线的平均值作为最终的光谱曲线.
为了得到叶片氮含量真实值,将杀青橡胶树叶片,去除主静脉后压碎,用浓硫酸煮沸,最后待冷却后用凯氏定氮法测定液体中氮的含量,每片叶子重复2次取平均值,测定了147片叶片的氮含量.
在本实验中,147个叶片样本被分为训练集和测试集,具体情况如表1所示.
表1 样本氮含量统计
1.2 分析方法本文算法的核心思路是“由粗到细”的多分辨率分析,即先在较大的范围内粗略的对特征进行提取,然后再在较小的波段区间内进一步提取特征.提出了自适应间隔随机蛙算法进行特征的第一步提取,然后利用竞争自适应重加权抽样算法进行特征的第二步提取,最后利用偏最小二乘回归法(PLSR)建模,所提方法的总体框架如图1所示.
图1 总体框架
本文所提自适应间隔随机蛙算法的过程:
Output: 光谱波段选择β;
Step1初始化光谱波段位置Q0,并根据平均光谱曲线一阶微分确定区间间隔大小δ0;
Step2按照正态分布概率计算新的波段位置Qi,并计算对应的区间间隔大小δi;
Step3采用PLS回归模型,分别计算[Q0,Q0+δ0]与[Qi,Qi+δi]区间的RMSEC值;
Step4ifRMSEC0 Step5k=k-1,i=i+1; Step6跳转回Step2,直到k=0; Step7计算每个波段的概率pi=ki/k,并对其由大到小排序; Step8将概率值前M大的波段设为β. 将对所提算法进行结果分析,主要包含基于光谱曲线导数的自适应区间间隔参数分析、AIRF进行粗选结果分析、CARS细选结果分析以及算法评估. 2.1 AIRF算法中自适应区间间隔参数分析以训练集中的110片橡胶叶片作为对象,画出其平均光谱曲线,如图2所示.对110条光谱曲线再进行平均,并对总平均光谱曲线求其导数.导数越小光谱曲线越陡,包含的信息就越丰富.由于不同的小组,曲线变化情况不一致,因此需在不同的小组中设置不同的间隔大小,提升随机蛙算法的效率.如图3所示,本数据集根据总平均光谱曲线导数的变化情况,选择波长942、1 358、1 475和1 638 nm处将总的光谱波长分为5小组.针对5个小组,使用5个不同的区间间隔大小δi.文中间隔分别为δi=[10,5,20,10,15]. 2.2 AIRF粗选结果分析令初始化光谱波段位置Q0=50,迭代次数k=1 000,采用AIRF算法从本数据集中的230个光谱点进行粗选.根据AIRF算法计算出来每个波段点的概率值,选取了排名前3的3个区间,分别为1 157~1 205 nm ,1 349~1 495 nm,1 527~1 605 nm波段,共87个波段点,如表2所示. 表2 氮数据集的前3个区间(数据集中的位置) 表3 AIRF-CARS选择的波长 将表3展示的3个区间合并,并采用PLS模型进行氮含量预测,其结果的PLS建模结果为Rp=0.974 9,RMSEP=0.151 8 %,R2=0.949 9.而全光谱波段PLS的建模结果为Rp=0.925 7,RMSEP=0.260 3 %,R2=0.852 7.通过与全谱建模比较,可以看出AIRF选择的波长间隔建立的模型效果更佳.因为在使用全光谱建模时,不可避免地会包含大量与氮无关的信息变量,而通过AIRF可以剔除这些无关信息,导致氮模型的预测精度提升.此外,AIRF考虑谱的连续性和所有可能的连续谱区间.图4展示了AIRF在橡胶叶子数据集上选择的区间,和表2结果相对应. 2.3 CARS细选结果分析由于AIRF挑选出来的波长点还存在数据冗余,利用CARS最佳间隔进一步提取特征波长,并通过10折交叉验证的方式来确定CARS算法的最优参数,最终选择22个变量作为预测氮含量的关键变量,其所选波段点分布如图5所示. 图5为CARS算法在AIRF粗选的基础上细选择出来的22个波段点,模型自变量由87个变量减少到22个有效变量.在1 300~2 500 nm的近红外波段,由于绿色植物含水量的影响,吸收率增加,反射率降低.特别是在1 450 nm处,形成了水的吸收带.可以看出,氮含量与水分含量之间存在很强的关系. 2.4 算法评估为了评估本文所提方法,不仅将CARS细选的PLS建模结果与AIRF粗选、全波段的PLS建模结果进行对比,还采用相同样本数据对所提算法与经典识别算法进行了对比,其中:方法一:SPA +PLS;方法二:CARS+PLS;方法三:iRF-SPA+PLS.上述方法与本文方法区别仅在于波段选择方法不一.对比结果如表4所示. 表4 不同波长选择方法对氮数据集的结果 AIRF-CARS模型的结果分别为0.980 6、0.136 4%和0.959 6,高于其他波段选择方法的结果.采用利用AIRF从全光谱数据中选取最优波长区间作为粗挑选,然后利用CARS从共线性最小的最优波长区间中选取特征波长作为精挑选.在光谱波长选择方面,AIRF-CARS方法在3个方面具有明显优势:1)AIRF方法考虑所有可能的光谱区间,根据PLS模型的绝对回归系数对所有区间进行排序,选择更有信息性的区间;2)进一步利用CARS法得到波长,回归系数较大,避免了过拟合;3)提高了建模效率,使得变量与氮素的关联更加紧密.这说明,AIRF-CARS可以挑选出有效的波长改善橡胶树叶片氮含量的预测精度. 提出了一种基于近红外光谱技术的橡胶树叶片氮含量测定方法. 经AIRF-CARS将原始光谱数据从230点减少到22点,使用的数据量仅占总光谱的9.6%.模型的RMSEP为0.136 4%,Rp为0.980 6,R2为0.959 6.与其他模型相比,该方法能较好地表达橡胶树叶片含氮量与近红外数据的关系,在橡胶树叶片含氮量估算实验中得到了较好的应用.2 结果与分析
3 小 结