吕美蓉,任国兴,2,李雪莹,范萍萍,孙中梁,侯广利,刘 岩*
1. 齐鲁工业大学(山东省科学院)海洋仪器仪表研究所,山东省海洋监测仪器装备技术重点实验室,国家海洋监测设备工程技术研究中心,山东 青岛 266100 2. 中国海洋大学信息科学与工程学院,山东 青岛 266100
可见-近红外光谱速测是利用物质在近红外光谱区内的光学特性快速反演物质组成和化学成分含量的一种方法。 当前国内外已开展了不少的沉积物/土壤碳光谱速测技术研究。 Alaoui等采用偏最小二乘法(PLS)建立沉积物光谱原数据和碳含量的对应关系模型,可以较好的反演沉积物碳含量[1]。 章海亮等采用遗传算法结合连续投影算法提取特征波长,应用偏最小二乘回归方法建立土壤有机质模型,预测R2为0.83[2]。 申艳等采用多元散射校正和多元线性回归法建立了土壤有机碳光谱模型,预测值与实测值的相关系数为0.82[3]。
潮间带是海陆相互作用的一个重要界面,沉积物中的碳含量是海洋污染程度的标志之一[4]。 尽管采用可见-近红外光谱快速预测土壤/湖泊沉积物TOC含量已成为热点,但未见使用可见-近红外光谱预测潮间带沉积物TOC含量。 潮间带沉积物和湖泊沉积物在粒度、有机碳含量、盐含量等方面都存在很大差异,这些都会对预测模型产生很大的影响。 此外,在建模方面,以往多采用PLS、多元线性回归等方法,存在自相关、过适应性等问题。 最小二乘支持向量机(LSSVM)是基于结构风险最小化原理和学习理论的一种方法,通过不断优化调整,找到最优函数。 BP神经网络(BPNN)是一种多层前馈神经网络,根据预测误差调整网络权值和阈值,使BPNN预测输出不断逼近期望输出。 从原理上看,LSSVM和BPNN都可以保证在在测试中能够达到非常高的精度,但是,这两种方法在TOC预测上应用相对较少。
为此,对潮间带海洋沉积物样品进行光谱测量,采用马氏距离、标准杠杆值+学生残差联合分析的方法剔除异常样本,用平滑+微分、多元散射校正(MSC)进行光谱预处理、遗传算法(GA)提取特征波长、KS方法进行样本分类,采用PLS、LSSVM和BPNN对沉积物TOC进行建模和预测,以期找到适合的光谱变换方法和特征波长,优化光谱模型,实现潮间带沉积物有机碳的快速、定量检测。
于青岛海洋潮间带采集了197份沉积物样品,采样深度为0~10 cm。 每个采样点之间至少间隔10 m。 潮间带沉积物主要由黏土和粉砂组成。 将采集的样品自然风干,研磨、过60目筛,混匀,分成两份,分别用于光谱采集和化学分析。
沉积物碳含量采用重铬酸钾氧化法测定,以此作为光谱建模的标准值。 光谱反射率测定采用海洋光学QE65000光谱仪,光谱采样间隔为1 nm,积分时间600 ms,谱区范围200~1 100 nm。 取3~5 g沉积物样品放在自制样品盒中,轻轻刮平,用45°视场角光纤探头采集光谱。 每个土壤样品采集5次光谱反射率,取平均值。 为减少噪声影响,剔除信噪比较低的边缘波段,保留230~970 nm的光谱数据。
1.3.1 光谱预处理
采用马氏距离、标准杠杆值和学生残差联合分析的方法剔除异常样本。 分别用多元散射校正(MSC)、平滑+一阶微分对沉积物光谱进行变换。 采用遗传算法(GA)进行特征波长提取。
1.3.2 模型建立
采用KS方法对197个沉积物样品进行分类。 采用偏最小二乘算法(PLS)、最小二乘支持向量机法(LSSVM)和BP神经网络法(BPNN)进行建模。 偏最小二乘回归算法是将相关分析、多元线性回归和主成分的优点集合在一起,在计算过程中同时考虑自变量(光谱数据)和因变量矩阵(化学参考值)对建模效果的影响,能够较好地处理数据多重共线性、因子结果不确定性和数据非正态分布等问题[5]。 最小二乘支持向量机是通过非线性映射函数建立回归模型,将输入变量映射到高维特征空间; 然后将优化问题改成等式约束条件[6]。 BP神经网络法是是一种按误差逆传播算法训练的多层前馈网络,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小[7]。
1.3.3 模型检验
模型检验采用决定系数(R2)和剩余估计偏差(RPD)为评价参数。 当R2>0.90表示预测结果出色,0.81 从图1中可以看出,光谱曲线在230~600 nm范围内呈快速上升态势,然后在600~970 nm范围内趋于平缓,与王哲等报道的湖泊沉积物的反射光谱在650~700 nm波段有明显的波谷[8]显然是不同的。 一般认为,有机碳含量与光谱反射率成负相关,有机碳含量越高,光谱反射率越低。 此外,基线漂移也是影响光谱曲线的一个重要因素,图中上部和下部的光谱出现了明显的分离,也有可能是沉积物样品颗粒大小差异等造成了光谱基线漂移。 图1 潮间带沉积物反射光谱 采用马氏距离、标准杠杆值和学生残差联合分析方法辨别异常值,剔除了8个异常样本。 基于剔除异常样本后的光谱数据,采用PLS,LSSVM和BPNN方法建模,结果发现(表1),剔除异常样本对PLS和LSSVM模型精度影响较小,但能够增加BPNN模型精度,检验R2从0.57增加到0.73,RPD从1.39增加到1.93,即,剔除异常样本很好的提升了BPNN模型精度。 在剔除异常样本的基础上,采用MSC和平滑+微分方法进行光谱变换,然后对比光谱变换后的模型精度(表2)。 结果发现,MSC增加了模型精度,PLS模型的预测R2从0.74上升到0.81,RPD从1.93上升到2.25; LSSVM模型的预测R2从0.74上升到0.86,RPD从1.92上升到2.59。 而平滑+微分预处理对模型精度影响较小。 光谱变换是提升模型精度的重要手段[9]。 因此,选择适当的方法进行潮间带沉积物光谱变换很重要。 表1 异常样本剔除对模型精度的影响 表2 光谱变换对模型精度的影响 在剔除异常样本和MSC光谱变换的基础上,采用GA方法进行特征波长提取,并基于该特征波长进行建模。 结果发现(表3),GA降低了模型精度,尤其是BPNN模型精度。 基于全波长的BPNN模型可以很好地定量预测潮间带沉积物TOC含量(R2=0.86,RPD=2.59),而基于GA特征波长的BPNN模型仅能对沉积物TOC进行粗略估测。 这些暗示着GA可能不是潮间带沉积物有机碳特征波长的有效提取方法,这可能是由于GA提取的特征波长数量少(表4),所包含的有用信息少,不能很好地表征有机碳含量。 表3 特征波长提取对模型精度的影响 表4 提取的潮间带沉积物碳特征波长 在剔除异常样本和MSC预处理的基础上,采用PLS,LSSVM和BPNN方法进行建模。 结果表明(表5),LSSVM模型具有高的建模集决定系数(R2=0.99)、检验集决定系数(R2=0.86)和剩余估计偏差(RPD=2.59),指示着LSSVM模型是预测潮间带沉积物TOC含量的优势模型。 PLS模型效果次之,PLS模型的建模集R2为0.98、检验集R2为0.81、RPD为2.25,这些指示着线性模型也具有较好的定量预测能力。 而BPNN模型的建模效果和预测能力最差,建模集R2、检验集R2以及RPD分别为0.90,0.78和2.07,这可能是在训练过程中出现了过拟合现象。 表5 PLS,LSSVM和BPNN模型精度评价 我们的研究结果表明,MSC光谱变换提升了预测模型精度,这可能是MSC降低了光谱变量之间的信息冗余,突出光谱与TOC含量之间的关联。 崔霞等认为微分能较好地消除母质等潜在因素对光谱的影响,使一些原本被遮蔽的TOC光谱特征显现出来[10]。 但我们的结果表明,平滑+微分对模型精度影响不大,暗示着该方法不适合海岸带沉积物光谱变换,这可能是微分处理在消除基线和其他背景干扰的同时扩大了噪声的作用[11]。 筛选特征波长可去除不相关的光谱信息,简化模型,提高预测精度与稳定性[12]。 我们采用GA算法提取特征波长,共提取了22个特征波长,分布于692~970 nm之间(数据未列出)。 这与纪文君等认为的有机碳含量敏感波段(600~800 nm)[13]仅部分重叠,这可能是研究对象不同所造成的,研究对象的成分组成、物理结构、颜色等都会影响到反射光谱。 但是,我们基于该特征波长建模,发现模型精度不增反降。 推测可能的原因是: (1)沉积物成分复杂,可能会掩盖部分TOC光谱信息,导致这部分有用的光谱波段在特征波长提取过程被滤掉。 (2)沉积物中TOC成分复杂,难以仅用某些特征波长的光谱信息来表征。 (3)GA可能对反馈信息利用不充分,当求解到一定范围时,做了大量冗余迭代[14]。 PLS是目前比较常用的一种线性光谱模型建立方法。 卢延年等认为PLS保证了主成分与TOC相关,是全谱在TOC方向上的投影,能够很好的解决光谱之间的多重共线性问题[15]。 我们的研究显示,PLS能够很好的预测潮间带沉积物TOC含量,即预测R2为0.81; PRD为2.25。 但是,LSSVM更有优势,这暗示着非线性模型更适合海岸带沉积物TOC预测。 这可能是因为沉积物有机碳组成复杂,且受到外在环境的干扰,与光谱反射率之间呈非线性关系。 此外,LSSVM泛化能力强,有助于精确预测TOC含量。 而BPNN效果最差,可能是神经网络容易陷入局部极小点。 光谱定量快速监测潮间带沉积物碳含量具有重要的意义。 光谱测量结果表明,潮间带沉积物成分含量与湖泊沉积物不同,因而预测TOC含量的模型也有所差异。 采用剔除异常样本+MSC光谱变换+LSSVM建模,建模集R2达到0.99,检验集R2为0.86,RPD为2.59; 该方法可以很好的预测潮间带沉积物碳含量。2 结果与讨论
2.1 潮间带沉积物光谱特征
2.2 异常样本剔除
2.3 光谱数据变换
2.4 特征波长提取
2.5 建模
3 结 论