李雪莹, 李宗民, 侯广利, 邱慧敏, 吕红敏, 陈光源, 范萍萍*
1. 中国石油大学(华东)地球科学与技术学院, 山东 青岛 266580 2. 中国石油大学(华东)计算机科学与技术学院, 山东 青岛 266580 3. 齐鲁工业大学(山东省科学院), 山东省科学院海洋仪器仪表研究所, 山东 青岛 266061 4. 山东科技大学海洋科学与工程学院, 山东 青岛 266590
海洋沉积物是大气圈、 水圈、 生物圈和岩石圈相互作用的介质和载体, 记录了海陆变迁、 沉积环境变化等过程的详细信息[1]。 海洋系统中碳的含量非常丰富, 经过一系列的碳循环, 碳信息最终记录在沉积物中。 海洋沉积物中碳的变化是衔接海洋生态系统的过去与未来的信息桥梁, 揭示了海洋生态过程变化规律[2]。 因此开展海洋沉积物碳含量的研究, 对掌握海洋生态系统碳循环规律, 研究全球碳循环, 研究对气候变化的响应和反馈有着重要的作用。
传统的测试方法费时、 费力。 目前碳含量分析可以使用元素分析仪测定, 但仍需烘干、 粉碎等前处理。 光谱技术是一种快速、 无损的测量方法, 已经应用于业、 化工、 食品等多个领域[3-4]。 在土壤养分含量分析中, 也取得了一定的成果[5-6]。 可见-近红外光谱包含大量的物质信息, 主要反映了样品的O—H, C—H等官能团的种类和数量。 通过算法和分析获得样品特征光谱信息并解译, 测定其含量。 目前沉积物碳含量检测的研究多为针对湖泊沉积物, 而对海洋沉积物碳含量的研究较少, 海洋沉积物的成分更为复杂, 在分析上更有难度, Jacq等利用短波红外高光谱影像建立法国布尔吉湖岩芯沉积物样本碳偏最小二乘回归模型, 预测相关系数r为0.95[7]。
以青岛鳌山湾海洋潮间161份沉积物为样品, 分别采用海洋光学QE65000光谱仪和AVANTES光纤光谱仪AvaSpec-ULS2048采集沉积物可见-近红外光谱。 将两种光谱仪测得的光谱进行多光谱融合, 分别采用偏最小二乘回归和BP神经网络建立沉积物碳含量模型。 多光谱融合通过将多个光谱数据结合一起, 获得比单一光谱更丰富的信息, 有利于对物质进行分析。 将多光谱融合模型预测结果与单一光谱沉积物碳含量预测结果进行对比分析。 对多光谱融合后的光谱进行特征波长筛选, 寻找沉积物碳的特征波段, 建立准确度更高的沉积物碳模型, 实现对沉积物碳的快速测定。
采样地点为青岛鳌山湾海洋潮间带两个地点的沉积物样品S1和S2, 共计161个沉积物样品。 采样深度为0~10 cm,每个采样点间隔10 m。 潮间带沉积物组成以黏土和粉砂为主。 将采集的样品风干研磨后, 过60目筛, 分成两部分, 分别用于碳含量分析和光谱采集。 沉积物碳含量采用重铬酸钾氧化法测定, S1和S2的碳含量见表1。
表1 沉积物碳(g·kg-1)含量统计表Table 1 The statistical results of carbon (g·kg-1)content in soil samples
沉积物光谱1采用海洋光学QE65000光谱仪搭配DH-2000-BAL型光谱采集样品的反射光谱, 光谱采样间隔为1 nm, 积分时间600 ms, 谱区范围200~1 000 nm。 光谱仪和光源通过Y型光纤连接, Y型光纤探头依靠支架固定, 将样品放在自制样品盒中, 探测样品的反射光谱。 每个样品测定5次光谱反射率, 取平均值作为这个样品的反射光谱。 由于光谱的前段和后端受噪声影响, 因此沉积物光谱1反射取220~980 nm, 如图1(a)所示。
沉积物光谱2采用AVANTES光纤光谱仪AvaSpec-ULS2048, 谱曲范围160~1 100 nm, 采用同样的方法测得光谱能量值, 见图1(b)。
图1 沉积物光谱1和沉积物光谱2Fig.1 The spectra 1 and spectra 2 of sediment samples
多光谱图像融合是将在空间上存在冗余或互补的图像数据, 按照一定的规则进行处理, 从而得到比单一图像更准确的信息[8]。 多光谱融合通过将多个光谱数据结合一起, 获得比单一光谱更丰富的信息, 有利于对物质进行分析。 两种光谱仪的波段均为200~1 000 nm, 但包含的具体信息有所差异。 将这两个光谱仪的光谱数据融合处理, 获取更多更全的光谱信息, 能够更加完整的表征样品的信息。
由于光谱仪1获取的是光谱反射率, 而光谱仪2获取的是光谱能量值, 因此先将两个光谱仪的光谱数据归一化处理, 然后再将光谱仪1和光谱仪2的光谱混合在一起, 得到多光谱融合光谱。 融合光谱具备光谱仪1和光谱仪2的所有光谱值, 主要集中在220~980 nm。 因此, 多融合光谱包括了更多的光谱信息。
偏最小二乘回归(PLSR)是将相关分析、 多元线性回归和主成分的优点集合在一起, 在计算过程中同时考虑自变量(光谱数据)和因变量矩阵(化学参考值)对建模效果的影响,能够较好地处理数据多重共线性、 因子结果不确定性和数据非正态分布等问题[9]。 通过降维运算得到潜在变量, 达到消除无用信息的目的。 在已知光谱数据和化学值数据的基础上, 通过偏最小二乘回归建立相关模型, 实现对未知样品的预测。 该方法是目前最常用的化学计量学建模方法之一。
BP神经网络(BPNN)是一种基于误差反向传播算法的多层前向神经网络, 通过反向传播不断调整网络的权值和阈值,使网络的误差平方和最小[10]。 反向传播神经网络运行过程分为两个部分: 一是正向计算过程, 从样本中选取信息, 从输入层通过隐含层计算出各单元的输出值; 二是误差反向过程, 误差由输出层计算, 隐含层各元素的误差逐层计算, 并修改前一层的权重值。
采用顺序分类划分建模集和检验集, 以PLSR建立光谱仪1、 光谱仪2、 多光谱融合的海洋沉积物碳含量光谱模型, 模型评价结果见表2。
表2 海洋沉积物碳含量光谱模型评价结果-PLSRTable 2 Model evaluation of carbon contentdetection in marine sediments-PLSR
同样采用顺序分类划分建模集和检验集, 以BPNN分别建立光谱仪1、 光谱仪2、 多光谱融合的海洋沉积物碳含量光谱模型, 模型评价结果见表3。
表3 海洋沉积物碳含量光谱模型评价结果-BPNNTable 3 Model evaluation of carbon contentdetection in marine sediments-BPNN
由表3可知, 采用BPNN建立碳含量模型的建模集的评价结果与PLSR建模结果一致, 依次为光谱仪1、 多融合光谱、 光谱仪2。 而检验集的评价结果有所差异, 评价效果最好的为多融合光谱,R2和RPD值均略高于光谱仪1的值, 分别为0.814和2.235, 可用于沉积物碳含量的定量分析。
采用PLSR建模来寻找沉积物碳的特征波段。 多融合光谱的波段范围取180~1 100 nm, 每间隔100 nm作为一个光谱波段, 以PLSR建立各光谱波段沉积物碳模型评价结果见表4。
表4 海洋沉积物各光谱波段碳含量光谱模型评价结果Table 4 Model evaluation of carbon content detections inmarine sediments for various spectral bands
表5 海洋沉积物碳含量光谱模型评价结果(530~780 nm到630~780 nm)
图2(a) 多光谱融合560~790 nm拟合结果-PLSRFig.2(a) Fitting results of multispectral fusion in 560~790 nm range-PLSR
图2(b) 多光谱融合560~790 nm拟合结果-BPNNFig.2(b) Fitting results of multispectral fusion in 560~790 nm range-BPNN
表6 海洋沉积物碳含量光谱模型评价结果(560~730 nm到660~830 nm)
在光谱仪1、 光谱仪2、 多光谱融合全波段建立模型中, BPNN的模型效果均优于PLSR结果。 由于BPNN是一种非线性的学习机制, 数据越多, 学习能力越强, 建立的模型越好; 而PLSR是一种线性的建模方法, 数据量越大, 出现的数据冗余会对模型结果又一定的影响。 在多融合光谱全波段BPNN模型中, 其结果优于两种单光谱仪, 多融合光谱数据量更大, 所含有信息更多, 更有利于BPNN学习和训练, 因此得到更好的预测结果。
在寻找海洋沉积物碳最优波段中, 通过尝试不同波段的评价结果, 获得了沉积物碳的特征波段, 在560~790 nm。 多融合光谱560~790 nm波段中包含了两种单光谱仪该波段的全部信息, 含有的光谱更加丰富, 能够表征更多的沉积物碳的信息。 采用多融合光谱特征波段建立的海洋沉积物碳模型结果优于各单光谱仪全波段和多融合光谱全波段的模型结果。 因此采用多融合光谱特征波段建立海洋沉积物碳含量模型, 能够提高海洋沉积物碳含量的预测结果。