赵健铭,杨长保,韩立国,朱梦瑶
吉林大学地球探测科学与技术学院,吉林 长春 130026
吸收特征的差异主要取决于矿物晶体物化属性的不同,即阴阳离子的化合价、阳离子的配位数目、主要阳离子的质量、键的共价程度、阴阳离子间的距离、晶体对称性的差异。VNIR和SWIR反射光谱中记录的吸收特征主要是由分子键的亚分子振动引起,以响应特定波长的吸收特征。矿物种类产生特征吸收,并对应于特定的分子键[3]。白云母化学式为KAl2(AlSi3O10)(OH)2是云母族矿物中分布最广泛的矿物之一, 对研究地质过程中温压环境变化、中低温热液蚀变及成矿流体的运移等具有重要的指示意义,由于Al—OH的影响,白云母矿物在2.2 μm附近具有明显的光谱吸收特征,使其成为白云母矿物遥感识别及其丰度定量反演的重要指标[4]。光谱吸收特征参数常被用于线性或非线性反演矿物丰度信息[5]。分析岩石光谱特征波段吸收特征与白云母含量之间的变化规律,为地物光谱特征分析提供理论基础,为建立具有普适性的地物定量反演模型提供理论依据。
Christian用二阶多项式拟合绘制了2.1和2.4 μm之间最深吸收特征的波长位置, 为表面矿物探索性分析提供了一种新方法[6]。Choe提出了一种简单的二次方法(SQM)来估计短波红外(SWIR)光谱区域中吸收特征的波长,结果表明由光谱吸收特征导出的参数在筛选和绘制重金属分布具有适用性。Jing认为最小Al—OH吸收特征波长位置2.209 μm,可作为矿体矢量化工具来识别蚀变矿物和定位矽卡岩矿床的热液中心[7]。Ruitenbeek计算最大吸收深度的波长位置,对火星表面进行矿物填图,为高光谱OMEFA影像探索性分析提供了适当的方法[8]。Hecker和Ruitenbeek等开发了一种实用工具,可以绘制最深吸收特征的波长位置,结合了最深吸收特征的位置和深度信息,给出了占主导地位的矿物的每像素概览图,被用于区分可见光至近红外区域具有电子吸收特征的矿物[9]。有报道研究了蒙皂石含量与膨胀土2.2,1.9及1.4 μm处吸收深度之间的关系, 吸收深度与岩石中矿物成分的含量具有定量关系。
为分析吸收特征与岩石光谱之间的关系,选用美国喷气推进实验室提供的8个岩石样本,光谱反射率由ASD Labspec5100光谱仪获得。光谱仪以3~6 nm的分辨率,采集范围为350~2 500 nm的反射光谱,实验数据可从喷气推进实验室下载(https://speclib.jpl.nasa.gov/)。
1.1.1 Savitzky-Golay滤波
将原始岩石反射率光谱数据重采样的光谱分辨率为5 nm,并进行基于局域多项式最小二乘法拟合的Smavitzky-Golay滤波处理,该滤波器的特点是在滤除噪声的同时可以确保信号的形状、宽度不变[10]。本研究对滤波后的反射率数据进行一阶微分处理, 得到岩石一阶导数光谱数据。
1.1.2 连续统去除
连续统去除最早由Clark等提出对光谱数据进行归一化处理,以增强光谱在特定波长位置处的吸收特征[11]。其定义为逐点直线连接随波长变化的吸收或反射凸出的峰点, 并使折线在峰值点上的外角大于180°。该方法使得经变换后的反射率值在0~1之间, 峰值点上的相对反射率均为1, 其他点相对反射率均小于1,这一变换可以突出显示光谱的吸收和反射。见式(1)
Scr=R/Rc
(1)
式(1)中,Scr为连续统去除光谱反射率,R为原始光谱反射率,Rc为连续统线反射率。通过滤波处理后,连续统去除法进行光谱归一化,利用Python语言编程计算岩石样本的光谱吸收特征参数。
主要的光谱吸收特征参数为:(1)吸收深度(D),即在某一波段吸收范围内,反射率最低点到归一化包络线的距离。见式(2)
D=1-Scr
(2)
式(2)中,D为吸收深度,Scr为连续统去除光谱反射率;吸收谷左右肩对应的波长为L1和L2;(2)吸收宽度(W),即最大吸收深度宽度一半处的光谱带宽;(3)吸收面积(A=A1+A2,其中A1和A2分别是吸收谷左/右部分的面积)。连续统去除法提取光谱吸收特征参数可有效降低背景的影响[12](如图1)。
图1 连续统去除白云母光谱图
1.2.1 统计模型
统计模型是根据因变量与自变量的实际观测值,建立因变量与自变量的线性或非线性回归方程,检验、分析自变量对因变量影响的显著性,用所求的关系式进行预测。统计模型对事件的规律做推断,具有探寻客观事物内部规律复杂性的优点。本研究所采用的统计模型为一元线性、对数曲线、逆函数、二次曲线、三次曲线、复合函数、指数函数、幂函数、S函数、增长函数、Logistic模型。
1.2.2 偏最小二乘模型
偏最小二乘回归(partial least squares regression,PLSR)是一种新型的多变量回归分析方法,可以实现回归建模、简化数据结构和分析两组变量间的相关性,给多元数据统计分析带来极大便利。建立PLSR模型分析光谱吸收特征参数来反演白云母含量。该方法具有良好的鲁棒性。采用Python语言调用scikit-learn1.0.2对数据进行处理。见式(3)
(3)
式(3)中,X是一个n×m的预测矩阵,Y是一个n×p的相应矩阵;T和U是n×l的矩阵,分别为X和Y的投影;P和Q分别m×l和p×l的正交载荷矩阵,矩阵T和F是误差项,假设是独立同分布的随机正态变量,对X和Y分解来最大化T和U之间的协方差。
1.2.3 多层感知器模型
多层感知器(multilayer perceptron,MLP)是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出数据集上。感知器是一个简单的神经元模型,是大型神经网络的前身,多层感知的基本结构由三层组成:输入层,中间隐藏层和最后输出层,输入元素和权重的乘积被馈给具有神经元偏差的求和结点, 主要优势在于其快速解决复杂问题的能力。本研究采用scikit-learn1.0.2对数据进行处理,参数设置均为默认值。
研究所用样本数据包括其各类矿物的百分含量、及其岩石光谱。从光谱库中选取8个含有白云母矿物的岩石光谱相关数据(如表1所示),为提高研究的准确性与降低冗余误差,选用岩石光谱范围为2.1~2.5 μm进行分析,并提取样本的光谱特征参数(吸收深度、吸收宽度、吸收面积)。
表1 在2.2 μm附近吸收深度与白云母矿物含量
模型以吸收深度、吸收宽度、吸收面积为因变量,白云母含量为自变量,多元逐步回归分析各参量之间的相关关系。首先分析白云母含量与光谱吸收参数的相关性,如表2所示,吸收深度与白云母含量关系最为密切。采用统计模型对吸收深度进行回归分析反演白云母含量。此外,根据偏最小二乘法和多层感知器对多个光谱吸收特征进行建模分析,通过多维数据综合信息探究矿物含量与岩石光谱的关系。
表2 白云母含量与光谱吸收参数的相关性
采用决定系数(determination coefficients,R2)和均方根误差(root mean squared error,RMSE)对模型进行评价。R2表示回归方程各样本拟合的程度,R2越大说明拟合的相关程度越高,越接近于1,说明模型的稳定性越好;RMSE衡量模型预测结果,数值越小模型预测能力越好。
结果表明,基于单一吸收特征的统计模型中二次曲线模型对吸收深度拟合的效果最佳,R2为0.935 0,RMSE为0.063 0,岩石光谱的吸收深度随白云母丰度满足二次曲线变化(如图2所示),说明白云母含量与岩石光谱吸收深度有着紧密的相关关系,岩石中白云母的含量越高,岩石光谱吸收深度值越大。在多维光谱吸收特征中,通过分析PLS模型和MLP模型真实值与预测值的分布,PLS中数值分布在参考线两侧,没有明显的偏差,而MLP有些许偏差[如图3(a,b)所示],PLS模型相较于MLP模型拟合的效果更佳,其R2为0.947 7高于MLP的0.901 2,RMSE为0.002 7低于MLP的0.005 1,说明PLS模型的稳定性与预测能力优于MLP模型。
图3 PLS(a)和MLP(b)回归预测图
表3 统计模型和精度
图2 统计模型拟合图
岩石的矿物组成对岩石光谱有很大的影响,特别是具有特征吸收谱带的矿物。以白云母矿物为研究对象,分析岩石在2.2 μm附近光谱吸收特征及其白云母含量,以Savitzky-Golay平滑滤波和连续统去除法处理,基于单一与多维度吸收特征建立模型,分析不同模型的稳定性与含量预测能力。通过分析得出结论:
(1)在光谱特征提取前,Savitzky-Golay平滑滤波和连续统去除法,既有效地保留样本的准确性与形态特征,又有效地消除噪声影响,提高光谱特征的提取精度。经相关性分析,光谱吸收特征中吸收深度(D)相较于吸收宽度(W)、吸收面积(A)与岩石中白云母含量相关性最高;
(2)单一光谱特征进行统计分析,以吸收深度为自变量,二次曲线模型稳定性与预测能力最高,白云母含量与吸收深度呈二次曲线增长;
(3)多个光谱特征参数(吸收深度、吸收宽度、吸收面积)为自变量,分别建立偏最小二乘模型和多层感知器模型,PLS模型的稳定性与预测能力优于MLP模型;整体比较,多维模型优于单一变量模型,PLS模型反演能力最佳,反演精度最高,体现了多维数据的优势。矿物光谱遥感识别依赖光谱吸收特征,若从遥感图像上获得光谱吸收特征信息,则大大加速对遥感矿物识别与填图。