王东升,王海龙, 2,张 芳, 3*,韩林芳, 3,李 运
1. 中国矿业大学(北京)力学与建筑工程学院,北京 100083 2. 河北省土木工程诊断、 改造与抗灾重点实验室,河北 张家口 075000 3. 中国矿业大学(北京)深部岩土力学与地下工程国家重点实验室,北京 100083
水的存在使岩石的强度特性发生了改变,含水量不同其影响程度也不相同。在边坡、 地下工程和文物保护领域中,许多灾变和病害都是由水导致岩石强度减弱而诱发的[1-2]。因此,岩石中含水量的测定对于评估岩石的物理力学特性以及工程结构的稳定性具有重要的意义。
传统的岩石含水量测定方法需要现场原位取样,破坏了工程结构的完整性,尤其是在文物保护领域。近红外光谱分析技术(near infrared spectroscopy, NIRS)测定岩石中的含水量是近些年研究的新思路,通过测定含水岩石中OH基团的光谱吸收强度,建立含水量与近红外光谱特征之间的相关关系,从而实现含水量测定的目的,与传统方法相比具有实时、 无损的优点[3]。本文基于近红外光谱分析技术对砂岩的光谱特征以及其含水量反演的可行性进行了研究。首先,通过室内试验获取砂岩试样不同饱和度的近红外光谱曲线;其次,基于最大信息系数(maximal information coefficient, MIC)对试样的近红外光谱特征进行了分析和筛选;最后,采用搭建的BP神经网分类器对岩石的含水量进行了反演。
砂岩试样取自中国陕西省榆林市神木县柠条塔煤矿,经加工后制作成标准试样,试样及监测点位置见图1。数据采集系统采用瑞士万通的XDS Smart Probe近红外光谱分析仪,见图2。该仪器采集光谱范围为400~2 500 nm,数据采样间隔为0.5 nm,采用漫反射方式采集砂岩试样的光谱信号。试验中砂岩试样不同饱和度的近红外光谱曲线采集步骤如下[4]:
(1)将砂岩试样放入干燥箱中干燥24 h,待冷却至室温后取出并称重,测量饱和度为0%的近红外光谱曲线;
(2)将砂岩试样放入恒温水箱中煮沸8 h,待冷却至室温后取出擦去表面自由水分,测量饱和度为100%的近红外光谱曲线;
(3)将饱和度为100%的砂岩试样放到天平上进行蒸发试验,观察含水量的变化,当达到理论计算饱和度时(99%, 98%, 97%, …, 1%),放入密封袋中待其内部含水分布均匀后测量其近红外光谱曲线;
(4)重复步骤(3)即可采集到砂岩不同饱和度的近红外光谱曲线。
试验过程中为了保证采集到的近红外光谱曲线能够较准确的包含砂岩含水饱和度的信息,测点选取位置为试样中部并将光纤探头垂直接触试样表面。每块试样采集的饱和度位于0~100%之间,整个试验共采集到120条近红外光谱曲线。
近红外光谱仪在采集光谱数据的时候受机器、 试样以及外界的干扰会存在各种噪声,比如高频随机噪声、 基线漂移和光散射等[5-6]。因此,想要通过近红外光谱曲线特征准确的分析试样的物质成分,光谱的预处理显得格外重要。首先,利用马氏距离法剔除试验中采集到的异常光谱曲线[7];
图1 岩样及其测试点位置(红点)Fig.1 Rock sample and its test point location (red dot)
图2 XDS Smart Probe近红外光谱分析仪Fig.2 XDS Smart Probe near infrared spectrum analyzer
其次,对剔除后剩余的光谱曲线进行一阶导数预处理,消除仪器背景或漂移对信号的影响,提高光谱信号的分辨率和灵敏度[8-9]。图3(a)是砂岩的原始近红外光谱曲线,图3(b)是一阶导数预处理后的近红外光谱曲线,受篇幅的影响只展示了部分原始和一阶导数预处理后的近红外光谱曲线。
图3 不同饱和度砂岩近红外光谱 (a):原始光谱;(b):一阶导数预处理后光谱Fig.3 Near-infrared spectra of sandstone with different degrees of saturation (a):Original spectra;(b):First derivative pre-processed spectra
含水砂岩在400~2 500 nm波长范围内最主要有2个明显的吸收峰,1 400 nm处OH和·nH2O的倍频、 合频,以及1 900 nm处H2O的振动谱带,依次将这2个吸收峰命名为R1和R2。结晶水吸收峰位于1 400 nm附近,谱带比较宽缓;吸附水的吸收峰位于1 900 nm附近,谱带比较尖锐。在砂岩的原始光谱曲线中,两个吸收峰R1和R2随着含水量的增加,整体吸收强度也在增加,具有明显的正相关性;砂岩饱和度在30%~40%附近原始光谱曲线发生了整体跳跃,其可能是砂岩内部水的赋存状态发生了改变。
原始光谱曲线经过一阶导数去燥处理后提取其光谱初始特征,其初始特征变量提取见图4,分别为:峰高(height)、 峰面积(area)、 左肩宽(left half width)、 右肩宽(right half width)、 半高宽(full width at half maxium),共计5个初始特征参数,分别用首字母H,A,L,R和F表示。各个初始特征变量之间存在量纲和阈值的差异,可能导致在后续的分析计算过程中,一些数量级较小的特征变量所占的权重较小其作用无法体现。因此,对提取的初始特征参数进行归一化处理,消除量纲和域值差异带来的影响。归一化的方法是将原始数据各元素值减去数据集的最小值后再除以该数据集的极差,见式(1)
(1)
受篇幅的限制,只展示了部分饱和度砂岩试样的归一化结果,见表1。
图4 近红外光谱特征变量的示意图Fig.4 Schematic diagram of characteristic variablesof near infrared spectrum
模式识别系统中相关性弱的特征会影响分类的准确性,因而特征选择就显得尤为重要。特征选择是从系统中挑选出一些相关性强的特征并降低特征空间维数的过程,其选择结果的好坏将直接影响着模式识别中分类器的分类精度和泛化性能[10-11]。利用MIC进行光谱特征分析和筛选,其具体计算过程如式(2)和式(3)
Imax(C,f,xi,yi)=maxI((C,f)|Gxi, yi(j)),
j=1, 2, …,n
(2)
(3)
首先,计算最大信息值Imax,见式(2),然后,计算最大信息系数,见式(3)。xi为行数,yi为列数,xi,yi
表1 归一化后特征变量Table 1 Normalized characteristic variable
表2 饱和度与光谱特征的MIC值
根据表2所计算的MIC值可知,R1峰(1400 nm)中饱和度与特征变量的相关性为:H>A>F>L>R;其中A,H与饱和度S的相关性较高,分别为0.946 0和0.980 4,而F,L,R与饱和度S的相关性较低,分别为0.642 3,0.619 4和0.456 5。R2峰(1 900 nm)中饱和度与特征变量的相关性为:H>A>R>F>L;其中A,H,F,R与饱和度S的相关性较高,分别为0.960 2,0.980 4,0.906 6和0.952 5,而L与饱和度S的相关性较低,为0.620 3。整体上来看,峰R2与砂岩饱和度的相关性大于峰R1,是含水量反演的主要吸收峰;分析原因可能是峰R1是结晶水的吸收峰,在饱和度较低的情况下具有较好的相关性,而在整个饱和度区间,其与水的相关性就大大减弱。由于R1峰的A,H和R2峰的A,H,F,R六个特征与岩石含水量的MIC值大于0.9,具有较强的相关性,本文将其作为砂岩含水量识别的特征变量。
为了量化砂岩的含水量,将砂岩的含水量分为5个等级,即0~20%,21%~40%,41%~60%,61%~80%,81%~100%,并采用自主搭建的BP神经网络进行砂岩含水量的识别。整个数据集共采集到120条近红外光谱曲线,经过筛选后剩余102条,将其按7∶3的比例随机分为训练集(71条)和测试集(31条)。
BP神经网络是一种按照误差反向传播算法训练的多层前馈神经网络,一般由输入层、 隐含层、 输出层组成。该网络结构可以很好地将多个特征变量组合起来,自动增强相关性强的特征变量权重,降低相关性弱的特征变量权重。目前,理论上已经表明单隐含层的BP神经网络可以拟合出任意的非线性函数,而且在实际的应用中单隐含层的BP神经网络已经可以满足工程上精度的需求。
基于近红外光谱砂岩含水量反演的数学思想是综合多个光谱特征变量信息,突出相关性强的变量权重。BP神经网络采用单隐含层,由于基于MIC值筛选后的光谱特征变量共6个,所以输入层神经元个数6(R1-H,R1-A,R2-H,R2-A,R2-F,R2-R);隐含层神经元个数经过计算后最优个数为10,参见表3;由于含水量共分为5个等级,所以输出层神经元个数为5。
表3 隐含层不同神经元个数训练结果Table 3 Training results of different number of neuronsin hidden layer
将训练集数据输入到BP神经网络模型中进行训练,训练完成后输入测试集数据进行测试,训练和测试结果见表4。训练集准确率为90.3%,测试集的准确率为83.9%,反演效果整体较好,说明基于近红外光谱砂岩含水量反演是可行的。
表4 识别结果Table 4 Identification results
基于近红外光谱分析技术对砂岩的光谱特征以及其含水量反演的可行性进行了研究。首先,通过室内试验获取不同饱和度的砂岩试样近红外光谱曲线;其次,基于MIC对试样的近红外光谱特征进行了分析和筛选;最后,采用搭建的BP神经网分类器对砂岩的含水量进行了反演。其具体结论如下:
(1)含水砂岩的近红外光谱在1 400和1 900 nm附近有明显的吸收峰,随着含水量增加,吸收强度也在增加,两者有明显的相关性。吸收峰位于1 400 nm附近,谱带比较宽缓,吸附水的吸收峰在1 900 nm附近,谱带比较尖锐。
(2)根据计算的MIC值,1 400 nm附近的峰高与含水量的相关性最强,1 900 nm附近的峰高与含水量的相关性也最强;1 400 nm附近的峰面积、 峰高,1 900 nm附近的峰面积、 峰高、 半高宽、 右肩宽共6个特征变量其MIC值>0.9,可作为BP神经网络反演砂岩含水量的特征变量。
(3)利用MIC值筛选出1 400和1 900 nm两个吸收峰的特征变量进行BP神经网络建模,其所建立的砂岩含水量反演模型训练集准确率为90.3%,测试集的准确率为83.9%,说明基于近红外光谱分析技术砂石含水量反演的方法是可行的。