王思琪,王明常,王凤艳,杨国东,张晓龙
1.吉林大学 地球探测科学与技术学院,长春 130026;2.中国地质调查局 西安矿产资源调查中心,西安 710100;3.自然资源部 城市国土资源监测与仿真重点实验室,广东 深圳 518000
随着遥感技术的快速发展,利用遥感数据开展找矿工作已经成为遥感技术在矿产勘查领域的热点。这种方法具有仅凭遥感图像处理就可以反演得到地表矿化蚀变信息的优点。遥感能够快速获取大面积地表信息,但极易受到其他地物干扰,造成一定的不确定性,以及反演结果的多解性,总的来说,单纯应用遥感矿化蚀变信息在矿产勘查中的实际效果不太理想[1]。将遥感影像数据和地球化学数据结合,能够补充信息,极大地增强了利用遥感技术开展矿产勘查工作的可行性。Stan Aronoff et al.[2--3]采用遥感影像数据和水系沉积物地球化学数据相结合开展矿产勘查工作以来,遥感地球化学在矿产勘查领域的应用已有40年的历史,并得到了极大地发展。在土壤重金属反演中,Kokaly et al.[4]通过估算土壤重金属元素含量与遥感数据之间的拟合关系进而估算土壤元素含量;马伟波等[5]引入了极限学习机(ELM)算法,并取得了优于基于支持向量机(SVM)方法和偏最小二乘回归(PLSR)方法的预测精度;陈三明等[1,6]在金川铜镍矿外围区域建立遥感地球化学统计模型,并在桂东南植被覆盖地区融合植被抑制方法建立以主成分分析(PCA)为基础的遥感蚀变信息提取模型;陈勇敢等[7]通过建立多元线性回归(MLR)模型,进行遥感地球化学异常信息提取研究;姚佛军等[8]依据元素含量和遥感光谱之间的关系,构建出4个新的遥感地球化学反演指标,对铜元素进行遥感地球化学反演分析。研究表明,基于物质电磁波相关理论,不同元素及其所形成的离子团在不同频段波谱的吸收特征具有一定差异性,遥感影像的波谱特征与相对应地物中地球化学元素含量存在一定相关关系;赵海士等[9--10]利用极限学习机(ELM)建立地球化学数据与遥感影像之间的非线性对应关系来获取未知地球化学异常;陈丽蓉等[11--12]提出多卷积自编码(MCAE)方法,利用全局Moran’s I指数来确定地球化学元素背景识别域,设计多CAE独立并行训练结构避免信息冗余,有效提高了地球化学元素空间结构特征提取及多元异常识别能力;提出空间约束多自编码器(SCMA)方法,通过空间域划分得到子空间域来区分研究区内不同的地化背景,并利用多个自编码器对每个子空间域的地化背景进行编码重构。在遥感地球化学反演研究中,构建遥感地球化学反演模型的方法有很多,但是由于地球化学异常分布具有不连续性、突变性和多样性等非线性特征,传统线性回归方法很难获得令人满意的效果,直接影响反演的可靠度,而非线性方法则能较好地表征复杂地质背景下的地球化学异常[9--10]。综上所述,笔者针对传统线性回归中存在的问题,基于栈式自编码器(SAE)和极限学习机(ELM),建立SAE--ELM遥感地球化学反演模型,对研究区大比例尺地球化学数据进行反演,并通过与已知多金属异常分布进行验证,促进遥感技术在找矿工作中的应用。
为了去除遥感数据中存在的大量冗余信息,降低模型复杂度,首先通过栈式自动编码器对遥感数据进行特征提取,然后将提取后的特征信息输入极限学习机进行反演,最后用逐步截尾法对反演数据进行异常分析。
在找矿工作中,要根据元素量级关系,对研究区域进行元素的背景与异常划分,常用的方法有逐步截尾法、衬值滤波法及趋势面法等。逐步截尾法是按照一定的准则将长尾截去后用剩下的接近正态分布的子样计算背景分布参数的统计方法。其基本原理为:
极限学习机(extreme learning machine, ELM)是Huang et al.[13--16]提出的一种单隐层前馈型神经网络监督型学习算法,具有高精准度、尽可能少的人工干预,以及秒级、毫秒级甚至微秒级的实时学习的核心特征,在模式识别领域得到广泛应用[17]。黄广斌等人提出两个定理:
定理1给定N个样本(Xi,Yi),其中Xi=[xi1,xi2,…,xin]T∈Rn,Yi=[yi1,yi2,…,yin]T∈Rm,如果激励函数g(x)在任意范围内具有无限可微的性质,在任意赋值Wi∈Rn和bi∈R的情况下,均有隐含层输出函数H可逆且‖Hβ-YT‖=0。
定理2给定N个样本(Xi,Yi),其中Xi=[xi1,xi2,…,xin]T∈Rn,Yi=[yi1,yi2,…,yin]T∈Rm,以及任意小误差ε>0,如果激励函数g(x)在任意范围内具有无限可微的性质,在任意赋值Wi∈Rn和bi∈R的情况下,总存在一个隐含层神经元个数为l(l≤N)的神经网络,使得‖Hn×lβl×m-YT‖<ε成立。
对于一个有L个隐层节点的单隐层神经网络,可以表示为:
式中:g(x)为激活函数;Wi=[Wi,1,W1,2,…,Wi,n]T为输入权重;Wi·Xj表示Wi和Xj的内积;βi为输出权重;bi是第i个隐层单元的偏置;oj是第j个样本的网络输出。
根据上述定理,若L≤N,且g(x)无限可微,随机初始化输入权重W和偏置值b,确定激活函数g(x)和隐含层神经元个数L,就可以通过求解最小二乘解:
得到输出权重:
式中:H+为隐含层输出矩阵的摩尔--彭若斯广义逆。
栈式自动编码器(stacked auto-encoder, SAE) 主要用于对数据的降维特征提取,由多层自动编码器组成的[18--20]。
栈式自动编码器首先要确定参数,用贪心算法逐层训练每一层自动编码器,对整个深度神经网络进行预训练。用样本集训练第一层自动编码器,获得参数,然后将隐藏层输入下一个自动编码器,通过上述方法逐层学习参数,直至最后。预训练之后,在最上层添加一个分类器,用标签样本来调整分类器的参数,并对网络中所有参数进行微调,使模型达到理想的效果。
栈式自动编码器--极限学习机(SAE--ELM)是由栈式自动编码器和极限学习机两种算法组合的神经网络,用栈式自动编码器对原始输入数据的特征提取,用极限学习机来完成分类任务。栈式自动编码器的预训练过程,与上述方法一致,用贪心算法进行逐层训练,将前一个自动编码器的隐藏层输入下一个自动编码器,预训练之后,将极限学习机作为分类器添加在模型最上层。由于极限学习机具有参数少、精度高的特点,不需要再对网络中所有参数进行微调。
给定N个样本(Xi,Yi),其中Xi=[xi1,xi2,…,xin]T∈Rn,Yi=[yi1,yi2,…,yin]T∈Rm,将Xi输入第1层自动编码器,得到隐藏层输出Hi1=f1(Xi),依次向后传递至第n层,得到Hin=fn(Hin-1),使用极限学习机作为分类器,并将输入极限学习机中进行元素反演。
研究区大地构造位置属于华南褶皱系赣湘粤桂褶皱带,地处湘南扬子古陆与华夏古陆之间的南岭构造岩浆带中东段北缘,与粤北南北向构造带交叉复合部位。区域内岩性复杂,各类花岗岩发育。区内最主要成矿有利位置多处于燕山期花岗岩与震旦系、寒武系及泥盆系地层接触部位,目前已发现有柿竹园钨锡铋钼多金属矿区、瑶岗仙钨矿、白云仙钨矿和圳口钨矿等多个矿床[20]。
实验采用的地球化学数据为1∶200 000郴县幅化探数据,共有采样点1 860个,分析元素39种,区内多金属矿点分布较多,根据研究区已知矿点类型,选取铜、铅、锌、钨、钼等进行遥感地球化学反演。
实验采用的遥感影像为Landsat 8影像。Landsat 8搭载陆地成像仪(OLI)和热红外传感器(TIRS),包含11个波段,OLI包括9个波段,波段1为海岸波段,波段2~4为可见光波段,波段5为近红外波段,波段6~7为短红外波段,波段9为卷云波段,空间分辨率为30 m,波段8为全色波段,空间分辨率为15 m,TIRS包括2个热红外波段,分辨率100 m。根据Landsat 8遥感影像各波段特征,选取第2~7波段共6个原始波段进行后续反演模型的训练。研究区遥感影像由4幅遥感影像拼接裁剪而成(行列号为122/42,122/43,123/43,122/42),影像获取时间为2016年12月。通过辐射校正、大气校正、归一化处理、影像融合与裁剪对获取的遥感影像数据进行预处理后,得到研究区遥感影像数据的假彩色合成图(图2)。
图2 研究区Landsat8遥感影像假彩色合成图(红:6波段;绿:4波段;蓝:2波段)Fig.2 False color composite map of Landsat 8 images in study area (red:band6;green:band4;blue:band2)
提取遥感影像数据。根据采样点位置,从遥感影像中提取出对应的波段信息,作为后续反演模型的遥感特征集合,进行遥感地球化学反演模型训练。
以遥感原始波段组合为自变量,地球化学数据为因变量,分别对各元素建立反演模型。按照训练数据:测试数据=4∶1对数据进行随机划分,训练数据记为X_train、Y_train,用于模型训练过程;测试数据记为X_test、Y_test,用于模型检验。
从反演模型预测误差和元素异常区域空间分布两个方面对模型有效性进行评价。采用相对误差对预测精度进行评估,再将异常区域进行对比进行实用性评估
采用平均相对误差对模型进行检验(表1)。
表1 反演平均相对误差表Table 1 Mean relative errors of inversion
通过对比可发现,基于SAE--ELM反演结果的平均相对误差小于基于ELM反演结果的误差,和真实数据具有更好的一致性,SAE--ELM算法的反演预测能力优于传统ELM算法。
图3 元素异常对比图Fig.3 Element anomaly comparison graphs
通过对比反演异常图和原始异常图中各元素异常区域分布范围和异常强度可发现,反演得到的异常带基本涵盖原始数据圈定的异常带,在空间分布上对应良好,说明SAE--ELM反演模型能够体现出区域地球化学特征,遥感地球化学反演数据较原始数据具有更强的异常识别能力。
(1)基于SAE-ELM算法,依据1∶20万郴县幅化探数据,对研究区内铜、铅、锌、钨、钼等元素建立了遥感地球化学非线性模型,进行大范围地球化学异常预测反演,并通过地球化学数据,从模型精度和空间分布两方面验证模型的有效性。
(2)实验结果表明,在模型精度上,基于SAE--ELM的遥感地球化学反演数据精度较高,各元素反演数据相对误差的平均值达到0.222,证明了SAE--ELM反演模型的有效性;在空间分布上,多金属元素反演异常分布带与地球化学异常区域对应关系良好,并具有减弱采样因素影响,突出高度异常的优势;在实际应用上,能够有效补充原始地球化学测量数据,为地质勘查找矿工作提供了一种提取多金属元素异常的有效方法。