刘翰霖,李根军,林 楠,杨雪松
(1.吉林建筑大学,吉林 长春 130118;2.青海省地质调查院,青海 西宁 810008;3.青海坤拓遥感技术服务有限公司,青海 西宁 810007)
随着矿产资源的高强度急速消耗,多处矿山因长期透支开采逐渐枯竭,利用传统的地球物理、地球化学方法进行矿产资源勘查,不仅费时费力、经济成本巨大,而且经常会出现生态环境污染问题。因此,在矿产资源勘查和生态环境保护双重目标下,如何利用高新技术准确、快速、有效地开展绿色勘查工作,减少地表工程揭露,保护周边生态环境,是目前矿产资源勘查急需解决的首要问题[1]。高光谱遥感技术能在准确区分岩矿类型的同时,定量分析矿物成分,是一种快速、大面积、低成本观测岩矿物质组成的有效技术手段[2-4]。随着统计学习理论在遥感地质领域研究的不断深入,支持向量机、随机森林、多层感知神经网络等机器学习算法逐渐被引入岩性信息识别和蚀变矿物提取中,并取得了一定的研究成果;但上述方法针对高光谱遥感多源数据,通常存在计算复杂度较高、模型过拟合等问题,因此有必要探索一种新方法来实现高光谱蚀变信息的高精度分离。极端随机树是在随机森林基础上发展而来的新型机器学习算法,具有较高的鲁棒性和泛化能力,能在保证算法稳定性的同时加快复杂数据集合的运算速率,精度更高[5-7]。目前,极端随机树算法的优越性能已引起科学研究领域的广泛重视,被应用于医学、经济学、计算机科学等领域,但在遥感蚀变信息的相关研究中还较少见[8-10]。鉴于此,本文以青海沟里地区为研究对象,基于资源一号02D(ZY1-02D)高光谱遥感影像数据,结合蚀变矿物波谱特征,利用极端随机树算法提取矿化蚀变信息,并通过已知地质矿产资料评价和分析提取效果。本文成果能促进高光谱遥感技术在矿产勘查中的有效应用,为青海沟里地区矿产资源高效开发利用和生态环境保护提供技术保障。
青海沟里地区地处柴达木盆地南缘,位于东昆仑矿山活动断裂带东段,是我国重要的金矿产地,素有“金腰带”美称。该地区多旋回造山运动极为发育,曾历经多期次扩张—收缩和俯冲造山作用,使得出露地层单元呈现成层无序的组合特征,产生时代跨度大的独特分布趋势,广泛存在于太古宇至新近纪的各个地质时期。区内构造活动频繁,以压性或压扭性断裂为主,走向为北西西向,多表现为逆冲特征,包括北界断裂、狼日扎岗—龙里—尕之麻断裂和东昆中断裂等;岩浆活动强烈,侵入岩种类丰富,主要集中于加里东期—印支造山旋回的不同阶段,由奥陶纪、志留纪、二叠纪和晚三叠纪中酸性侵入岩组成,以花岗岩类侵入岩巨量出露为典型特征。研究区矿产资源丰富,以金、银、铅、锌、铜为主,其中岩浆热液型金矿床分布较广,褐铁矿、绿泥石、方解石、高岭土等蚀变矿物在区内地表出露面积较大,且光谱特征典型,可利用高光谱遥感影像开展分类提取实验研究,对进一步的矿产勘查和矿产潜力评价具有指示意义。
ZY1-02D卫星携带有可见光近红外相机和高光谱相机,2019 年10 月发射升空,轨道高度为778 km,重访时间为3 d。ZY1-02D高光谱数据共包含166个波段,光谱范围为0.40~2.50 μm,光谱分辨率在可见光和短波红外分别为10 nm、20 nm,空间分辨率为30 m,可有效获取地球表面地物光谱信息,为蚀变矿物提取提供可靠的数据支持。本文选取覆盖青海沟里地区的3 景ZY1-02D 高光谱数据(L1A0000172721、L1A0000172720、L1A0000181506),卫星过境时间为8—10月,该时间段内地面无积雪覆盖。
由于原始影像上记录地物信息的灰度值是一个无量纲数值,需按照给定的卫星定标文件读入每个波段的波长范围、中心波长和信息增益值,利用ENVI 5.3软件的辐射定标模块自动提取定标参数,并将卫星搭载的成像光谱仪接收的DN 值转化为大气外层表观反射率[11]。本文采用MODTRAN 5 理论模型,通过ENVI软件的FLAASH 模块对影像进行大气校正[12]。为保证遥感影像的几何精度、修正几何畸变,将控制点拟合中误差设定为1.5~2个像元,在每景影像上选取分布均匀的15个控制点,利用二次多项式纠正法对ZY1-02D影像进行几何校正,消除影像几何位置误差[13]。由于云雾和信息缺失等因素影响,几何校正后的影像数据并不能直接用于实验研究[14],本文分别对影像进行几何镶嵌、灰度镶嵌,得到覆盖研究区的完整影像。
2.3.1 基于光谱角匹配技术的样本选取
精确选择训练样本是利用机器学习算法进行矿物识别的关键。为增强训练样本的代表性和可靠度,本文采用光谱角匹配技术选取训练样本。光谱角匹配是通过计算目标光谱与参考光谱间广义夹角来表征光谱相似程度的监督分类方法,通常夹角越小,相似度越大,代表匹配效果越佳[15-16],数学表达式为:
式中,n为高光谱数据的波段数;ti为目标光谱第i波段的反射率值;ri为参考光谱第i波段的反射率值。
以USGS 光谱库中的褐铁矿、绿泥石、方解石和高岭土矿物光谱为标准光谱,将光谱按照ZY1-02D影像波长范围进行重采样;基于光谱角匹配技术,以0.15 弧度为分割阈值,分别提取研究区内4 种典型矿物像元的光谱,以此为模型建模的光谱样本数据集,褐铁矿、绿泥石、方解石、高岭土分别提取了267个、179个、235个、187个端元光谱。
2.3.2 基于极端随机树的矿化蚀变信息提取
极端随机树算法最早由比利时列日大学电气工程与计算机科学系的Geurts P教授在2006年提出,是随机森林算法的推广形式[17],二者都具有不易过拟合、抗噪性能良好、运算效率高等优点,但在选取训练样本和分裂节点方面存在差异。随机森林算法采用有放回抽样方法获取样本数据,通过随机组建特征属性集合,筛选最优属性作为分裂节点进行决策树训练,存在训练数据集重复性升高、样本数据利用率降低和基学习器间相似程度加深等缺陷;而极端随机树算法则利用未进行重采样的全部样本数据,选取随机生成的分类节点进行分裂,基于“误差—分歧分解”理论,依靠多颗决策树的组合来完成模型的训练过程[18],对于小样本数据集具有更好的平滑性,在处理强噪声和高维模式的信息识别和分类问题中具有独特优势[19-20]。极端随机树算法原理见图1。
图1 极端随机树算法原理
高光谱影像存在波段数量多、数据体量大、波段间信息冗余度高和共线性强等问题,为消除波段冗余信息对极端随机树算法识别效果的影响,本文基于主成分分析法,通过正交变换将共线性高的波段数据转换为线性不相关变量来提取主成分,以累积贡献率95%为阈值,基于光谱角提取的训练样本,分别对4 种蚀变矿物进行特征波段筛选,结果表明经主成分分析法降维后的波段数占总波段数的10.60%~11.92%,褐铁矿、绿泥石、方解石和高岭土的光谱波段数分别被降至16 个、17 个、16 个和18 个,降低了波段间光谱信息的冗余性和模型计算的复杂性。
准确、快速、高效地确定模型的内部关键参数,能有效提高模型分类精度和泛化性能。CART 决策树是极端随机树算法的基学习器,其生长深度(树深)和数量是极端随机树算法的两个重要建模参数。本文利用网格搜索—交叉验证方法分别对4种矿物蚀变信息提取模型进行参数寻优计算,以准确率为优化目标函数的适应度值,经多次迭代计算,分别得到各矿物识别模型在准确率最高时对应的最佳参数组合(表1)。
表1 极端随机树算法关键参数寻优结果
利用主成分分析得到的特征波段数据集,基于寻优计算得到的最佳参数组合,分别构建4 种矿物的提取模型,提取研究区矿化蚀变信息,结果见图2。
图2 基于极端随机树算法的蚀变信息提取结果
为验证极端随机树算法在研究区内矿化蚀变信息的提取效果,将提取结果分别与区内断裂构造和已知矿床(点)分布进行空间叠加分析(图3),可以看出,蚀变矿物主要分布在构造行迹旁侧或其与次级构造交汇处,少量散布于主要构造行迹与其他构造的交切地段,与断裂构造的空间展布趋势具有很高的相似性;模型提取的蚀变信息主要以西北—东南向分布于地质构造带两侧的岩体中,且在金属矿床(点)周边地区也存在大量的蚀变信息;在研究区东南部模型同样提取出大量不同类型的蚀变信息,此处虽无已知矿(床)点分布,但成矿地质环境较优越,受断裂控制明显,三叠世洪水川组和二叠-石炭世浩特洛哇组的碳酸盐岩地层为该地段的主要地层,中志留世和中奥陶世的花岗闪长岩为其主要侵入岩体,因此该地段形成热液型金矿床的概率较大,可作为以后矿产勘查的重点地区。
图3 基于地质特征的空间定性分析结果
为对比分析极端随机树算法的蚀变信息提取效果,本文分别利用基于光谱特征的混合调谐匹配滤波模型(MTMF)和支持向量机模型进行蚀变信息提取的对比实验[21-22]。支持向量机模型与极端随机树模型的构建过程基本一致,同样采用光谱角匹配技术获取样本数据集来完成模型的训练。MTMF 模型首先基于MNF变换方法消除噪声影响,获取信息丰富波段;再采用MNF逆变换方法进行光谱重建,得到富含主要信息的地物真实反射率数值;然后利用已有样本数据,经均值计算得到端元平均光谱,并根据波谱MNF变换方法获取参考光谱反射率曲线,以此为基准与影像MNF变换结果进行滤波匹配;最后得到矿化蚀变信息提取结果。将3 种模型提取的矿化蚀变信息分布与区内已知的13个矿床(点)进行空间叠加分析,采用吻合度指标来评价模型提取效果,数值越高,代表蚀变信息识别精度越好;反之,则越差,数学表达式为:
式中,Lin为已知矿床(点)落在提取的矿化蚀变区域的个数;Ltotal为研究区已知矿床(点)总数。
计算得到的吻合度情况见表2,可以看出,极端随机树模型的识别效果最好,各类矿物信息的吻合度均在0.46以上,其中褐铁矿识别效果最佳,其分布范围与8 个已知矿点空间位置吻合,体现了极端随机树模型在稳定性和识别精度方面的优越性;MTMF 模型的识别效果最差,方解石、高岭土的吻合度均低于0.4;支持向量机模型提取的各类矿物吻合度差异较大,除绿泥石外,褐铁矿、方解石、高岭土的吻合度均高于MTMF模型,说明基于机器学习算法构建的信息识别模型提取效果优于传统的光谱匹配算法。
表2 矿床吻合度计算结果
本文利用ZY1-02D高光谱遥感数据,基于极端随机树算法构建矿化蚀变信息提取模型,对青海沟里地区典型矿物的提取进行了研究,并结合区内已知地质矿产资料对提取效果进行了评价。结果表明,结合光谱角和极端随机树算法的蚀变矿物提取模型对于各类矿物的提取效果明显优于MTMF模型和支持向量机模型,且提取的矿化蚀变信息分布范围与区内断裂构造展布特征以及已知矿床(点)的分布规律基本吻合,蚀变矿物的总体识别效果较好,可靠性较高,证明了机器学习算法在高光谱蚀变信息提取工作中的优越性,基于集成学习思想的极端随机树模型可作为矿产资源开发的有效技术手段加以利用。此外,极端随机树算法对于关键建模参数响应敏感,本文利用网格搜索—交叉验证方法,以准确率为适应度函数进行简单参数寻优,但该方法运算效率低、收敛速度过慢,在后续的研究工作中可引入群智能优化算法,用以探求不同参数寻优方法对蚀变信息提取结果的影响程度,提升矿化蚀变信息的提取精度。