一种基于机器学习算法的岩性填图方法

2021-07-15 07:22冀全伟王文磊刘治博祝茂强袁长江
地质力学学报 2021年3期
关键词:岩性分类预测

冀全伟王文磊刘治博祝茂强袁长江

1.自然资源部古地磁与古构造重建重点实验室,北京 100081;2.中国地质科学院地质力学研究所,北京 100081;3.中国地质大学(北京),北京 100083;4.中国地质科学院矿产资源研究所,北京 100037

0 引言

信息化时代,社会经济发展与生态环境治理对地质调查工作提出了新的要求,地质调查工作面临新的机遇与挑战。例如,在特殊地质地貌区开展区域地质调查工作将有助于特殊地质景观区基础地质问题的研究,服务于多门类自然资源与生态环境问题的解决(胡健民和陈虹,2019)。随着地质调查工作的持续开展,基础地质研究程度不断提高,成果数据资料保持快速积累与更新。如何系统整合已有地质、地球化学、地球物理、遥感等多元、多尺度地质调查数据资料,发展能够提高工作质量与效率的方法,深度挖掘有用信息,进而优化提升基础地质、矿产地质、水文地质、灾害地质等调查评价技术(杨星辰等,2020;张鑫刚等,2020),被认为是地质调查工作手段升级,提高社会经济服务能力的突破口之一。亟需学习吸收并引进数学、信息学等学科先进的数据与信息挖掘技术,创新发展地质调查评价思路与方法。

地质填图作为区域地质调查工作最基本的核心工作内容之一,其效率和精度将直接影响后续研究工作的开展。传统地质填图工作主要包括前期资料收集整理、工作方案编制、野外实地勘查、样品测试分析及数据处理、成图及报告编写等阶段。其中,前期资料收集整理工作多停留在基本资料了解阶段,基础资料及数据的应用程度不高;而野外工作依靠地质工作者的主观判断来确定填图单元,受限于填图技术人员的业务水平不同,填图质量受到一定影响。因此,为保证填图成果质量,野外实地勘查工作需投入较高的人力、财力和物力成本来完成大量路线调查及剖面测量等实物工作量。此外,在偏远山区、无人区、高原地区开展野外工作还存在一定风险性。

随着机器学习方法的快速发展,基于机器学习的岩性填图方法的提出,取得了较好的研究成果与进展。相较传统地质填图技术,机器学习方法中的分类模型或组合算法在岩性分类识别方面具有高效、智能化的特点,可作为具有巨大潜在优势的辅助手段来提高传统地质填图技术方法体系的工作效率与能力。已有基于机器学习方法的岩性填图研究(吴俊等,2016;陈松等,2017),通过系统整合多源遥感、地震、物探、化探、航磁等数据,建立岩性分类的基础数据集,利用度量学习、支持向量机(SVM)、人工神经网络(ANN)、随机森林(RF)等机器学习分类算法,开展了岩性识别、岩性单元填图等相关分类问题的研究 (Cracknell and Reading, 2014;Harris and Grunsky, 2015;郑阳,2017;Othman and Gloaguen, 2017;Kuhn et al., 2018;张艳等,2019;段友祥等,2020;朱明永等,2020;Wang et al., 2020a, 2020b;Wu et al., 2021)。已有研究表明,这一岩性填图思路在特定地质条件下具有特殊优势(严昊伟等,2017)。

文章主要通过野外基础地质调查和机器学习分类算法的有机融合,在填图空白地区或工作程度较低地区开展基于勘查数据分析预测的岩性单元填图方法探索性研究。选取西藏多龙矿集区开展模型试验主要是考虑到两方面原因。首先,多龙矿集区是中国重要成矿区带班公湖-怒江成矿带内已发现最大的斑岩型Cu-Au矿产地,具有巨大资源潜力。区内近年来已完成了1∶5万区域与矿产地质调查工作,对岩性单元划分具有较为清晰的认识,有利于预测结果的验证与应用效果评价。其次,多龙矿集区积累了大量基础图件和勘查数据资料,可供研究通过选取不同基础预测数据组合,构建不同工作基础条件下的模型方法试验。同时,文中提出的数据填图方法需要开展多批次小范围野外填图支撑岩性单元预测的迭代算法。在模型试验过程中,已有地质图件能够代替野外填图直接为预测模型提供原始数据和现有知识补充。换而言之,通过从已有地质图中提取迭代算法所需的小范围岩性单元分布来实现数据集与知识库的更新,为模型试验节省了实际野外填图的时间成本。因此,研究以多龙矿集区为模型试验区,选择1∶5万勘查地球化学数据为基础预测数据,以1∶5万区域地质图为参考,进行基于梯度提升决策树算法的岩性预测填图模型试验。

1 研究区概况

多龙矿集区位于西藏阿里地区改则县境内,所处的大地构造位置为班公湖-怒江成矿带西段,班公湖-怒江缝合带北侧、羌塘-三江复合板片南缘(郭娜等,2018;李兴奎等,2018;任纪瞬等,2019)。地层分区属于羌南-保山地层区多玛地层分区,区内地层(图1)以中生界为主,主要有中侏罗统曲色组 (J2q)和色哇组 (J2s)浊积岩建造、下白垩统美日切错组(K1m)火山碎屑岩建造以及新生界新近系康托组(N1k)陆源碎屑岩建造和第四系残坡积物(Q4)(江少卿等,2014;陈红旗等,2015)。其中,J2q组岩性为粉砂质板岩夹变长石石英砂岩(李云强等,2020),J2s组的岩石主要由砂岩、砂砾岩和变长石石英砂岩等组成(符家骏等,2014),同时两组地层也是含矿岩体的主要围岩(王勤等,2018)。K1m组的岩石主要为安山岩、英安岩、玄武岩、火山角砾岩和碎屑岩等。N1k组以砾岩、含砾砂岩、红色泥岩为主要岩性(韦少港等,2017)。多龙矿集区岩浆活动极为发育,总体上以喷发、喷溢和浅成、超浅成侵入为主,具多期活动特征,形成时代为燕山中—晚期(江少卿等,2014;李红梅,2017)。喷出岩主要由玄武岩、安山岩和流纹岩组成, (孙嘉等,2019)。侵入岩主要为基性、中酸性侵入岩,基性岩主要为辉长岩和辉绿岩,中酸性浅成岩主要为闪长岩、英安岩、花岗闪长斑岩,侵入时代以早白垩为主(陈红旗等,2015;王勤等,2018)。区内接触变质岩变质程度不高,岩体周边广泛发育热液蚀变及少量石英脉(王继斌,2018)。

图1 多龙矿集区岩性分布图Fig.1 Spatial distribution of the lithologic units in the Duolong mineral district, Tibet, China

自20世纪70年代以来,先后有多家地勘和研究单位对多龙矿集区开展了1∶100万、1∶25万和1∶5万图幅的区域地质调查工作。该区的区域物探、化探、遥感、矿床勘查工作以及相关岩石地球化学(韦少港等,2019)、年代学(王勤等,2015)、控矿构造识别(刘治博等,2017)、遥感异常信息提取(代晶晶等,2013;别小娟等,2013)、蚀变矿物学(赵子欧等,2020)等方面研究取得了较好的成果进展。通过近些年多方面研究,对多龙矿集区的地质背景、成矿规律、矿床模型等有了新的认识(杨欢欢等,2019;王勤等,2019;石洪召等,2019;孙嘉等,2020),目前正根据已有资料开展进一步综合研究。

2 基于机器学习的岩性填图方法

2.1 基于机器学习的岩性填图思路

基于机器学习方法的岩性填图对研究区的基础地质数据积累与研究程度具有较高要求,大多针对特定的数据资料类型且依赖高质量数据集,在空白区或数据资料不充分地区开展工作,将会面临缺乏基础地质支撑的困难。文中通过野外地质调查与机器学习方法的有机融合,提出了一种基于梯度提升决策树 (Gradient boosting decision tree, GBDT)算法的岩性单元填图方法(图2):①选择研究区内小范围已填图区作为假想野外填图区,建立原始数据集并初步构建岩性单元与预测数据(遥感、化探、物探)对应关系;②利用机器学习方法对预测数据进行多分类任务,进而开展目标填图区预测填图工作;③通过概率选区选定概率较低目标区,开展进一步的小范围野外地质调查假想填图,对原始数据和现有知识进行补充;④迭代循环以上流程,直至预测填图达到要求。

图2 基于机器学习的岩性填图思路Fig.2 Flowchart of machine learning-based lithologic mapping

2.2 数据预处理

数据预处理时,若将研究区整体定义为单一栅格作为目标选区基本单元,代表性较弱,同时易受模型分类过程中分类准确率的影响。因此,需要通过对研究区进行网格化划分(图1),将基本单元由单一栅格分解为w×h个网格单元,并在此基础上进行概率均值的统计,以此作为迭代填图目标选区的评判基础。文中将多龙矿集区内填图范围划分成90个网格单元,网格单元面积为3.5 km×3.5 km。

针对研究区进行网格化处理后,通过随机选区的采样策略完成初始数据集的创建。从研究区划分网格单元中随机选取若干单元作为目标采样区。通过野外地质调查在选区内开展地质填图,获取区内岩性单元分布情况。模型试验将通过从已有地质图中直接提取选区内的岩性单元分布来代替野外实际填图工作。

通过距离反比权重法(IDW)对试验区3200个地球化学数据点进行空间插值,得到的栅格数据作为模型试验的预测数据。将初始选区的岩性填图结果与对应的地球化学数据进行标签化整合,完成初始数据集的创建。最后,通过模型训练建立岩性算法分类模型,根据模型评价标准实施迭代填图,预测全区岩性分布结果,进而探索基于GBDT算法的岩性填图方法。

2.3 梯度提升决策树(GBDT)

梯度提升决策树 (Gradient boosting decision tree, GBDT)算法(Friedman, 2001)是一种采用集成学习思想的迭代决策树算法。所谓集成学习,即通过对多个学习器(如决策树)的组合得到比单一学习器性能更好的算法模型训练策略。一般情况下,GBDT以决策树(Quinlan, 1986)为基础分类器,并利用损失函数的负梯度作为提升树残差的近似值进行算法实现。其中,提升树fM(x)可表示为:

其中,Tm(x)为弱学习器,即决策树;γm为每个弱学习器最优拟合的权重;M为树的个数,即迭代次数。

模型的训练过程是损失函数L的最小化过程。假设训练样本数据量为N,第i条数据的变量与真值分别为xi和yi,则参数调优的目标函数为:

其中,表示训练完成的预测模型;L为训练过程中的损失函数;argmin则表示最小化损失函数L时f的取值;其他变量同公式(1)。

2.4 归一化指数函数

归一化指数函数(Softmax)是逻辑函数在多分类任务上的一种推广,其目的是将多分类结果以概率的形式展现出来。若以DT表示样本训练集,则DT={(xi,yi),i=1,…,nT}。 其中,xi是模型输入的数据,如用来预测岩性单元的遥感、地球化学等数据;yi是对应地质目标名称,如岩性单元标签。假设训练集岩性单元种类数为K,则一般情况下nT>K。在分类问题上,GBDT的作用是计算xi与yi之间的映射函数f:R15→RK。 对于输入的x,输出P维特征向量ν,并代入Softmax函数计算分类概率值:

其中,pk表示属于第k类岩性的预测概率值。根据Softmax计算公式可知,对于任一数据x,各岩性预测概率之和必为1。

3 模型训练与迭代

3.1 模型训练

文中采用GBDT作为核心算法对区内地球化学数据与岩性单元的对应关系开展信息挖掘与拟合工作。针对小样本数据集,特别是当前基础预测数据小于104数量级的情况下,GBDT算法在训练的过程中可能会出现过拟合问题。目标函数在机器学习过程中将会过度依赖训练样本集,将所有样本(包括噪声)都拟合到函数当中,从而只在训练集中表现优异,对于未知样本则无法正确预测。因此,为客观判断训练参数对训练集以外数据的符合程度,论文采用交叉验证的思想对模型整体分类能力进行评估。将样本数据集随机分为F个不相交子集,从F个子集中逐次选取一个子集定义为测试集,其余F-1个子集定义为训练集,基于训练集进行训练得到GBDT模型。利用测试集对模型进行分类器性能评价,将F次测试结果的均值定义为F折交叉验证下模型性能指标,并以此来评估模型精度。此外,需要在交叉验证基础上进行多次参数调优,得到更为合理的模型参数,以保证训练得到的GBDT模型具备较强的分类能力。

根据每次迭代过程中对模型进行多次训练的结果(图3)可知,经过300次训练后模型表现趋于平稳,损失值基本稳定在0.2。这说明即使对于较为复杂的多分类问题,该模型仍具有较强的有效性和稳定性。

图3 模型损失函数统计图Fig.3 Statistical diagram of the loss function

3.2 迭代填图

从概率角度选定网格单元,将其作为目标填图区进行针对性的迭代填图,并逐步更新预测分类数据集是此次研究思路核心之一。迭代填图这一思路作为整套方法流程中最主要的数据与知识补充过程,其准确性高低将对最终出图结果造成直接影响。与传统岩性填图相结合,通过专家野外填图的方式完成概率选区范围内的信息采集工作,在保证结果精度的前提下减少传统岩性填图的野外实际工作量。在具体实施过程中,根据研究区预测概率分布结果(图4),以网格为基本单元进行概率均值计算。按概率高低对全部单元进行排序,选取其中概率最低的若干网格单元(图4中黑框位置)作为目标区域,开展野外局部实地填图。将填图区岩性分类结果与对应的地球化学数据进行整合,并更新至样本数据库。

图4 概率分布选区示意图Fig.4 Schematic diagram of probability distribution-based area selection

4 岩性填图结果分析

4.1 模型评价结果

模型评价主要包括适用性和实用性评价两个方面。模型适用性评价主要是从算法角度评价GBDT模型对地质问题的适用性。针对从区内网格中选取的野外填图区,根据野外填图获得岩性分布,按比例划分出预测评价区。训练模型应用于预测区获得相应的岩性分类结果。以地质图为真值统计分类结果的准确率、宏平均F1分数等模型评价指标,并根据各类指标情况进行模型修正。

模型实用性评价主要是从预测概率角度评价预测结果对预期分类结果的满意程度。预测概率值是将模型输出值与各类岩性单元特征向量之间的残差通过Softmax函数进行归一化计算获得。概率值高低代表当前地球化学数据分类结果与各岩性单元类型的相近程度。假设已知专家填图区岩性单元种类集合为S,则概率分布高值区通常代表当前第i区域分类ki∈S,低值区表示当前分类范围较大可能存在实际岩性单元种类ki∉S的情况。基于以上原则,将模型预测概率与预期结果进行对比。若满足,则将模型应用于全区地球化学数据并预测全区岩性单元分类,否则,进行迭代填图,直至满足预期。

文中采用准确率(Accuracy,简记Ac)、宏平均精确率(Macro Average Precision,简记Pr)、宏平均召回率(Macro Average Recall,简记Re)以及宏平均F1分数 (Macro AverageF1,简记F1)等指标对基于机器学习方法的岩性单元分类任务进行性能评估。其中,准确率表示正确预测的样本比例,宏平均精确率表示预测为正样本中正确的比例,宏平均召回率表示正样本中预测正确的比例;宏平均F1分数是兼顾宏平均精确率与宏平均召回率的调和平均数。

假设混淆矩阵G:

其中,K表示岩性种类数。

在混淆矩阵G中准确率、宏平均精确率、宏平均召回率以及宏平均F1分数的计算公式:

其中,gaa表示a类岩性预测正确的数量;gab表示a类岩性预测为b类的数量。

利用上文所述方法在多龙矿集区开展岩性单元预测分类模型试验,获得了迭代过程各阶段的模型评价指标。结果显示,采用概率选区原则进行数据样本逐步更新的思路具有良好表现,各指标随迭代均保持递增(表1)。以准确率为例,该指标表示当前分类结果与该区实际填图获得的岩性单元的匹配程度。模型经过7次迭代更新,准确率从初始47.3%增加至87%,性能提升近一倍。

表1 模型迭代性能统计表Table 1 Performance of model iteration

同时,结果显示7次迭代后野外实际填图的累计范围占研究区面积的62.2%(表2),即,在全区约2/3范围内开展野外填图的情况下,获得了与传统填图方法相近的岩性分类结果,说明文中提出的预测填图方法在岩性填图工作中的效率。根据已有地质图可知,区内岩性单元种类数为20。岩性单元预测种类数在7次迭代过程中由13类增加至19类,覆盖率达到95%。经统计发现,由于石英脉在研究区面积占比极少,仅为0.007%,缺少足够的数据样本,未能在研究中成功预测分类。由此可见,该研究方法从概率的角度定义迭代填图范围具有较高可行性。

表2 迭代分析结果信息统计表Table 2 Statistics table of iteration results

4.2 预测分类结果

从7次迭代后的预测分类结果来看(图5),在岩性单元分布较为复杂且多类型交替出现的场景下,相应的岩性单元边界仍能被有效地划分。该方法通过机器学习算法进行分类,提高了岩性单元填图的工作效率。同时,与野外填图结果对比发现具有较高的吻合度,体现了对岩性单元预测分类的准确性。

图5 多龙矿集区岩石单元预测结果Fig.5 Prediction results of lithologic units in the Duolong mineral district

模型试验经过7次迭代后,预测概率达到预期要求,分类结果涉及19类不同岩性单元。采用宏平均F1分数对各类单元进行精度评价(表3),模型分类精度整体表现优秀,各类预测精度均值达到0.845,其中5类超过0.9,仅有1类不足0.7,占比5%。最高为, 达到0.935,且该岩性单元仅占全区面积的0.47%,这说明该方法对于研究区面积占比较低的岩性单元仍具备较高的识别能力。最低为βμ,宏平均F1分数仅有0.683,但具备同等地球化学元素组成的,其宏平均F1分数达到了0.8,反映了该方法虽然对以岩石结构特征命名的地质单元无法有效区分,但对具备相同地球化学元素特征的岩性大类仍具备较高准确度。此外,通过预测结果与已知结果对比发现,第四纪区域预测与原地质图有一定差别。经遥感查证,在排除第四系冲积扇区域之后,原1∶5万图幅的第四系分布范围内局部显示了露头出露,表明该方法对已有填图工作有部分修正作用。由于地球化学元素反演矿化蚀变的天然优势,该方法对蚀变区域的有效识别,可产生重要的经济价值。

表3 模型分类精度表Table 3 Table of classification accuracy of the current model

5 结论

文中提出了一种基于GBDT算法的岩性单元预测分类方法,将西藏多龙矿集区作为试验区,以1∶5万勘查地球化学数据为例,对岩性填图方法进行了有益的探索。研究强调了野外地质填图与基于机器学习预测分类方法的深度融合,以及野地质调查工作在岩性预测填图工作中的重要性和不可或缺性。在强调野外地质调查重要性的基础上,将岩性填图工作融入了机器学习方法。通过小范围野外人工填图迭代更新数据与知识库,从而对全区进行岩性单元预测分类工作。该方法是对岩性单元填图工作思路和流程的探索,是对现有工作模式的一种有益补充与辅助优化;体现了“基于大数据理论方法来促进地质问题的解决,并不意味着取代或摒弃地学传统方法,而在于激活、提升和创新发展传统方法”这一大数据科学范式在地质科学研究中的特点和优势。

传统岩性填图方法通常要求对穿越地质体最多、地质构造复杂的路线进行复杂详尽的野外调查工作,文中采用概率选区的方式来确定迭代填图过程中的目标填图区,使整个岩性填图过程更具有针对性与高效性。根据试验结果对比研究区

地质图,该方法基于62.2%的已知研究区信息,有效实现了87%研究区范围内的岩性单元分类。这一结果证明该方法不仅具有良好的填图效果,而且能够有效减轻野外填图工作量。对在新疆、青海、西藏等野外环境条件艰苦地区的岩性填图工作具有积极的参考作用。此外,为验证该方法的通用性,未来可开展除化探数据以外其他数据资料,如遥感、航磁、航放、钻井等数据资料的适用性研究,从而共同为地质资料相对匮乏或单一的研究区开展岩性填图工作提供有效支撑。

猜你喜欢
岩性分类预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
分类算一算
一种识别薄岩性气藏的地震反射特征分析
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
K 近邻分类法在岩屑数字图像岩性分析中的应用
不必预测未来,只需把握现在