潘北斗,李 宝,王福臣,徐剑波,付雪明,何雨栗
(1.中国冶金地质总局第一地质勘查院,河北廊坊 065201;2.中国冶金地质总局矿产资源研究院,北京 101300;3.西华师范大学地理科学学院,四川南充 637009;4.四川省干旱河谷土壤侵蚀监测与控制工程实验室,四川南充 637009)
同一地区出现的矿床(点),往往不是随机分布的,而是受地质和成矿作用的控制,常常呈现出一定的空间分布规律。研究不同类型矿床(点)在空间分布上的规律和相互之间的关系,对于区域成矿研究和成矿预测非常重要。某些重要的成矿控制作用只有通过矿床的空间分布才可以显示出来(Lisitsin,2015)。赵鹏大(2006)指出:研究和总结矿床空间分布的样式及形成原因,可以在一定地质条件下的地区内有的放矢地进行找矿工作。
矿床空间分布规律,是区域成矿研究的重要内容,前人已有很多相关的研究(Frederik,1984;周宏坤,1991;吴珍汉,1991)。在区域尺度上,矿床可以视为点,前人研究中,对于矿床的空间分析大都是利用空间点分析方法来做的(Carranza,2009;左仁广,2010)。分析的内容主要是矿床的空间聚集分散趋势、总体分布形态,及与地质和成矿要素的空间关联。主要方法有空间点模式分析(Spatial point pattern analysis)(Carranza,2009;Lisitsin,2015)、分形分析(Cheng and Frederik,1995;董方灵等,2010)和Fry分析等(Carranza,2009)。由于每种方法仅表征点模式的特定方面,因此,要全面分析矿床的空间分布,一般都采用多种方法联合起来进行综合推断(Carranza,2009;Lisitsin,2015)。如Carranza(2009)综合利用空间点模式分析、分形分析和Fry分析方法研究了菲律宾Aroroy地区金矿的空间分布规律,取得了很好的效果。
矿床空间分布规律的研究中,前人主要聚焦于分析矿床分布和地质要素、构造之间的关系,以及单个矿床类型的聚集分散趋势和分布形态,关于不同矿床类型之间空间关系的研究比较少(左仁广,2010)。受地质作用和成矿作用的影响,同一区域上不同矿床类型之间往往存在着空间依赖性、关联性、有序性和成套性,表现为矿床谱系(赵鹏大,2006)和成矿系列(翟裕生等,1999;卢映祥等,2021;陈毓川等,2022)。矿床的空间关联是一种普遍存在的现象,挖掘出不同矿床类型之间的空间关系,对于区域矿产研究和找矿预测非常重要。比如一个地区,Au矿床和Cu矿床频繁共生,有Au矿床出现的地方附近出现Cu矿床的概率高,就可以利用这条规律来指导寻找Cu矿。
传统上对于不同矿床类型之间的空间关联,主要采用的是知识驱动的定性分析方法,是通过分析区域上的成矿规律,总结已有矿床类型的空间分布模式,在矿点分布图上直接人眼观察,定性总结出规律,确定矿床类型之间的空间关联(梁涛等,2012;许德如等,2019)。这种研究方法不够量化,不能精确描述矿床点的空间分布规律,且当一个地区的矿点分布较复杂、数据量较大时,这种方法就很难应付了,因此需要能够挖掘矿床空间关联的定量化研究方法。通过定量研究不同矿床类型之间的空间关联,可以给出矿床类型之间空间关联的量化指标,可以通过空间分析软件自动找出空间关联规律,进行量化比较,能够应付大量的、复杂的数据;而且,有了矿床类型之间空间关联关系的量化指标之后,可以利用这些相关的指标结合其他预测指标定量预测矿产。目前对于不同矿床类型之间空间关联关系的定量化研究还比较少。
针对这个问题,本文提出了基于ROC曲线的矿点空间关联关系定量研究方法。ROC曲线方法是一种广泛应用于数据分析中的结果评价方法,在空间分析中也有许多应用。Vesa et al.(2015)利用ROC曲线评估了成矿预测模型的性能以及各变量和矿点之间的空间关系。Chen and Wu(2017)应用ROC曲线方法来分析地球化学模式与矿床位置之间的空间关系,据此选择出用来预测成矿的有用元素异常。Parsa et al.(2018)应用ROC曲线来区分不同的地球化学元素特征。Zuo(2018)利用ROC曲线方法研究了福建地区化探异常和铁矿点的空间关联关系,找出了与成矿密切相关的化探指示元素。上述的前人研究已经证明,ROC曲线方法在评估空间预测模型以及空间要素之间关联关系的研究中应用效果理想。基于此,本文采用该方法来探讨不同矿床类型之间的空间关联关系,并以中南半岛矿床分布数据为研究实例验证了本文所提出的方法。
本文用到的主要方法有:ROC曲线方法、网络分析、社团检测。ROC曲线方法及其相关参数(AUC和约登指数)主要用来定量评价空间关联。网络分析用来可视化不同矿床类型之间的空间关系。社团检测用来找出空间关系紧密的矿床类群。主要计算流程如图1。
图1 矿床(点)空间关联关系定量分析流程
受试者工作特征曲线(Receiver operating characteristics,简称ROC曲线)是根据一系列不同的判断标准(分类值或决定阈),以假阳性率(FPR)为横轴,以真阳性率(TPR)为纵轴画出的曲线(Fawcett,2006)。其中TPR和FPR是根据正负样本和评判标准之间的关系计算的。TPR(真阳性率,true positive rate)为正确地判断为正样本的样本个数与所有正样本个数之比。FPR(假阳性率,false positive rate)为错误判断为正样本的负样本个数占所有负样本的个数之比。
TPR=TP/P=TP/(TP+FN)
(1)
FPR=FP/N=FP/(FP+TN)
(2)
其中:TP(真阳性)指正确判定为正样本的个数;FP(假阳性)指错误判定为正样本的个数;TN(真阴性)指正确判定为负样本的个数;FN(假阴性)指错误判定为负样本的个数。
ROC曲线最早在军事和医学诊断当中应用较多,目前广泛应用在机器学习等很多数据分析工作当中,以评估预测模型的性能和分类的准确率。ROC曲线可以用来评估检验指标对于预测目标的检测性能。ROC曲线方法是一种简单有效的数据分析方法,通过曲线图可直观地分析检验指标的性能或某种方法的准确性。曲线越凸、越靠近左上角,表明检验指标或检验方法的诊断价值越大。利用曲线下面积(Area under curve,简称AUC)可量化评价诊断的准确性。AUC可用来度量分类模型的准确度,也可用于测量空间预测模型的性能。AUC范围为0~1;越接近1表示模型性能越好,值为1表示结果是完全准确的,模型性能达到最佳。AUC值为0.5时表示随机模式,说明模型对于目标完全没有鉴别能力,此时其ROC曲线在ROC曲线图上斜率为1。通常认为,AUC在 0.5~0.7时有较低准确性,0.7~0.9时有一定准确性,0.9以上时有较高准确性。
此外ROC曲线中还有一个经常用到的重要的指标-约登指数(Youden index):
Youden index=TPR-FPR
(3)
约登指数表示筛检方法发现真正的患者与非患者的总能力,取值范围0~1,值越大说明筛查实验的效果越好,真实性越大。前文说过,ROC曲线是根据一系列不同的判断标准(分类值或决定阈)来计算FPR和TPR的,在ROC曲线图中,每一组FPR和TPR对应一个约登指数。显然,越靠近ROC曲线的左上角,对应的约登指数值越大。约登指数可以用来确定判断标准的最佳阈值,通常用最大约登指数下对应的值作为模型的最佳阈值。
ROC曲线可以评价检验指标对于目标的检测准确率,具体到矿床空间分析,举例来说,设有两类矿床类型:A类矿床和B类矿床,在区域尺度上矿床可以抽象为点,知道两类矿床空间点的分布。设以A类矿床空间点为检验指标,B类矿床空间点为预测目标。拿A类矿床的空间分布去推断(通过缓冲区方法)B类矿床的空间分布,如果推断的准确率越高,则说明A类矿床的空间分布对于预测B类矿床空间分布越有用,与B类矿床的空间关联越强。图2是这一算法的简要示意。具体的算法步骤如下:
图2 FPR和TPR计算原理示意图
(1)ROC曲线是用TPR和FPR为两个坐标轴构建的,而TPR和FPR是根据正负样本计算的,因此,首先需要确定正负样本。设要检测B类矿床与那些矿床类型空间关联,则B类矿床空间点为正样本(个数记为P)。负样本可以通过随机模拟生成的点和随机选择的非B类矿床点组合而成(个数记为N)(Vesa et al.,2015)。
(2)对每个A类矿床点以半径r做缓冲区,若一个A类矿床点的缓冲区内有B类矿床点包含在内,则认为这个A类矿床点与B类矿床点在尺度r下空间关联。
(3)统计所有A类矿床点在半径r下的缓冲区内是否有B类矿床点出现,出现在A类矿床缓冲区内的B类矿床个数记为TP。同样,统计出现在A类矿床缓冲区内的负样本点个数,记为FP。有了这些统计个数,根据公式(1)、(2),就得到一组缓冲区r下的FPR和TPR,即得到一个ROC曲线上的坐标点。
(4)以一定的步长增加A类矿床缓冲区的半径r,计算不同r下的FPR和TPR,直到r大到足以包含所有的正负样本,得到一系列ROC曲线坐标点。利用计算得到的FPR和TPR坐标点,来绘制ROC曲线,计算AUC。通过ROC曲线的特征和AUC值的大小来分析矿床类型之间的空间关联关系。若AUC比0.5大的多,则说明A类矿床对于预测B类矿床的空间分布非常有用,与B类矿床呈强空间关联关系。
需要注意的是,这种空间关联的计算具有方向性,即不对称性。用A类矿床作为检验指标,B类矿床作为检验目标得到的结果和反过来用B类矿床作为检验指标,A类矿床作为检验目标得到的结果是不同的。
本文空间分析和计算所用工具为ARCGIS 10.6和R语言的spatstat包(Baddeley and Rolf,2005)。
当所研究的矿床类型较多的时候,要同时探讨多个类型之间的关联,仅仅通过ROC曲线的形态和AUC值无法直观探讨,利用网络分析工具就可以直观地可视化分析这些复杂的关系。
网络分析(Network analysis),或称为社交网络分析、复杂网络分析(周涛等,2005),是通过一系列节点和连边来构建网络图(Graph),利用图来可视化展示和分析事物个体之间关系的方法,在“大数据”挖掘和数据可视化中有广泛的应用。该方法可以为一个集合中要素之间复杂的关系提供直观的可视化,可以发现复杂群体结构中隐含的社团结构。
本文应用网络分析来探讨同一研究区不同矿床类型在空间上的关系,所用的数据为通过1.2节ROC曲线方法计算的AUC值,用不同矿床类型作为网络节点,利用不同矿床类型两两之间的ROC曲线AUC值作为节点连边权重,构建复杂网络。
网络分析的一个重要应用是社团结构挖掘,利用网络图可以挖掘出集合中不同成员的亲疏关系。社团检测(community detection)算法可以把网络分割为多个子集团,集团内的连边较多,内部结构致密;而集团与集团之间连边较少,结构松散。一般把分割出的集团称为社团(community),同一社团内的节点之间关系紧密。通过社团检测算法可以找出那些矿床类型在空间上关联关系紧密。本文所用的社团检测所用的软件为Gephi,算法为经典的Louvain算法(Vincent et al.,2008)。
本文数据来源于地质科学数据出版系统中的公开数据—“中南半岛和西太平洋巨型成矿带铜金矿化构造环境与成矿规律数据库”(王功文等,2018)。研究区域包括中国西南部的云南、广西、贵州部分地区,中南半岛的越南、缅甸、柬埔寨、老挝、泰国。这一区域在大地构造上位于特提斯-喜马拉雅成矿带与环太平洋成矿带的交汇部位,经历了多个演化阶段,是全球板块活动最强烈、构造最复杂的地带之一(王方国,1993;姚伯初,1999;卢映祥等,2009;夏庆霖等,2009;刘书生等,2018)。强烈的构造-岩浆活动为成矿提供了优越的地质条件和物质来源(陈喜峰,2014,2015)。中南半岛是铜、镍、铬、金、锡、钾盐等重要矿产资源的成矿区域(陈喜峰等,2017;施美凤等,2017;邹海俊等,2017;李冰等,2022),矿床类型丰富,矿床点众多,是研究矿床分布规律的良好区域。其中东南亚锡矿带是全球最长、最重要的含锡花岗岩带(Liu et al.,2020)。数据集共包括977个矿点,主要矿床类型如图3。选择这一地区作为研究实例主要是因为该区域成矿类型丰富,研究资料详实,矿点数量众多,矿床谱系和成矿系列特征明显(夏庆霖等,2009),能够很好地验证本文方法的效果。
这一地区的相同矿产类型,一般都有多种成因类型,比如金矿,就有砂矿型、热液型等。不同矿床成因的同类矿床空间分布模式可能完全不同,不能当作一类处理。因此,本文矿床的类型划分是依据数据集当中已经划分好的矿床成因类型来分的,共划分了213类矿床类型。大部分矿床类型只有少量点,用来做统计分析无法体现出规律,容易出现错误,因此本文使用矿床成因类型个数排名前9的矿床类型作为研究对象(表1)。
图3 研究区矿床分布简图(据王功文等,2018修改)
表1 研究区主要矿床类型简表
按照前文所述方法,以步长100 m,初始缓冲半径为0 m,构建各个矿床类型空间点缓冲区,根据这些缓冲区和矿床空间点来计算得到ROC曲线及其参数。计算得到的9种主要矿床成因类型的ROC曲线及相关参数见图4和表2。以热液Cu矿为例,图中各类矿床的ROC曲线均分布在随机线(黑色虚线)左上方,AUC值均大于0.5,说明这些矿床类型与热液型Cu矿均存在空间关联,这些矿床类型出现的附近出现热液型Cu矿的概率大。热液型Cu矿ROC曲线图中的砂矿型Au矿、热液型Pb矿、热液型Pb-Zn矿、热液型Au矿、热液型Fe矿偏离随机线幅度大,AUC值大于0.7,说明这几类矿床与热液Cu矿床存在较强的空间关联,而其他几类矿床与热液Cu矿床之间关联较弱,但仍存在一定程度空间关联。热液Cu矿ROC曲线中的热液Sb矿,有偏离随机线向下弯曲的趋势,AUC值接近0.5,说明热液Sb矿对于热液Cu矿的预测没有意义,二者在空间分布上没有关联。其他ROC曲线分析后文会结合网络分析可视化方法进行解释。
图4 不同矿床(点)之间空间关联关系ROC曲线图
表2 研究区各主要矿床类型空间关联ROC曲线下面积(AUC)矩阵
每一个ROC曲线上的坐标点,对应着一个缓冲区半径,ROC曲线的横纵坐标随着缓冲区半径的增大而增大,产生的ROC曲线能够反映出空间关联性随着缓冲半径的增大是变化的,而不是一成不变的。也就是说,矿床类型之间的空间关联性存在着空间尺度效应。如图4i,热液Sb矿与砂矿型Au矿在缓冲区较小时呈较弱的空间负关联,随着横坐标变大,缓冲半径增大,两者开始呈现出正关联关系。
ROC曲线中的另一个重要指标是Youden指数,ROC曲线上每一个点对应一个Youden指数,越靠近ROC曲线的左上角,对应的Youden指数值越大,值越大说明矿床类型之间关联度越高。最大的Youden指数对应两类矿床的关联程度最大能达到的程度,最大Youden指数下对应缓冲区半径也就是使得两类矿床关联程度达到最优的缓冲区半径。表3为不同矿床类型两两之间ROC曲线对应的最大Youden指数矩阵,表4为最大Youden指数对应的缓冲区半径。从表3可以看出,其所反映的不同矿床类型之间的关联关系大致与AUC值所反映的相同。但也略有不同,比如在Youden指数下,热液型Fe矿与热液型Pb矿表现出更强的关系;砂矿型Au矿与热液型Pb矿表现出更强的关系。这种差异主要是因为AUC是从多个尺度上综合考虑不同矿床之间的关系,而Youden指数则只是在关联度最大的尺度上去考虑不同矿床之间的关系。
表3 最大Youden指数矩阵
表4 最大Youden指数对应的缓冲区半径(km)
上面的ROC曲线很多,AUC的数据量很大,不方便直观地展示不同矿床类型之间的空间关联。因此,下面用前文所说的网络分析方法来展示不同矿床类型之间的空间关联。具体做法是,以不同矿床类型为网络节点,以矿床类型两两之间关联关系ROC曲线的AUC值为权重构建有向网络图,利用网络分析的方法来看不同矿床类型之间的空间关联关系,结果见图5。
图5 矿床类型空间关联关系网络图
图5中节点为不同矿床类型,节点之间的连边为矿床类型两两之间的空间关联强度。连边越粗、颜色越深表示关联越强。为了体现不同强度的关联以及节点之间的社团结构,用不同的AUC阈值(0.7、0.75、0.8)对网络图连边进行过滤。从图5可以看出,空间关联最强的为热液Cu矿和热液Pb矿,其次为砂矿型Sn矿和热液型Sn矿。图6展示了热液Cu矿和热液Pb矿的空间分布,可以直观看出这两类矿点的空间分布模式相似度非常高。在图6中以Youden指数最大时的热液Pb矿缓冲区半径做缓冲区分析,可以看出热液Cu矿绝大部分分布在热液Pb矿缓冲区范围内,说明二者空间关联紧密。
图6 热液Cu矿和热液Pb矿的空间分布
利用网络分析中的社团检测方法可以挖掘出集合中不同成员的亲疏关系。图7是利用社团发现方法,用ROC曲线下面积AUC值为输入数据构建网络,挖掘出的研究区不同矿床类型空间关联关系图。图7将9种矿床类型分成了5个社团,分别为①热液型Pb矿、热液型Cu矿、热液型Pb-Zn矿、砂矿型Au;②热液型Sn矿、砂矿型Sn;③热液型Au矿;④热液型Fe矿;⑤热液型Sb。每个社团中的矿床类型成员之间空间关联强,不同社团的成矿类型之间空间关联弱,一个社团可以理解为一个矿床共生组合。
图7中,由热液型Pb矿、热液型Cu矿、热液型Pb-Zn矿和砂矿型Au矿构成的社团(图中粉红色圆圈)包含的成员最多,不同矿床类型节点两两之间连边较粗,相互距离接近。这说明相互之间空间关联强度高,这几类矿床在空间上呈较强的共生关系,相伴产出,构成一个空间强关联的共生组合。从这一空间共生组合规律,可以得出如下推测:这四类矿床在成因上应该有一定共性或者联系,可能是同一地质、成矿事件下的产物,其背后的成矿地质因素具有共性,属于一个矿床谱系。这一共生组合中的三类热液矿床主要分布在越南中北部和老挝,即主要分布在印支成矿省(卢映祥等,2009)的万象昆嵩钾铝铜金铅锌成矿带、长山铜铁钨锡铅锌金成矿带、金沙江-哀牢山-马江铬镍铁铜金成矿带(施美凤等,2013)。查阅相关的文献发现,这三类热液矿床大部分都是岩浆热液型,成矿时代上接近,大地构造背景和成矿条件具有一定的共性(施美凤等,2017),这些因素使得这三类热液矿床形成了空间强关联关系。
图7 研究区不同矿床类型空间关联关系网络社团检测结果
而砂矿型Au矿除了与以上三类热液矿床存在空间分布关联之外,还与热液型Fe、热液型Au矿的分布都存在较强空间关联。砂金的分布严格受含金地质体的控制,因此,这种关联关系反映了研究区砂矿型金矿的砂金补给源很可能就是这些与之空间关联的热液矿床,可能是以这些与之空间上关联的原生热液矿床为成矿物质来源风化形成的。这种关系同样也存在于砂矿型Sn矿和热液型Sn矿之间,砂矿型锡矿主要由原生锡矿经过风化淋滤富集而成,往往以残积、坡积、洪积等形式分布于原生锡矿附近(夏庆霖等,2018),因此这两类之间空间关联强,在图5中聚合为一个社团。
从AUC矩阵和图5、图7来看,热液型Au矿、热液型Fe矿、热液型Sb矿三类与大部分矿床类型之间空间关联较弱(AUC<0.7),说明这三类矿床的空间分布模式比较独立。反映出控制这三类矿床空间分布的地质和成矿过程总体上个性突出,与大部分其他类型矿床共性较少,成因联系较弱。其中热液型Sb矿仅与热液型Sn矿有较强的空间关联,这与区域成矿规律是符合的,这两者主要的分布位置都位于泰国西部、缅甸东部、云南南部和马来半岛,即卢映祥等(2009)划分的东南亚西部锡矿带(滇缅马成矿省),在空间上有明显的共生现象。从时代上来说,两者的主要成矿期都是中生代(施美凤等,2013),成因主要都与酸性岩浆岩有关,因此二者空间分布上存在关联。
不同矿床类型空间关联分析的一个重要应用就是用来预测区域矿产,指导找矿实践。通过上面的空间关联分析找出了与目标矿床类型空间关系密切、对其有指示和预测意义的矿床类型,就可以用这些相关的矿床类型的空间点缓冲区图作为预测目标矿床类型空间分布的预测指标。因此,挖掘出不同矿床点之间的空间关联不仅可以找出不同矿床类型在成因上的联系,还可以作为重要的找矿标志,用来预测矿产。
需要注意的是,本文提出的方法只适合于区域尺度的矿床空间点研究,并且矿床空间点数量要达到一定规模,足以能够从中体现出矿床空间分布规律。对于研究程度特别低的地区,可能只发现了少量的矿床点,从统计学来说,样本数量太少则无法体现出矿床空间分布的规律。因此,本文只选取了矿床个数排名前十的矿床成因类型参与了分析。
矿床的出现不仅有空间属性,还有时间属性,要更加全面地分析区域上的矿床分布规律,还需要有详细的矿床成矿时代数据,但限于本次研究区域的大部分矿点并没有成矿时代数据,因此无法从时空两个维度上做深入的讨论。
本文提出的方法是一种全局方法,未考虑空间异质性,这会对评价结果造成一定的影响,影响程度随空间异质性的程度有所不同。空间异质性是空间分析中普遍存在的问题,具体到矿点空间关联关系来说,矿床之间的空间关联关系可能会随着空间位置的变化发生变化,而全局方法是假定矿点的关联在空间上一致。后续工作中会改进方法,以克服空间异质性带来的影响。
不同矿床类型之间往往存在着空间关联,挖掘出这些关联信息,对于认识区域矿产规律,指导区域找矿具有重要意义。但一直以来,关于不同矿床空间关联的研究较少,且研究方法不够定量化。针对这一问题,本文提出了基于ROC曲线的矿床空间关联定量研究方法,以中南半岛矿床点空间分布为实例进行研究,通过ROC曲线,曲线下面积AUC、Youden指数来定量刻画矿床空间关联,利用网络分析的方法来可视化矿床空间关联关系。本研究主要得出如下结论:
(1)本文提出的基于ROC曲线的不同矿床类型空间点关联关系研究方法,可以定量评估区域上不同矿床类型空间点之间关系。通过AUC、Youden指数等指标可以定量表示不同类型矿床(点)空间关联关系的强弱。
(2)通过ROC曲线、网络图、社团检测,可以对不同矿床类型在空间上的关联程度进行可视化。
(3)研究不同类型矿床(点)空间关联关系,对于矿床区域分布模式、区域成矿规律有一定意义;利用与矿床空间存在关联的其他矿床类型的空间分布,可以为成矿预测提供重要依据,从而对找矿实践提供指导。
(4)本文提出的空间关联关系挖掘方法是一种全局方法,容易受空间异质性影响。本文着重从矿床的空间属性来研究了矿床分布规律,缺少详细的矿床成矿时代数据,因此无法从时空两个维度上做深入的讨论。后续研究将针对这些问题进行改进。