基于因子分析和RGB加色混合的钻探品位数据可视化

2021-03-24 08:06卢志伟吕绍玉
中国矿业 2021年3期
关键词:降维品位可视化

卢志伟,吕绍玉,王 均,赵 鸿,王 东

(1.中国地质大学(北京)地球科学与资源学院,北京 100083;2.贵州省地矿局一一三地质大队,贵州 六盘水 553000;3.中国地质调查局国家地质实验测试中心,北京 100037)

0 引 言

随着地质学领域越来越多的引入定量化研究,数据已经成为了地质学研究最基本的信息载体[1]。地质学领域涵盖的数据形式多种多样,大部分是定量化的数字形式,这类量化数据是抽象的,通过单一的数据往往不能够直观、全面地感受到数据中承载的重要信息[2]。因此,数据的可视化已经成为地质学数据处理中重要的环节[3],通过图像简明、直观地呈现出数据背后的信息。例如在物探和化探中,将众多的空间数据信息表达成图件,进而更好地进行下一步研究。在数据可视化中,高维数据可视化是重点和难点[4],例如钻孔品位数据,通常包含多于三个成矿元素的数据。由于人眼可感知的维度最多到三维,一旦数据维度大于三维就不能直接感知。因此,如何对高维地学数据进行可视化处理是地学数据可视化研究中的重要内容。高维数据的可视化,一般是通过降维的方法把数据从高维降到三维或更少的维度,从而在低维空间进行可视化。降维是高维数据处理当中使用最多的方法之一,就是降低原始数据的维度,把数据当中的信息压缩到更低的维度。数据降维的方法多种多样,常用的有传统因子分析、主成分分析以及各种基于流形学习的非线性降维方法[5](如t-SNE[6]、MDS[7])。

传统钻孔品位数据大多以表格的形式呈现,或者是简单地把品位数据划分为不同类别的矿体和围岩,这些方法无法直观表达钻孔品位数据的隐藏信息,忽略掉了钻孔品位数据的渐变信息,因此需要建立三维模型来表达钻孔品位数据。传统的矿床三维建模构建的矿体品位模型往往将品位值按高低进行可视化,但只能对一种成矿元素的品位进行可视化,无法同时看到多个成矿元素的品位,也就无法实现多维品位数据的可视化[8-10]。

据此,本文提出基于因子分析和RGB加色混合的品位数据可视化方法,首先将高维品位数据降低到低维,然后把低维变量分别表达为RGB三原色,进行加色混合,从而实现高维品位数据的可视化,从品位可视化结果中可以同时看到多个元素的品位变化,且能较好地保留品位的渐变信息,便于研究矿床品位的变化趋势和变化规律。

1 研究方法

1.1 因子分析

因子分析是一种将大量的变量(高维变量)减少为少量的因子(低维变量)的数据简化和降维的技术[11]。该技术通过研究变量之间的内部相互依赖关系,根据数据的基本结构,将输入变量概括为少数几个“抽象”的低维变量,用这几个低维变量来反映信息[12],这几个低维变量被称为“因子”。这些因子是相关性较强的原始变量的综合指标,具有抽象性和不可直观性。根据研究对象,因子分析可分为R型因子分析和Q型因子分析,R型因子分析针对变量进行分析,Q型因子分析针对数据样本进行分析。本文涉及的是R型因子分析[13],主要步骤包括7步:①确定研究问题,选取原始变量;②对原始变量协方差(相关)矩阵进行检验,确定是否符合因子分析条件,最常用的检验方法是KMO取样适合度检验和巴特利特球形检验;③选择因子提取方法。主要有主成分法、最大似然法、主轴因子法、最小二乘法等,主成分法最常用;④确定因子数目,一般用碎石图、平行分析等方法加以判别,因子数目不能大于原始变量数目;⑤因子旋转,确定好因子旋转方法(如方差极大化方法),对因子进行旋转,使原始变量与尽可能少的因子有密切关系,增加因子的可解释性,使因子的实际意义更加明确;⑥因子的命名和解释,根据因子的实际意义对其命名,方便后面使用;⑦计算数据样本的因子得分,因子得分就是每个样本从原始数据转换为新的低维变量之后的数据,用这些数据进行分析。

1.2 RGB加色混合

加色混合是常用的多维数据可视化方法[14-15],其基本原理是通过把不同变量表达为红(R)、绿(G)、蓝(B)颜色体系中不同的颜色成分,进行加色混合,用混合后的颜色来可视化多个变量的综合信息。图1显示了RGB三种颜色的混合原理和效果。RGB加色混合的常见规律如下所述。

图1 RGB颜色合成示意图

1) R、G、B三原色的值是有范围的,通常设定为0~255的整数,三原色合成颜色可以表示为(R,G,B)的形式,形成一个由三个变量构成的三维颜色空间(图1),该三维空间中,一个点代表一个颜色,比如(255,0,0)表示红色,(255,255,0)表示黄色。

2) 三原色中任意一个颜色,值越小,颜色越暗,值为0时呈黑色,颜色越大越亮。

3) 当R、G、B三色等量混合时,可得到白色。三原色中的两色等量混合时,绿+蓝=青;红+绿=黄;蓝+红=品红。

4) 三原色不等量混合,颜色偏向于较强的颜色。

5) 原色光混合后的亮度高于原有色光的亮度。

加色混合需要先将代表颜色的变量连续值映射到颜色空间,就是把品位指标连续值转换为颜色值(0~255的整数),本文采用先将连续值标准化到0~1 之间,然后乘以255,再近似为整数的方法。

1.3 品位缺失值处理

对钻孔品位数据进行加色混合的目的是对钻孔品位的垂向变化规律进行可视化,这就要求钻孔品位值在钻孔上尽量连续,缺失数据越少越好。但是在实际情况中,受样品测试方法的限制,可能会导致元素低于检出限,造成数据缺失;或者不同时期的钻探品位数据,前后针对的找矿目标不用,测试元素项目不同,从而造成目标元素品位数据缺失。品位数据的缺失造成存在缺失值的钻孔部位其品位信息无法被可视化,不利于品位数据空间变化规律的研究。

本文选取多元线性回归方法求解缺失品位数据的预测值,进行缺失数据插补。多元线性回归模型假设响应变量Y与预测变量x1,x2,…,xn之间存在的线性关系见式(1)。

(1)

式中:Y为响应变量;xi为预测变量;a为截距;bi为回归系数;ε为回归残差。

在实际问题中,给定的自变量并不是都与预测目标关系密切,如何确定对回归模型有显著影响的自变量组合是影响结果的重要因素。一般的解决办法是根据研究的问题,结合领域知识,罗列出对因变量有影响的因素作为自变量。 当理论和经验对模型中应该包含哪些变量无法提供可靠的依据时,采用逐步回归法,从数据本身出发对自变量进行自动选择[17]。

1.4 技术流程

综合上述方法,形成了本文研究的技术流程(图2),包括对原始数据的清洗、利用因子分析法对数据降维、利用加色混合实现数据可视化。

图2 技术流程图

2 研究区概况及数据简介

2.1 研究区概况

五里坪矿床属铅、锌、钼、银多金属矿床,位于黔西北哑都-蟒硐断裂构造成矿亚带[18],通过研究已证实该矿成矿潜力巨大[19]。五里坪矿床具体特征如下所述。

1) 矿体宏观特征。铅锌(钼)矿体主要产于北西向主干断层破碎带及次级构造中,尤其产于旧司组(C1j)及上司组(C1s)的炭质黏土岩、黏土岩上覆摆佐组(C1b)的白云岩、白云质灰岩所形成的层间破碎带和层间软弱带中。

2) 矿化蚀变特征。围岩蚀变主要有硅化、白云岩化、黄铁矿化、褐铁矿化、方铅矿化、重晶石化、方解石化等。其中,黄铁矿、石英与钼矿、铅锌矿的关系较为密切。矿石常见它形-半自形-自形粒状结构、碎屑状结构、压碎角砾状结构等,以角砾状构造、浸点状构造、似层状构造为主。

3) 矿石矿物成分及特征。矿石矿物主要为钼铅矿、方铅矿、闪锌矿、黄铁矿等。其中,钼铅矿粒度0.1~0.3 mm,有两种存在形式:①灰白色透明半透明碎屑状或四方板状不完整晶形,玻璃光泽至金刚光泽,粉末呈白色,断口油脂光泽,硬度2.5;②以方铅矿、白铅矿为假象呈不规则粒状,半金属光泽至光泽暗淡,硬度2.5~3.0。上述两种存在形式为罕见的钼铅矿形式,在该区为首次发现。

4) 矿床成因。根据矿区内矿层特征、矿物组分、矿石组构及矿物共生组合、钼铅锌的赋存状态研究,初步认为该矿床属热液型多金属矿床[20]。

2.2 数据来源

本次所涉及的品位数据来自2012—2017年不同批次钻探。品位数据涉及到Pb、Zn、Ag、Mo、Sb共5个元素,其中,Sb元素存在数据缺失的情况较多(大约占全部数据的10%)。

3 结果与讨论

3.1 缺失值处理结果

以Pb、Zn、Mo、Ag品位数据为模型的自变量,Sb为因变量,使用逐步回归法对数据中的Sb品位值缺失值进行预测。逐步回归分析AIC值显示的变量重要性排序为:Mo>Pb>Ag>Zn,其中,Ag和Zn的回归系数显著性水平较差,对于回归模型影响较小,因此剔除自变量Ag和Zn,保留Pb、Mo两个变量,建立的回归方程见式(2)。

Sb=0.015 412+1.702 175×Mo- 0.05 398×Pb (2)

回归方程相关的检验参数见表1。回归方程中两个自变量的方差膨胀因子(VIF)经检测均小于2,因此不存在多重共线性问题。自变量Pb和Mo的p值均小于0.001,在p=0.001的水平上通过显著性检验。回归分析结果评价参数显示:R2为0.815 8,RMSE为0.103 9。说明回归分析效果较好,可以满足实际需求。图3为回归分析预测值与实际值散点图,由图3可知,散点分布较为紧凑,趋势性明显,围绕y=x斜线分布,说明预测值较好的拟合了实际值,预测效果越好。利用这个训练好的回归方程对Sb品位缺失值进行回归,供下一步因子分析使用。

3.2 因子分析结果

对插补好缺失值的品位数据进行巴特利特球度检验,并计算KMO值。结果表明巴特利特球度检验的显著性p值远远小于0.05,KMO值为0.71,说明符合因子分析的条件。将处理完缺失数据的品位数据进行因子分析,以实现数据降维,用最少的因子尽可能地解释数据中更多的方差。图4为对品位数据进行平行分析得到的平行分析碎石图,图中的虚线代表随机模拟数据,实线代表真实数据,代表真实数据的曲线中有3个成分的特征值位于模拟数据曲线之上。因此,根据碎石图结果,保留3个因子。

图3 Sb品位训练数据及测试数据与实测值散点图

图4 平行分析碎石图

确定因子数量后,选择主成分法进行因子提取,把5个元素降维成3个,3个因子分量的总累计方差贡献率为86.02%。为了使因子分析得出的因子载荷结构简化,便于解释,需进行因子旋转,本文选择最大方差法进行因子旋转。表2为旋转之后的因子载荷,图5为旋转后的因子载荷图。从表2和图5可以看出,F1因子代表Pb和Ag,F2因子代表Mo和Sb,F3因子代表Zn。3个因子分量就是品位加色混合的输入数据。

表2 五里坪矿床钻孔品位数据R型因子分析旋转因子载荷表

图5 旋转后因子载荷图

通过因子分析,将5个元素品位数据降维成了3个低维变量,为了方便叙述,将根据旋转因子载荷把F1因子称为Pb-Ag因子,F2称为Mo-Sb因子,F3因子称为Zn因子。

3.3 加色混合可视化结果

通过RGB加色混合方法将3个因子变量映射到RGB颜色空间。Pb-Ag因子映射到RGB中的红色(R),Mo-Sb因子映射到绿色(G),Zn因子映射到蓝色(B)。H1样品的Pb-Ag因子得分为0.15;Mo-Sb因子得分为-0.5;Zn因子得分为-0.01,将这些值转换为RGB颜色值之后分别为:30、0、25三个整数。则H1样品的RGB颜色值为(30,0,25),利用这个颜色值在Excel中对各个样品对应的单元格进行颜色填充,从而实现该样品的品位RGB加色混合可视化,选取钻孔KYZK02中的一段来举例展示加色混合效果(表3)。

从表3中可以看出,样品H1和样品H11的颜色较暗,说明三种颜色值都较小,3个因子都较小,表明所有元素在这2个样品上品位值都不高,取样位置可能是围岩或者矿化较弱。其余大部分样品颜色鲜亮,呈现青色,这种颜色主要是由蓝色和绿色混合而成,说明F2、F3两个因子得分高,说明这些样品的Mo、Sb、Zn品位较高,Pb和Ag品位较小。H6呈现肉红色,偏向于黄色,亮度较高,说明,红色和绿色成分较强,反映在元素上,说明Pb、Ag组合和Mo、Sb组合的品位较高。由此可见,通过颜色值可以看反映岩心品位的高低。并且通过颜色的垂向变化,可以看出品位在钻孔上的分布和变化规律。

表3 钻孔KYZK02(29.2~40.0 m)品位数据及可视化

图6 钻孔KYZK01品位可视化结果

表3的可视化结果说明,品位数据降维可视化得到的RGB加色混合色谱很好地反映了钻孔中的品位变化规律。品位变化规律要与地质因素对照才有实际意义,因此为了将品位加色混合可视化结果与岩性、矿化、构造等条件一起对比讨论,选择了地质、矿化信息较为丰富的KYZK01钻孔进行品位值加色混合可视化(图6)。图6中列出了岩性描述、柱状图、采样位置、品位值及F1~F3因子加色混合可视化结果和单个因子分量可视化结果。 列出F1~F3的单个变量可视化结果,是为了对单个变量进行单色可视化,反映单个变量的变化情况,并与三个因子变量的加色混合可视化结果相对比。从图6中可以得到以下规律。

1) 钻孔中红、绿、蓝三色都有,说明三者代表的品位组分,即Pb-Ag、Mo-Sb、Zn三种品位组合各自占主导的矿化在钻孔中都有分布。

2) 钻孔上部以红色为主色调,下部以蓝色和绿色为主色调,说明上部主要为Pb、Ag矿化,下部主要为Mo、Zn矿化。

3) 合成色谱中颜色较亮的地方比较偏向于三原色中的红、绿、蓝单色,而不是青、品红、黄色以及白色等合成色。说明三种元素组合中,同一位置出现2个因子、3个因子得分都高的情况较少,更多的是一个高,另外两个低,比如Pb-Ag品位高,而Mo-Sb、Zn品位低。

4) 在两个断层(图中虚线)经过的部位,RGB合成色谱偏向于红色,说明断层附近Pb、Ag品位高。

5) 整个加色混合色谱中的颜色变化呈现出渐变为主,突变为辅的规律。反映出五里坪铅锌多金属矿床的品位变化是以渐变为主,突变为辅。

以上品位分布规律仅是从KYZK01一个钻孔的品位加色混合可视化结果中看出来的,只能体现这一个钻孔中的规律,如要得到五里坪铅锌多金属矿床更多、更准确、更具有普遍意义的品位分布规律,还需要结合更多的钻孔品位可视化结果。提取出这些品位分布规律,对于预测未知区域的品位分布情况,以及研究矿床成因、控矿因素等问题具有一定意义。

由于RGB加色混合方法每次最多只能同时可视化3个变量,但是因子分析并不能强制要求品位值降低到三维,在原始变量较多的情况下,降维之后的变量依然可能大于3个。因此若降维之后,因子数量大于3个,可以采取从多个变量里面每次选择3个进行加色合成,进行多次加色合成,生成多个色谱的方法。或者用其他能够指定降维目标维度的降维方法,这样可以保证变量在3个以内。

4 结 论

1) 本文提出的高维品位数据可视化方法能够直观地呈现出品位数据在钻孔上的高低变化,将品位数据沿着钻孔从上到下的变化趋势直观反映出来,对于研究品位的空间变化规律具有意义。

2) 颜色亮度反映品位高低,颜色类型反映不同品位组分相对的占比。

3) 将岩性、构造等要素和品位可视化图放在一起对照,能够从中找出影响品位变化的地质因素。本文仅展现了所提出的可视化方法在平面图上的应用,未来可以继续探索将这种方法拓展到三维地质模型。

4) RGB加色混合可视化方法目前还存在一些缺陷,即每次最多只能同时可视化3个变量。后续研究中将对这个问题进行研究,提出更完善的品位数据可视化方案。

猜你喜欢
降维品位可视化
混动成为降维打击的实力 东风风神皓极
基于CiteSpace的足三里穴研究可视化分析
思维可视化
钟情山花烂漫 品位幸福时光
基于CGAL和OpenGL的海底地形三维可视化
降维打击
“融评”:党媒评论的可视化创新
金堆城钼矿床硫元素分布规律研究
提升城市品位 推进转型升级
一种改进的稀疏保持投影算法在高光谱数据降维中的应用