余先川,任雅丽,初晓凤,徐金东,刘石华,李鸿镇,张 洁
(1.北京师范大学信息科学与技术学院,北京 100875;2.广东省地勘局722地质大队,广东 汕头 440500)
矿产预测是在科学预测的理论指导下,通过分析成矿地质条件,深入研究矿产与矿化信息,总结成矿规律,预测成矿区域(赵鹏大,2012)。矿床具有经济上的紧缺性、地质上的特异性,人们对地质结构的认识有限,找寻矿床是一项非常复杂且具挑战性的工作。Allis于1957年开创了矿产预测的先河(李随民等,2007),将数学方法引入到矿产资源预测。20世纪60年代,传统的数理统计方法被引入到矿产预测领域 (Harris,1997;Agterberg et al,1970)。20世纪70年代末,国际上采用了“矿产资源评价中计算机应用标准”,推出了6种标准的矿产资源定量评价方法,矿产资源定量评价进入一个新的阶段。随着矿产预测难度的增 加及技术的发展,GIS被有效地运用在矿产预测中。此后,美国学者提出的“三步式”矿产资源评价方法,已成为较完善的矿产资源评价体系(Singer,1997)。
我国学者在矿产预测领域也做出了突出贡献,矿产预测理论、方法日趋成熟。我国对矿床预测的研究始于赵鹏大院士(2002)的“地质异常致矿理论”和“三联式”5P地质异常定量评价方法;王世称(2000)从地质、物探、化探、遥感、矿产资料信息综合出发,强调矿产定量预测与其他预测相结合,独创了综合信息矿产资源评价方法;以成秋明(2001)为代表的学者在矿床的分形模拟、多重分形与空间统计、多重分型异常分析及有关奇异性的研究成果具有重要的理论及实际意义;余先川(2011)的非线性空间信息统计分析、空间独立成分分析等。近年兴起的集计算机科学、数学、神经学等学科为一体的综交叉学科,人工神经网络在矿产预测中也取得了一定的成果。
随着经济的快速发展,对矿产资源的需求量越来越大,亟需研究新的经济高效的矿产预测方法。矿产数据具有非负性、数据量大、结构复杂等特点,而非负矩阵分解(NMF)加入了非负约束条件,有数据降维的功能,可很好地处理大规模数据,且NMF具有分解形式简单、结果可解释性强、数据量低等优点,故NMF处理矿产数据具有先天的优势。Guillamet等(2001)提出的加权非负矩阵分解(WNMF)是根据变量相关程度决定加权矩阵,分解的基向量包含重要变量信息,同时包含其他相关变量信息,有利于提高矿产资源预测精度。为此,笔者将WNMF引入到矿产预测的领域,通过R型聚类分析,结合显著性分析,将变量分为不同的群,将经过预处理之后的数据进行加权非负矩阵分解。实验以广东省新寮岽铜多金属矿区数据为例,运用基于WNMF的方法进行矿产预测:对分解得到的基向量进行回归分析,讨论了基向量的意义,通过基向量预测圈定异常,得到明显的异常区域,论证了WNMF的有效性。
非负矩阵分解理论是在矩阵分解过程中加入非负约束条件的一种分解方法。非负矩阵分解可描述如下:对于任意原始矩V,非负矩阵分解算法能够分解得到非负矩阵W、H,使得V=WH,从而达到将1个非负的矩阵分解得到2个非负矩阵的乘积。矩阵V的列向量可以理解为基向量的线性组合,其中矩阵W的每列为基向量,矩阵H为权重系数矩阵。非负矩阵分解理论的数学模型为:已知原始非负矩阵V,分解得到合适的非负矩阵W和H,使得:
矩阵W是数据矩阵V线性逼近的一组基,而H则是样本集的投影系数。通常情况下,如果能够找到较好的基向量组,就可以用较少数据表示海量数据,能够得到数据潜在的关系,获得较好的逼近效果。
矿产预测中,可以对研究的变量赋予较大的权值,对相关性小的变量赋以较小的权值。权重矩阵为Q,Q中的每个元素代表元素所占的权值。目标函数基于似然函数,加权非负矩阵分解目标函数、迭代规则如下。目标函数为:
迭代规则定义为:
经过加权非矩阵分解,分解的基向量更能代表研究的重要变量信息,同时包含其他相关变量的信息,实验结果更利于应用于矿产预测的领域,提高矿产资源预测精度。
回归分析是研究因变量与自变量依赖关系的一种统计方法。回归分析要求因变量y满足正态分布。因变量y对自变量x的依赖关系用数学模型表示:
(1)回归方程的建立,对回归的显著性进行检验,评价回归效果;
(2)变量的贡献,即对回归效果的影响;
第Ⅱ簇包含了Nb,Y,La,Th, U元素组合,与F2因子一致。主要富集在了研究区中部肉红色中细粒钾长花岗岩中,反映了中酸性岩分布特征以及中酸性岩浆岩有关的稀有元素的矿化因子的地球化学背景特征。
(3)根据回归效果,选择最优回归方程;
(4)根据回归方程进行预测。
回归效果的优劣,通过因变量的总离差平方和被回归估计值^y估计程度来衡量。y的离差平方和如下:
研究区为广东新寮岽铜多金属矿区,调查区内分布地层较为单一,地层和岩浆岩自老到新分别如下。
下侏罗纪长埔组:主要有2个岩性段,上段是泥质砂岩、粉砂质泥岩夹长石石英砂岩(),下段是粉砂岩、泥质粉砂岩夹长石石英砂岩质页岩)。
矿区的侵入岩主要分为燕山三期、四期、五期侵入岩、此外还有时代不明的辉绿岩和英安玢岩。燕山三期侵入岩的岩性是黑云母花岗岩),燕山四期侵入岩的岩性是石英闪长岩)、燕山五期侵入岩的岩性是花岗闪长岩)。
第四系莲下组是砾石、砾砂及岩质黏土(Ql)。
矿区内以断裂构造为主,其走向是北东向断裂和南北向断裂。
新寮岽铜多金属工作区位于广东省揭阳市揭东县龙尾镇北西方向3.8 km处。广东地勘局722地质队在此做了大比例尺的矿产勘查工作,完成化探次生晕采样 1 327 个,分析了 Au、Pb、Mo、Sn、Cu、Ag、Zn、Cr、Ti、Ni、As、Sb、Bi、W、Be 共 15 个元素;坑探揭露探槽8条,共1 765.18 m3;钻孔4个,分别是ZK2-1,孔深 111.98 m;ZK5-1,孔深 150.80 m;ZK5-2,孔深 119.00 m;ZK4-1,孔深116.00 m。
如图1所示,蓝色边框为实际勘测区域,便于分析,实验中采用红色边框区域数据。实验数据V(1 066×15),其中1 066为样本个数,15为元素个数。数据分析了 Cu、Pb、Zn、Sn、Ag、Mo 计6 种元素,数据格式如表1。
首先对原始的15类元素进行R型聚类分析,连接点对,根据相关系数得到R型聚类分析谱系图(图2),进行相关聚类后可将原始化探数据分3类分析处理。Pb、Ag、Zn 3个元素相关性较大,将其分为第一类。第二类:As、Sb、Au、Sn、Cu、W。第三类:Cr、Ni、Ti。基于相关聚类分析结果及实际勘测区域分析元素,选择 As、Sb、Au、Sn、Cu、W 6 种元素进行NMF分解分析。
图1 广东省新寮岽铜多金属矿区地形地质图
表1 样品分析结果表
图2 基向量回归效果图
实验中采用的权重系数矩阵Q=[0.04 0.04 0.04 0.8 0.04 0.04],其中权重之和为1。取r=2,进行加权NMF分解。第二基向量呈正态分布,对其进行回归分析,回归效果显著(图3),所以可以用第二基向量进行Cu矿产预测。
在图2中,默认的置信度水平alpha为0.05,Coeff.分别对应变量回归方程的系数,t-stat为t-检验显著性值,p-val为与显著性相关的值,Intercept为回归方程的截距,R-square为复相关系数,越大越好。如图3所示,回归效果有效,回归方程式为:
通过回归方程式可见,基向量为原变量的组合信息,所以可以利用基向量进行组合异常的圈定,进而进行矿产预测。
运用基向量进行Cu矿产预测,绘制等高线,加载地质底图做为基面图,绘制Cu的矿产预测分布图(图4a)。
图3 广东省新寮岽铜多金属矿区Cu原始分布图及勘测区Cu原始数据
图4 广东省新寮岽铜多金属矿区区域预测及实际勘测区预测
通过对比图3a、4a发现,经过NMF分解的基向量预测更为精准,异常区域较为明显(等值线密集区域),能够较好的消除单点值引起的异常。为了验证矿产预测的有效性,实际勘测区域的预测图如图4b所示。勘查区域ZK4-1(ZK4-1-1—ZK4-1-24)Cu元素质量分数平均值高达2 247 g/t。基向量预测结果ZK4-1异常更加明显,预测效果更好。
提出了一种新颖的基于WNMF的矿产预测方法,通过R型聚类分析变量间的相关性,对相关性高的聚类结果进行加权非负矩阵分解。选用广东新寮岽铜多金属矿区数据为研究对象,以WNMF分解得到的基向量进行预测,作分布图,对比实际勘测区钻孔、探槽数据,基于WNMF的矿产预测方法对实验区取得了较好的预测效果。
成秋明.2001.多重分形与地质统计学方法用于勘查地球化学异常空间结构和奇异性分析[J].地球科学:中国地质大学学报,26(2):161-168.
李随民,姚书振,周宗桂.2007.矿产资源定量预测的研究现状[J].地质找矿论从,22(1):9-12.
王世称.2002.综合信息矿产预测理论与方法[M].北京:科学出版社.
余先川,胡丹.2011.盲源分离理论与应用[M].北京:科学出版社.
赵鹏大.2002.“三联式”资源定量预测与评价——数字找矿理论与实践探讨[J].地球科学:中国地质大学学报,27(5):482-489.
赵鹏大.2006.矿产勘查理论与方法[M].武汉:中国地质大学出版社.
AGTERBERG F P.1970.Multivariate prediction equations in geology[J].Journal of the International Association for Mathematical Geology,2(3):319 -324.
GUILLAMET D,BRESSAN M,VIRTIA J.2001.A weighted non-negative matrix factorization for local representation[C]//Computer Vision and Pattern Recognition:Proceedings of the 2001 IEEE Computer Society Conference.Los Alamitos,California,USA:IEEE.1:942 -947.
HARRIS D V.1997.矿产资源评价——过去、现在的看法和对未来趋势的展望[G]//文世澂,译.矿产资源评价和矿业经济分析方法与实践:地质矿产信息研究成果(70).北京:中国地质矿产信息研究院,1-11.
SINGER D A.1997.未发现矿产资源三阶段定量评价的基本原理[G]//张莓,译.矿产资源评价和矿业经济分析方法与实践:地质矿产信息研究成果(70).北京:中国地质矿产信息研究院,12-22.