非负矩阵分解基向量分析及其在矿产预测中的应用

2013-06-07 08:28:30刘石华李鸿镇初晓凤任雅丽余先川
地质学刊 2013年1期
关键词:金属矿原始数据矿产

张 洁,刘石华,李鸿镇,初晓凤,任雅丽,余先川

(1.北京师范大学信息科学与技术学院,北京 100875;2.广东省地勘局722地质大队,广东 汕头 440500)

0 引言

矿产预测是指结合地质学、数学、信息学以及计算机等技术与理论,通过分析成矿地质数据,深入研究矿产与矿化信息和成矿规律,预测成矿区域并对之作出评价。许多学者对此进行了大量的研究工作(成秋明,2000,2001;赵鹏大,2000;余先川等,2011),其中,利用地质、矿产、遥感、地球物理和地球化学等多种信息进行资源评价的综合信息矿产资源定量预测(王世称,2002)是目前矿产资源预测的主流方法。如何从海量地质矿产数据中提取有效致矿信息是矿场预测的一个关键环节。但由于地质数据具有复杂性且致矿异常具有稀疏性。使用传统的数据处理方法如多元统计分析、线性空间信息统计、空间多元统计分析成分数据分析以及成分分析等,往往具有一定的局限性,这使得从海量矿产数据中有效提取属于“弱信息”的找矿信息非常困难,数据挖掘效果不理想,不能很好地表征矿产特征。例如,主成分分析方法只考虑了数据的低阶统计特性,没有考虑高阶统计特性(Lee et al,2000),对于复杂的矿产预测数据不能很好地表征矿产资源特征。

非负矩阵分解(NMF)(Lee et al,1999)是一种数据处理方法,不仅保留了原始数据矩阵的非负性,并且有降维和稀疏的特征。笔者用NMF方法对矿产预测数据进行处理,以广东新寮岽铜多金属矿区数据为研究对象,通过R型聚类分析研究变量间的相关关系,对相关性较高的聚类结果进行NMF分解,讨论基向量和原变量以及基向量之间的相互关系。实验结果表明,在不同特征值和在稀疏度相似的条件下,NMF的基向量形态基本稳定,将NMF应用于矿产数据处理不仅实现了对原始数据的稀疏化,同时还有效地保留了属于“弱信息”的找矿信息。实验结果证明NMF对于矿产预测有重要的实际意义。

1 非负矩阵分解理论

非负矩阵分解是最近十几年新提出的一种矩阵分解算法。该算法在分解过程中加入了所涉及矩阵及其元素均为非负的约束条件,从而实现了完全不同的矩阵分解结果。Paatero等于1994年发表的论文中首次提出了非负矩阵分解的思想,Lee等于1999年在《Nature》上首次提出NMF的概念,随后又对NMF进行了改进(Lee et al,2001)。随后,NMF成为信息领域的研究热点之一,广大研究者又推广和改进了 NMF 方法(Guillamet et al,2001;Hoyer,2004;Pauca et al,2006;Rutkowski et al,2007;Xue et al,2006)。

下面是NMF理论的数学模型。

V为原始非负矩阵,W和H为分解后得到的非负矩阵,W是数据矩阵V线性逼近的一组基,而H则是样本集的投影系数,且:

其中,对于给定的n维向量集合n为变量个数,m为集合中的数据样本个数,r为基向量的个数,原始数据矩阵V可以分解为基矩阵W和权重系数矩阵H的乘积与误差矩阵E之和。为简单起见,不考虑误差的因素,模型可简化为:

其中,V是非负矩阵V中的元素,Wik和Hkj是因子矩阵W和H中的元素。一般情况下,应满足r≤m,n且(n+m)r<nm,这样就实现了数据的压缩模型。NMF就是要找到较好的基向量组,用较少数据表示海量数据,并得到数据的潜在关系,从而使得到的压缩数据模型对原始数据稀疏化的同时,有较好的逼近效果。

2 矿产预测数据处理实例与分析

以广东新寮岽铜多金属矿区为研究区域,实际勘查区域如图1所示蓝色边框部分。广东省地勘局722地质队在该区域做了大比例尺的矿产勘查工作。样本数据包括1 066个样本,共15种元素,实验中采用红色边框数据。钻孔样品分析区域如图2所示,坑探揭露探槽8条,共1 765.18 m3;钻孔4个,别是 ZK2-1、ZK5-1、ZK5-2、ZK4-1,数据分析了 Cu、Pb、Zn、Sn、Ag、Mo 6 种元素,数据格式如表1。

图1 广东省新寮岽铜多金属矿区地形地质图

图2 广东省新寮岽铜多金属矿区采样图

表1 样品分析结果表

2.1 矿区地质特征

研究区为广东新寮岽铜多金属矿区,调查区内地层和岩浆岩自老—新分别为:下侏罗纪长埔组:主要有2个岩性段,上段是泥质砂岩、粉砂质泥岩夹长石石英砂岩),下段是粉砂岩、泥质粉砂岩夹长石石英砂岩质页岩)。矿区的侵入岩主要分为燕山三期、四期、五期侵入岩、此外还有时代不明的辉绿岩和英安玢岩。燕山三期侵入岩的岩性是黑云母花岗岩),燕山四期侵入岩的岩性是石英闪长岩)、燕山五期侵入岩的岩性是花岗闪长岩()。第四系莲下组是砾石、砾砂及岩质黏土(Ql)。矿区内以断裂构造为主,其走向是北东向断裂和南北向断裂。

2.2 聚类分析

以研究区域为例,原始数据元素变量按照顺序依次为 Au、Pb、Mo、Sn、Cu、Ag、Zn、Cr、Ti、Ni、As、Sb、Bi、W、Be,首先对原始数据进行极值化处理,然后采用逐步成群聚类分析,按照变量相似度(实验中采用相关系数)对变量进行分类,直至生成新的点群,所得连接对相关系数表如表2所示。根据表2,得到R型聚类分析谱系图(图3)。

表2 连接点对顺序表

图3 广东省新寮岽铜多金属矿区R型聚类结果图

2.3 显著性校验

2.4 非负矩阵分解的应用

基于相关聚类分析结果及实际勘测区域分析元素,实验中选择了 Au、Mo、Sn、Cu、As、Sb 6 种元素,用基于欧氏距离的NMF进行处理分析,变量及基向量的相关性见表3。

由表3中数据可知,在相似稀疏条件下,对于不同的特征值r,第一个基向量之间相关性很大,其中W21与W1的相关性为0.902,W31与W21间的相关性达0.920,W32与W22的相似度达0.975。将处理完的基向量进行极值化处理,把数据统一到[0,10],生成克里格栅格图(图4)。图4表明,在相似稀疏条件下,基于不同的特征值r对矿产数据进行NMF分解,所得基向量基本稳定。可见,用NMF方法可以有效地稀疏原始矿产数据,同时保留原属于“弱信息”的找矿信息,处理后的数据对于原始数据具有较好的逼近效果。

表3 新寮岽铜多金属矿区变量及基向量的相关性

图4 广东省新寮岽铜多金属矿区基向量对应的栅格图

3 结论

讨论了非负矩阵分解方法的基向量与原变量以及基向量之间的关系,并将该方法用于矿产预测数据处理。在广东新寮岽铜多金属矿区数据上的实验结果表明,在不同特征值和相似稀疏度条件下,非负矩阵分解方法的基向量形态基本稳定,用该方法对矿产数据进行处理,可以在有效保留属于“弱信息”的找矿信息的同时,实现对原始地质数据的稀疏化。NMF方法对于矿产预测具有重要的实际意义。

成秋明.2000.多重分形理论与地球化学元素分布规律[J].地球科学:中国地质大学学报,25(3):311-318.

成秋明.2001.多重分形与地质统计学方法用于勘查地球化学异常空间结构和奇异性分析[J].地球科学:中国地质大学学报,26(2):161-168.

王世称.2002.综合信息矿产预测理论与方法[M].北京:科学出版社.

余先川,胡丹.2011.盲源分离理论与应用[M].北京:科学出版社.

赵鹏大.2002.“三联式”资源定量预测与评价——数字找矿理论与实践探讨[J].地球科学:中国地质大学学报,27(5):482-489.

GUILLAMET D,BRESSAN M,VITRIÀ J.2001.A weighted non-negative matrix factorization for local representation[C].Proc of Comp Vision and Pattern Recog.Los Alamitos,California,USA:IEEE,I:942-947.

HOYER P O.2004.Non-negative matrix factorization with sparseness constraints[J].Journal of Machine Learning Research,5(9):1457-1469.

LEE D,SEUNG H S.1999.Learning the parts of objects by non-negative matrix factorization[J].Nature,401:788-791.

LEE T W,GIROLAMI M,BELL A J,et al.2000.A unifying information-theoretic framework for independent component analysis[J].Computers and Mathematics with Applications,39:1-21.

PAATERO P,TAPPER U.1994.Positive matrix factorization:non-negative factor model with optimal utilization of error estimates of data values [J].Environmetrics,5:111-126.

PAUCA P,PIPER J,PLEMMONS R.2006.Nonnegative matrix factorization for spectral data analysis[J].Linear Algebra Application,416(1):29-47.

RUTKOWSKI T M,ZDUNEK R,CICHOCKI A.2007.Multichannel EEG brain activity pattern analysis in time-frequency domain with nonnegative matrix factorization support[J].International Congress Series,(1301):266-269.

XUE YUN,TONG CHONGSZE,CHEN WENSHENG,et al.2006.A modified non-negative matrix factorization algorithm for face recognition[C]//18th International Conference on Pattern Recognition(ICPR'06)Washington D C,USA:IEEE Computer Society,3:495-498.

猜你喜欢
金属矿原始数据矿产
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
《矿产综合利用》征稿启事
《矿产综合利用》征稿启事
受特定变化趋势限制的传感器数据处理方法研究
河南宅延多金属矿磁异常区找矿前景
矿产勘查(2020年7期)2020-12-25 02:44:16
河南省栾川县深部探明超大型钼多金属矿
矿产勘查(2020年5期)2020-12-19 18:25:11
盘点2020国内矿产新发现(二)
矿产勘查(2020年11期)2020-01-04 21:04:51
我国金属矿采矿技术的进展与未来展望
我国将24种矿产确定为战略性矿产
河北地质(2017年1期)2017-07-18 11:08:09
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
汽车零部件(2017年4期)2017-07-12 17:05:53