正态分布和对数变换在化探数据处理中存在问题的讨论

2017-07-01 20:00高艳芳柳青青王文君
物探化探计算技术 2017年3期
关键词:化探正态分布对数

高艳芳, 柳青青 , 王 玮 , 王文君

(1.国土资源部 地球化学探测技术重点实验室,廊坊 065000; 2.中国地质科学院 地球物理地球化学勘查研究所, 廊坊 065000; 3.河南省地质矿产勘查开发局 第四地质勘查院, 郑州 450001)

正态分布和对数变换在化探数据处理中存在问题的讨论

高艳芳1,2, 柳青青1,2, 王 玮1,2, 王文君3

(1.国土资源部 地球化学探测技术重点实验室,廊坊 065000; 2.中国地质科学院 地球物理地球化学勘查研究所, 廊坊 065000; 3.河南省地质矿产勘查开发局 第四地质勘查院, 郑州 450001)

长期以来,常量元素大多服从正态分布、微量元素大多服从对数正态分布的观点,被广大的化探工作者所认同,利用对数变换进行异常下限的分析和利用对数0.1间隔进行地球化学图色阶值的设定也是基于这一理论基础。但是在实际的应用中发现,化探数据中的元素概率分布特征并非如此,利用对数进行异常下限的确定和色阶的设定会出现异常下限过高和色阶分布不均匀的问题。利用计算机技术和可视化技术,利用大量的实测数据,对元素的统计分布特征和利用对数确定异常下限的过程进行了详细地探讨和分析,认为化探数据由于具有鲜明的空间性,所以并不一定具有正态分布的固有属性,同时确认,利用对数变换获得的异常下限过高是因为对标准离差的误用引起的。

正态分布; 对数变换; 异常下限; 标准离差; 色阶

0 前言

化探人员从接触化探数据起,就要涉及正态分布的概念及相应的数据处理问题[1]。多年来一直在沿用的,利用算数平均值(背景值)加上n倍标准离差来确定异常下限的方式,就是建立在元素服从正态分布的理论基础之上。从经典统计学的角度来讲,利用多元统计方法对化探数据进行分析的前提是元素服从正态分布。基于此,实际工作中,为了使不呈正态分布的元素变为正态分布,应进行对数变换,所以“对数”这一名词在化探数据处理中多处被引用(如:地球化学图的色阶值按0.1对数间隔进行划分;地球化学图中对数值直方图的制作)。同时包含了“正态分布”和“对数”这两个名词的一个观点是:常量元素服从正态分布,微量元素服从对数正态分布,这一观点被众多的化探工作者认知。实际科研生产中获得的化探数据中的各元素究竟服从什么样的概率分布?对数变化及对数值的应用过程又带来了什么样的结果?笔者利用计算机技术及可视化技术对这两个方面的问题进行了深入的剖析。

1 正态分布在化探数据处理中的应用

1.1 正态分布

正态分布(高斯分布)是连续型随机变量概率分布的一种形式,由中心极限定理推论而来。由于客观世界中的许多自然现象、社会现象都可以看作是正态分布或者是近似正态分布,并且可以利用其分布状态来进行预测、判断和推理,所以它在数理统计的理论与实际应用中占有重要的地位[2-5]。正态分布的密度函数为:

(1)

其中:x为随机变量,定义域为:[-∞,∞];μ为平均值;σ为标准离差;y为概率密度。根据此公式绘制出概率密度分布曲线。在正态分布状态下,此曲线呈现中间高、两端逐渐下降且左右完全对称的几何形状,称之为正态分布曲线或钟形曲线(图1)。当μ等于“0”,σ等于“1”时称为标准正态分布曲线。

从图1中可以看出,正态分布的数据一半以上都集中在(μ-1σ,μ+1σ)区间范围内,占有68.27%的频率[6-9],此部分为基区;在(μ-2σ,μ+2σ)的范围内占有95.64%的频率,即此范围内的数据量占总数的绝大多数,也可以说,在μ±2δ范围外的数据占有不到5%,该数据称为特殊的数据,此范围为异常区,此为确定化探异常下限的理论依据;此外,可以发现,在μ±3σ范围之外仅有不到0.3%的数据量,此范围内的数据为极端异常区(统计学上,称为不可能事件区)。这就是化探数据迭代剔除时去除3倍标准离差时的理论依据,即3倍标准差原理或3σ法则[10-11]。

图1 正态分布的钟形曲线Fig.1 The graph of normal distribution

自然界、人类社会、人文教育中的大量现象均按正态形式分布,所以调查研究时,可以利用某一现象的正态分布曲线进行分析对比。在化探中,可以利用μ±3σ范围之外为不可能事件的结论,推断此范围的数据为极端的正负异常数据。

1.2 地球化学数据的正态分布

关于化探数据的概率分布形式,通用的观点是:地质体元素含量的概率分布一般均表现为正态分布或对数正态分布形式,不同的分布形式分别代表着不同的地球化学意义[11-13]。基本的认知如下:

1)矿物、岩石中的常量元素大多服从正态分布,微量元素大多服从对数正态分布。

2)当元素近似均匀地分散在各种矿物中时,元素在岩石中呈正态分布,当元素集中在某种矿物中时,元素在岩石中则呈对数正态分布。

3)单一地球化学作用下,元素多数呈对数正态分布,多次地球化学作用综合产物中元素分布形式趋向于正态分布(如新鲜花岗岩中,亲硫元素呈对数正态分布,而在多次表生作用所形成的土壤中则呈正态分布)。

4)对数正态分布可能代表一种混合体,换言之,对数正态总体不一定是在一次地质作用过程中形成的,而是多次地质作用叠加的结果。

基于以上的观点,以及经典统计学中聚类分析、因子分析、相关分析等都是以正态分布为条件,所以长期以来,在化探科研和生产中,在数据处理时,首先关心和关注的是所获数据中各元素的概率正态分布的特征,以用于进行异常下限的确定、异常图的制作和多元统计分析。

1.3 正态分布的应用探讨

地球化学元素正态分布观念已被业内认知和认同了多年,但是从实际的数据来看,微量元素呈对数正态分布,常量元素呈现正态分布,这一规律并不适用于目前以各种方法获得的化探数据。无论是1∶200 000区域化探数据中的39种元素,还是1∶50 000普查数据中的十几种成矿元素,以及大比例尺详查数据中的成矿元素;无论是对水系沉积物还是对土壤样品进行分析获得的数据中的各元素;无论是全国范围内的[14]还是一个成矿带上的数据集中的各元素,很难得到一套数据符合以上的概率分布规律。不成正态分布的微量元素,即使变换为对数也无法达到对数正态分布。区域化探数据中的常量元素几乎也不符合正态分布的描述。有的元素,甚至在经过一个迭代剔除过程后都未必能够满足近似正态分布。如图2中,某图幅1∶200 000区化数据中的Ag的对数值,经过4次迭代后也达不到近似对数正态分布。

实际科研生产中获得的地球化学元素的概率分布并不遵循正态分布,而是呈明显的正向偏斜(右偏)或表现为一种幂形的拖尾分布,这是多年来随着方法技术的发展获得一个明确的结论[15]。其实国外也早有学者对五十年代提出的这个理论给予了质疑和否定[16]。实际上,具有空间依赖性的数据是不能满足经典统计学中样品相互独立的假设的。地球化学数据首要的属性是空间依赖性,因此,它并不具备正态分布的固有属性。

图2 某图幅1∶200 000 化探数据Ag迭代剔除过程中概率分布图Fig.2 The Ag graph of normal distribution in iteration process(a)原始数据;(b)第1次迭代;(c)第2次迭代;(d)第3次迭代;(e)第4次迭代

鉴于以上的普遍现象,在对化探数据进行概率分布分析时,根据约定成俗的认识就对元素进行正态分布、对数正态分布的统一描述是不恰当的。对于不符合正态的分布的元素,在确定其异常下限时,可以采用EDA的5参数法或分形分析等处理方法。

2 对数变换和对数值

2.1 对数变换的意义

在对各门类的科学数据进行数据处理时,需引入对数变换这种变换方式。其理论基础是对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,但是可以做到:

1)把数据压扁,缩小数据的绝对数值,方便计算。

2)让方差恒定,数据相对集中,即波动相对稳定。

3)减少原始数据中的奇异值的出现。

4)能够简化计算,把乘法计算转化为加法,将除法计算转为减法计算(计算机对n个元素几何平均值的计算就是采用取对数后相加再取真值获得的)。

5)对不符合正态分布的数据,利用对数变换可以使得数据接近正态分布。

地球化学数据在处理时应用对数变换,是由于微量元素不符合正态分布而符合对数正态分布的观点所致。所以在异常下限的确定、色阶值的选取及直方图的制作过程中都引入了对数的概念。

2.2 对数变换的应用探讨

2.2.1 确定异常下限

确定某元素的异常下限一个通用的方法是在数据符合正态分布的前提下[17-19],其平均值即为该元素的背景值,异常下限则为平均值+n(通常取2)倍的标准离差[20-21]。微量元素不符合正态分布而符合对数正态分布这个观念,使在化探数据处理过程中,在对数据取对数后,利用获得对数的平均值和对数的标准离差,求得(对数的平均值+2倍对数标准离差)对数值的异常下限,再转换为真值,即为该元素的异常下限。在实际应用的时候,发现通过这种方式获得的异常下限值过高,这是因为对对数变换中获得的对数标准离差的误用引起的。

(2)

(3)

由式(2)和式(3)可以看出:对数平均值的真数等于原始数据的几何平均值,但是对数的标准离差的真数并不和原始数据的标准离差相吻合,也就是说与原始数据的标准离差是不相等的。所以利用对数的平均值和2倍标准离差求和后再取真值,由于是呈指数数量级的变换,所获异常下限超出了预期。在实际应用中发现,以对数方式计算,有的元素的异常下限值最大超过按真值计算所获异常下限的1/3。这样的结果是由于对对数标准离差的误用而引起的。如果利用几何平均值和对数变换后对应的真值的标准离差来获得异常下限,就没有如此大的差异或偏颇,应该是可靠的或可用的异常下限值(表1和表2)。由表1 和表2可以看出,异常下限值分别是经历了迭代过程接近于正态分布或对数正态分布时的取值。

表1 1∶50 000数据真值剔除和对数剔除过程结果对比表

*:表明数据为对数值.数据单位:Au为ng/g,其他为μg/g。

表2 1∶200 000数据真值剔除和对数剔除过程结果对比表

*表明数据为对数值,数据单位:Au、Ag为ng/g,氧化物为%,其他元素为μg/g。

表1~表2中的数据是利用GeochemStudio1.5系统进行统计的。实现原理是按双精度的字段分别进行统计,然后按表达精度进行了小数位的取舍获得的。另外,按“对应的真值的统计”结果中的标准离差是按着真值计算获得的,所以不对应“按对数统计”中标准离差的真值,也恰好说明两个值的不一致。

2.2.2 确定等值线的色阶值

在地球化学图的制作过程中,标准规定了根据0.1lg对数间隔和累频对应值设置色阶的方式。若采用对数0.11g间隔的方式,即采用真值为1、 1.2(1.3)、1.5(1.6)、2、2.5、3(3.2)、4、5、6(6.3)、8、10、12、15等这样的数字序列。这是来自于微量元素呈对数正态分布的思路。经过实践证明这样的设置是不妥的:①目前看来,实际科研生产中已经获得的区域化探数据、普查或详查数据中的微量元素并不符合对数正态分布;②在制作地球化学图时,利用的并不是原始数据而是网格数据,所以色阶的设置要根据网格数据的特征来进行。0.11g间隔设置色阶后其直方图如图3和图4所示,从图4中可以看出,即使常量元素按0.11g的对数间隔设置的色阶也不合适。在实际制作地球化学图时,按标准设定色阶后再进行比较大删减改动过程也证明了这一点。鉴于对数色阶的不合理性,目前,地球化学图的制作,其色阶的设置选用累频的方式更为方便和合理。

图3 Ag元素按对数0.1间隔设置后的色阶分布直方图Fig.3 Ag levels distribution histogram by 0.1 log interval

图4 Al2O3元素按对数0.1间隔设置后的色阶分布直方图Fig.4 Al2O3 levels distribution histogram by 0.1 log interval

2.2.3 制作直方图

无论是区域地球化学勘查的新旧规范,还是地球化学普查新旧规范,皆要求在各元素地球化学图的左侧,绘制全图幅与各主要地质单元的对数直方图,并标注地质符号、样品数、平均值、标准离差和变异系数CV。而以对数坐标制作获得的直方图,图上要标记原始数据的平均值、标准离差和变异系数,矛盾在此显现。对数的算数平均值的真值和原始数据的几何平均值相对应,原始数据和对数变换后的数据,标准离差和变异系数是不同的。所以此部分将出现图和参数不一致的情况(图5)。

另一方面,对数变换后是没有物理单位的。直方图的坐标单位却标记为log(ng/g)或log(μg/g),这样的标记也是有歧义的。

从上可知,地球化学图中直方图的制作需要数和图的统一。

3 结论

地球化学数据的处理技术,随着计算机科学技术的发展而发展。业界在上世纪80、90年代的一些观点(如认为对几十种元素同时进行统计和处理都是不可能;将点位数据图的制作当作保存数据的唯一可靠的方式等),已经成为过去式。这也充分地说明计算机技术的进步及其带来的影响,在各行各业已经超出了人们的预期和想象。当今,地球化学数据处理技术的进步,必将促使对化探数据本身蕴含的规律有新的理解和认识,从而应用于实际的科研生产中。如:地球化学元素正态分布理论;地球化学图中直方图的形和数的不统一;通过对数平均值加上n倍标准离差再转为真数(此方法在DZ/T0167-2006标准上曾给予特别的说明)确定异常下限的方式是不正确的;地球化学图的制作,数据利用的是网格化数据,色阶的制作要和网格化数据紧密结合等。但是在新修订的普查规范(DZ/T 0011-2015),在对地球化学图的基本要求中,仍然要求以原始数据直接勾绘等量线图[20]的规定显然会引起异议;新规范中虽然略去了利用对数变换计算异常下限的实例,但是此方法还有许多人仍然习惯性地在利用。鉴于此,笔者将获得的化探数据既不服从正态分布,也不符合对数正态分布;对数变换求异常下限标准差的误用等新认识给予论述,以供业界参考。

图5 某元素的对数直方图Fig.5 Log histogram of an element

[1] 林存山.地球化学正态分布悖论[J].物探化探计算技术,1994,16(4):288-291. LIN C S .The paradox of normal distribution in geochemistry [J].Compputing techniques for geophysical and geochemical exploration 1994,16(4):288-291.(In Chinese)

[2] 周富臣.正态分布及其应用[J].上海计量测试,2001,28(4):41-43. ZHOU F C. Normal distribution and its application[J].Shanghai Measurement and Testing,2001,28(4):41-43. (In Chinese)

[3] 李洪成.数据的正态性检验方法及其统计软件实现[J].统计与决策,2009(12):155-156. LI H C.The Method of normal distribution test and implement of software [J] . Statistics & Decision, 2009(12):155-156.(In Chinese)

[4] 罗春玲.正态分布的性质及应用[J].科技天地,2010 (17):64-66. LUO C L.The Attribution and application of normal distribution [J].Ability and Wisdom,2010(17):64-66. (In Chinese)

[5] 郑文兵.正态分布的哲学本质及世界观意义研究[J].毕节学院学报,2012,30(1):72-76. ZHENG W B.A research of the normal distribution’ s philosophical nature and its world view meaning [J].Journal of Guizhou University of Engineering Science ,2012,30(1):72-76. (In Chinese)

[6] 郑文兵.正态分布的哲学本质及其社会经济应用意义[J].统计与决策,2012,35(7):23-26. ZHENG W B.The normal distribution’ s philosophical nature and meaning in social economy [J].Statistics & Decision 2012,35(7):23-26. (In Chinese)

[7] 朱春浩.正态分布与统计学的关系史研究[J]. 武汉船舶职业技术学院学报,2010(6):117-121. ZHU C H.The research for relational history of normal distribution and statistics [J].Journal of Wuhan Institute of Shipbuilding Technology,2010(6):117-121. (In Chinese)

[8] 陈魁.应用概率统计[M].北京:清华大学出版社,2000. CHEN K.The application of probability and statistics [M].Beijing: tsinghua university press, 2000. (In Chinese)

[9] 地文.数理统计在地球化学探矿中的应用简介(一)[J]. 地质与勘探,1973(02):25-27. DI W.The introduction of application of mathematical statistics in the geochemical exploration(1)[J].Geology and Exploration,1973(02):25-27. (In Chinese)

[10]姜启明,鲁挑建.地学数据常用数理统计[M].哈尔滨:哈尔滨工程大学出版社,2010. JIANG Q M,LU T J. Mathematicla statistics in geological data [M]. Harbin:Harbin engineering university press,2010.(In Chinese)

[11]地文.数理统计在地球化学探矿中的应用简介(二)[J].地质与勘探,1973(3):25-27. DI W.The introduction of application of mathematical statistics in the geochemical exploration(2)[J].Geology and Exploration,1973(03):25-27. (In Chinese)

[12]罗先熔,文美兰,欧阳菲,等.勘查地球化学[M] .北京:冶金工业出版社,2012. LUO X R,WEN M L,OU Y F,et al.Exploration geochemistry [M].Beijing:Metallurgical industry press,2012.(In Chinese)

[13]吴锡生.化探数据处理方法[M].北京:地质出版社,1993. WU X S.The processing methods of geochemical data [M]. Beijing:Geological publishing house,1993.(In Chinese)

[14]史长义,梁萌,冯斌.中国水系沉积物39种元素系列背景值[J].地球科学,2016,41(2):234-251. SHI C Y,LIANG M,FENG B. Average backgruound values of 39 chemical elements in stream sedments of China [J].Earth Science,2016, 41(2):234-251. (In Chinese)

[15]季菱姒.地球化学不均匀性与后生叠加作用[J].物探与化探,1992,16(5):385-386. JI L S. Geochemica inhomogeneity and epigenetic superimposition[J].Geophysical and Geochemical Exploration,1992,16(5):385-386. (In Chinese)

[16]C.REIMANN.P.FILZMOSER .Normal and Lognormal data distribution in geochemistry:death of a myth.Consequences for the statistical treatment of geochemical and environmental data[J].enviromental Geology,1999,39(9):1001-1014.

[17]俞钟行.地球化学元素概率分布型式[J].地质科技情报,1993,12(1):6-7. YU Z X.The pattern of probability distribution of geochemical elements[J].Geological Science and Technology Information,1993,12(1):6-7.(In Chinese)

[18]杨大欢,郭敏,李瑞,等.一种求地球化学异常下限的新方法[J].物探化探计算技术,2009,31(2):154-157. YANG D H, GUO M,LI R,et al.A new method to determine geochemical anomaly threshold[J].Computing Techniques for Geophysical and Geochemical Exploration,2009,31(2):154-157.(In Chinese)

[19]NGUYEN TIENTHANH ,刘修国,陈春亮,等.基于稳健统计学和EDA技术的地球化学下限的确定[J].物探化探计算技术,2013,35(3):307-312. NGUYEN TIENTHANH,LIU X G,CHEN C L,et al.Robust statistics and EDA technique for identification of the geochemical anomaly [J].Computing Techniques for Geophysical and Geochemical Exploration,2013,35(3):307-312.(In Chinese)

[20]曹园园,李新虎.地球化学综合异的圈定及找矿效果[J].物探与化探,2017,41(1):58-64. CAO Y Y ,LI X H.Delineation of synthetic geochemical anomaly and evaluation of its effectiveness in ore prospecting [J].Geophysical & Geochemical exploration,2017,41(1):58-64.(In Chinese)

[21]李欢,徐国志,刘宏哲,等.利用衬度法绘制化探综合异常图[J].现代矿业,2016,566(6):158-160. LI H,XU G Z,LIU H Z. Using contrast value to draw geochemical comprehensive anomaly map [J].Morder Mining,2016,566(6):158-160. (In Chinese)

The discussing of normal distribution and log value in geochemical exploration

GAO Yanfang1,2, LIU Qingqing1,2, WANG Wei1,2, WANG Wenjun3

(1.Key Laboratory of Geochemical Exploration, Ministry of Land and Resources, Langfang 065000,China; 2.Institute of Geophysical and Geochemical Exploration, CAGS, Langfang 065000,China; 3.The Fourth Geology Institute of Minal Development Bureau of Henan,Zhengzhou 450001,China)

The view of many macroelements being normal distribution and trace elements being lognormal distribution has been applying in research and production of geochemical exploration for a long time .Getting anomaly threshold using log transformation and setting color levels using log value space are also based on the theory . In actual work ,the appreances of geochemical elements are not normal distribution .Anomaly threshold through log is higher and color value is unreasonable. By utilizing computing and visual technologhy and basing on mass data ,the researching about statistics distribution and anomaly threshold has been done in this paper. The result is the geochemical element data don't have normal distribution and the high anomaly value coming from the misusing of log transfer.

normal distribution; log transfer; anomaly threshold; standard deviation; color value

2016-07-08 改回日期:2017-03-10

中国地质调查局地质矿产调查专项(IGGE 02016023)

高艳芳(1965-),女,教授级高级工程师,从事GIS技术的应用和软件开发工作,E-mail:gaoyanfang@igge.cn。

1001-1749(2017)03-0404-07

P 631.4

A

10.3969/j.issn.1001-1749.2017.03.17

猜你喜欢
化探正态分布对数
含有对数非线性项Kirchhoff方程多解的存在性
关于n维正态分布线性函数服从正态分布的证明*
指数与对数
指数与对数
东昆仑东段化探采样方法找矿效果探讨——以青海科日南地区为例
西藏热昌金矿地质及物探化探特征
偏对称正态分布的若干性质
对数简史
正态分布及其应用
电感耦合等离子体质谱直接测定化探样品中微量银