龚庆杰
中国地质大学(北京)地球科学与资源学院,北京 100083
地球化学学科专业建设
“地球化学多元统计分析”课程教学探讨
龚庆杰
中国地质大学(北京)地球科学与资源学院,北京 100083
“地球化学多元统计分析”课程是地球化学专业本科生的主干课程,旨在培养学生利用多元统计分析的方法解决实际地球化学科研问题。本文在阐述中国地质大学(北京)“地球化学多元统计分析”课程发展历史的基础上,分析了该课程的教学内容及其逻辑关系。教学方法可采用基本原理讲解、实例软件演示、课堂演讲解决科研问题相结合。实例应用可以培养学生独立解决地球化学科研问题的能力。
地球化学多元统计分析;课程内容;教学方法
中国地质大学的“地球化学”课程最早由於崇文老师于1955年对地质测量及普查专业学生开设。自“地球化学”课程开设之初,地球化学中的多元统计分析已经是“地球化学”课程的重要内容之一,同时也普遍受到国内地球化学科技工作者的重视。於崇文老师编著的《数学地质的方法与应用—地质与化探工作中的多元分析》一书于1980由冶金工业出版社出版[1],这标志着地球化学中的多元统计分析已成为地球化学尤其是勘查地球化学领域的基础知识而得到广泛认可和重视。同年中国地质大学(当时称“武汉地质学院”)教务处制订了“找矿地球化学”专业的教学计划,将“地球化学中的多元统计分析”定为地球化学专业本科生的主干课程。在多年教学和科研的基础上胡以铿老师编著的《地球化学中的多元统计分析》一书于1991由中国地质大学出版社出版[2],这是近20年以来地球化学专业本科生课程“地球化学多元统计分析”的主要教材。
中国地质大学(北京)于1997开始恢复招收地球化学专业本科生,但由于当时师资力量所限并未开设“地球化学多元统计分析”课程。经过几年的本科和研究生教学,鉴于地球化学专业学生的数据处理能力有待培养和提高,张德会教授与笔者于2005年春开始给中国地质大学(北京)地球化学专业研究生开设“地球化学数据统计分析与解释”课程。时值我校建校60周年和地球化学专业建设50周年之际,本文探讨“地球化学多元统计分析”的教学认识和体会,旨在为我校地球化学专业的发展作出更大的贡献。
“地球化学多元统计分析”作为地球化学专业本科生的专业主干课程,旨在使学生掌握多元统计分析的主要理论和方法,学会用多元统计分析的理论和方法来研究和处理地球化学中的各种数据和问题,同时培养学生分析问题和解决实际问题的能力。该课程要求学生具有地球化学、概率论与线性代数的基础知识。课程设计学时为32学时,如表1所示。
表1 “地球化学多元统计分析”教学内容及学时分配
在绪论部分主要介绍的内容包括:(1)地球化学分析数据的两种类型:全量分析与相态分析。(2)地球化学分析数据如主量元素、微量元素与同位素的分析方法。(3)地球化学分析的质量监控,如标准参考物质,检出下限,精密度与准确度等[3]。这一部分内容主要让学生了解地球化学分析数据的产生及监控,强调只有质量合格的数据才具有统计分析的意义,避免对垃圾数据的随意加工而造成错误结论。随后主要讲解的内容为:(4)地球化学变量的分类,按照取值范围可以划分为连续变量、离散变量和二元变量;按照取值的性质可以划分为名义变量、定序变量、定距变量[4];按照预处理取值方式可以划分为实测变量、综合变量和人为变量[2]。(5)地球化学数据的基本特点即随机性、确定性和区域结构性。这一部分内容强调数据的性质及特点,在进行多元统计分析时需根据不同性质的数据采用适宜的统计方法,同时结合数据的基本特点进行合理的解释。
在相关分析与回归分析部分主要讲解:(1)相关分析的基本原理,即两变量之间线性关系的检验。(2)相关分析的常用系数,如Pearson相关系数即为通常检验定距变量之间是否具有线性关系的常用相关系数;适用于定序变量的Spearm an和Kendall’s相关系数。(3)偏相关系数,其作用在于消除第三变量影响下的两定距变量之间的线性关系,通常基于Pearson相关系数来进行计算。这一部分内容重点阐述相关分析的基本原理及其适用的变量。在相关分析定性引入线性关系的基础上,为讨论两变量之间的定量线性关系时需引入回归分析。在回归分析中主要讲解一元线性回归分析和多元线性回归分析。回归分析的检验是统计分析的关键。针对多元回归分析,在合理统计检验的基础上进行逐步回归分析,最终确定合理的线性回归方程。这一部分内容重点强调线性定量关系,而对于非线性关系的变量在进行合理的线性变换后也可进行线性回归分析。
由于地球化学数据的变量(或分析的元素)较多,为了快速清晰地刻画变量之间的关系通常采用聚类分析。在聚类分析部分主要介绍:(1)聚类分析的基本原理,强调聚类分析是一种探索性分析方法,其核心是基于变量之间的相关系数或样品之间的欧式距离来进行物以类聚的统计方法;(2)层次聚类分析的两种基本类型,即R型和Q型聚类分析。这一部分内容强调R型聚类分析是基于变量之间具有线性关系,采用Pearson相关系数来进行衡量,而Q型聚类分析是基于样品之间变量取值(如元素含量)的接近程度,通常采用欧式距离来进行度量。如果对离散型变量进行聚类分析,则需要选择Chi-square或Phi-square来进行统计计算。
聚类分析只是定量探索了众多地球化学变量之间的定性关系,为了达到压缩同类(或具有线性关系)的变量并定量刻画同类变量的共同特性,通常采用因子分析来进行数据处理。在因子分析统计方法中主要介绍主成分分析方法,主要涉及(1)主成分分析的基本原理,强调其原理是基于变量之间的Pearson相关系数来进行统计分析;(2)因子分析的基本步骤,包括检验所选择的变量是否适合因子分析,构造因子变量,利用旋转使得因子变量更具有可解释性和计算因子变量的得分共四个步骤。这一部分内容重点强调因子分析的核心是如何构造因子变量和如何对因子变量进行命名解释,最终目的是利用因子得分结果来定量刻画具有同类性质(或具有线性关系)的一组变量的共同表现特征。
层次分析是一种确定权系数的方法。在地球化学数据处理中为形成综合变量,通常将各变量赋予一定的权重然后再按照一定的算法进行计算处理。在层次分析部分主要讲解:(1)层次分析的基本原理,即将复杂问题中的各因素划分为互相联系的有序层使之条理化,然后根据对客观实际的模糊判断,就每一层次的相对重要性给出定量的表示;(2)层次分析法的基本步骤,包括确定目标层次,针对同一层次构造判断矩阵,用方根法计算判断矩阵的最大特征根及其对应的特征向量,对判断矩阵进行一致性检验。这一部分的关键在于构造判断矩阵,目的是获得通过一致性检验的最大特征值所对应的特征向量,即为各变量的权系数。
在生态地球化学土壤质量综合评价中经常用到灰关联分析和模糊决策综合评价。在灰关联分析中主要介绍:(1)灰关联分析的基本原理,即计算众多样品(或个案)与最优指标集之间的灰关联系数,依据灰关联系数大小挑选最优样品(或个案)。(2)灰关联分析的基本步骤,包括确定评价指标及其权重,确定最优指标集并对各指标进行规范化处理,计算灰关联系数,依据灰关联系数确定评价分级。这一部分的关键在于确定最优指标集,难点在于灰关联系数的计算。在模糊决策部分主要介绍:(1)模糊决策分析的基本原理,即与灰关联分析的基本原理相似,也是确定各样品(或个案)与最优指标集的关系程度。该部分重点介绍意见集中法中的Borda法基本思想。(2)模糊决策分析的基本步骤,包括确定评价指标及其权重,确定最优指标集,计算Borda数,依据Borda数大小确定评价分级。在这一部分讲解中注意对比灰关联分析与模糊决策中意见集中法的差异,强调灰关联分析适用于定距变量,而意见集中法模糊决策只适用于定序变量的统计处理,计算Borda数时只关心数据在序列中的秩。
1.讲解统计方法基本原理,分析统计方法的计算步骤
地球化学多元统计分析涉及的数学原理较多,而且对于地球化学专业的本科生和研究生而言,以前接触的数理统计问题较少。通过笔者几年给研究生上课的经验发现讲解统计方法的基本数学原理最为关键。在讲解基本原理时,首先介绍统计方法的目的,只有在明晰所介绍统计方法的作用后,即知道“干什么”后,学生才有可能产生“如何干”的思路和渴求。此时抓住学生的热情简要介绍统计方法的数学表达,而重点在于按照逻辑性层层递进分解统计方法的基本计算步骤,经过这一过程后大多数同学能较好地掌握所介绍统计方法的基本原理和计算步骤,即达到“干什么”和“如何干”的教学目的。
以相关分析为例,其基本原理或作用是衡量事物/变量之间线性相关程度的强弱并用适当的统计指标(相关系数)来表示。其基本计算步骤是(1)依据变量类型选择相关系数,如对定距变量选择Pearson相关系数;(2)计算相关系数;(3)对相关系数进行统计检验,确定变量之间线性相关程度的强弱。
2.结合软件演示实际案例,剖析软件操作的基本步骤
在地球化学多元统计分析中所讲解的各种统计方法在许多计算机软件中均有较好的程序可以利用。通过理论讲解“如何干”学生只理解数学计算步骤层次上的“如何干”,要达到真正意义上的“如何干”就必须以实例数据结合具体的计算机软件来阐述具体操作步骤,即在软件应用层次上的“如何干”。目前比较流行的统计软件SPSS中具有相关分析、回归分析、聚类分析和因子分析的计算功能,对于相对简单的统计分析如相关分析和回归分析在M icrosoft的Excel软件中也可很好地实现。在结合这些软件进行操作时值得强调的是每种统计方法计算结果的可信性检验。在目前流行的统计软件中对于结果的可信性检验一般采用相伴概率(即信度α水平)的方式给出。尽管各类统计方法的零假设不同,但计算结果对应的相伴概率只要小于0.01就可在统计意义上具备显著性。
对于层次分析、灰关联分析和模糊决策的统计方法,目前软件中很少涉及。为此作者采用C#语言编写了EGA(Ecological Geochem istry Assessment)软件,其中包括污染指数计算[5]、层次分析权重计算、灰关联分析和模糊决策综合评价计算功能,同时在帮助文件中明晰给出读取数据格式及操作步骤,可以满足这类统计分析的需求(图1)。
经过上述软件演示案例来剖析软件操作的基本步骤后,学生均能在计算机软件操作上达到“如何干”的教学目的。
图1 EGA软件主界面及帮助文件
3.课堂讨论自选实例统计分析过程,强调分析结果的地球化学解释
在学生通过课堂讲解及计算机软件演示实例后基本可较好地掌握了所介绍统计方法的使用,即知道“如何干”,但这并不是该课程的全部要求。“地球化学多元统计分析”课程的最终目的是让学生利用所学到的统计方法解决地球化学的科学问题。为此在这门课中给学生布置三次课后作业,让学生自选实例通过统计分析的手段达到解决科学问题的能力。同时在课堂上安排三次课堂讨论,让学生进行科研报告演讲训练。在课堂演讲训练中,要求学生不能把统计分析的过程作为主要内容,重点强调利用统计分析的计算结果获得合理的地球化学科研结论。例如学生在相关分析中通过某铅锌矿床中方铅矿和闪锌矿中Cd元素具有很好的线性关系,基于微量元素分配系数原理推测方铅矿和闪锌矿属于平衡共生的矿物;继而利用回归分析计算出Cd元素在方铅矿和闪锌矿中分配系数,利用前人提出的微量元素地质温度计方程获得方铅矿和闪锌矿平衡结晶时体系的温度,即铅锌矿的成矿温度。在绢云母石英片岩风化过程研究中[6],通过相关分析发现Nb-Ta、Zr-H f、A l2O3-SiO2之间具有很好的线性关系,进而通过一元线性回归可获得回归方程(图2)。这是就需要让学生解释其反映的地球化学问题,得出微量元素Nb-Ta、Zr-H f的良好线性关系反映其在风化过程中两元素变化行为相似,而主量氧化物A l2O3-SiO2之间的良好线性关系应源自样品分析时的加和效应,即二者为绢云母石英片岩的主要组分,存在消长关系,加和值接近100%(如回归方程的截距99.50接近100)。
图2 绢云母石英片岩风化过程中元素的线性关系图解
通过学生课下自选实例统计分析、课堂科研报告演讲训练,大多数学生能够较好地掌握多元统计分析在地球化学研究的基本应用,获得“干得好”自信和赞誉。
中国地质大学(北京)地球化学专业本科生教学大纲于2010年进行了修订,将“地球化学多元统计分析”课程定为专业主干课程,这反映出地球化学专业老师十分重视多元统计分析在地球化学研究中的应用。笔者通过几年来研究生课程教学,收集了各类多元统计分析方法在解决不同地球化学问题中的精彩实例,这极大地丰富了课堂教学的内容。该课程结课方式为读书报告形式,鼓励学生按照发表科研论文的格式来完成读书报告,报告内容要求弱化但需明晰多元统计分析的过程,重在统计分析结果的地球化学解释,培养学生利用多元统计分析技能合理解决地球化学科学问题。
[1] 於崇文.数学地质的方法与应用—地质与化探工作中的多元分析[M].北京:冶金工业出版社,1980:1-942.
[2] 胡以铿.地球化学中的多元分析[M].武汉:中国地质大学出版社,1991:1-234.
[3] 张承亮,程德兰.地球化学样品分析[M].北京:地质出版社,1991:1-173.
[4] 余建英,何旭宏.数据统计分析与SPSS应用[M].北京:人民邮电出版社,2003:1-476.
[5] Gong Qingjie, Deng Jun, X iang Yunchuan, et al. Calculating pollution indices by heavy metals in ecological geochem istry assessment and a case study in parks of Beijing[J]. Journal of China University of Geosciences, 2008, 19(3): 230-241.
[6] Gong Qingjie, Deng Jun, Yang Liqiang, et al. Behavior of major and trace elements during w eathering of sericite–quartz schist[J]. Journal of Asian Earth Sciences, 2011, (42): 1-13.
Study on Teaching the Course of M ultivariate Statistics in Geochem istry
GONG Qing-jie
China University of Geosciences, Beijing 100083, China
Multivariate statistics in geochem istry is an important course for bachelors majored on geochem istry. This course aims using multivariate statistical methods at resolving scientific problems in geochem istry and earth sciences for students. The development history of this course in China University of Geosciences was depicted. The course contents were discussed and arranged logically for an easy learning. The teaching methods over the past years were presented and discussed. The combination of basic principle analysis, software presentation on calculation steps, and scientif i c lecture on geochemical problem solving is a useful teaching method. The ability of students to solve geochemical problems on multivariate statistical methods can be enhanced clearly on case studies.
multivariate statistics in geochem istry; course contents; teaching methods
G 642
A
1006-9372 (2012)03-0104-04
2012-06-06;
2012-05-16。
国家级教学团队“地质学基础课教学团队”,教育部“高等学校特色专业建设点—地球化学”。
龚庆杰,男,副教授,主要从事地球化学的教学与研究工作。