结构方程模型及其在地学数据建模中的回顾与展望

2021-07-15 07:22刘江涛吴发富

地质力学学报 2021年3期

刘江涛,赵洁,吴发富

1.中国地质调查局武汉地质调查中心, 湖北武汉 430205;

2.中国地质大学(北京)地球科学与资源学院,北京 100083

0 引言

随着计算机科学和工程技术的发展,特别是近年来,由于具有友好用户界面的结构方程模型软件大量出现 (常用的分析软件如LISREL、AMOS、EQS等),使得结构方程模型(Structural Equation Modeling, 以下简称SEM)的应用得到了极大的扩展。SEM在多个研究领域都得到了广泛应用,特别是在教育学、心理学、社会学、流行病学等领域 (Muthén, 1984; Browne and Arminger, 1995; Yuan and Bentler, 1997, 2000; Sánchez et al., 2005; Çakit et al., 2020; Osman et al., 2020; Wang and Rhemtulla, 2021)。近些年,又逐步扩展到森林环境生态学 (Jaafari et al., 2020)以及新冠病毒疫情的研究 (Xiao et al., 2020;Barillari et al., 2021; Plohl and Musil, 2021)。结构方程模型理论还通过均值、协方差分析以及潜变量模型等术语出现在主流统计期刊上 (Jöreskog, 1970; Sammel and Ryan, 1996; Bandeen-Roche et al., 1997; Yuan and Bentler, 1997; Lee and Shi, 2001; McArdle and Kadlec, 2013)。

结构方程模型允许研究人员在模型中使用由观察变量间接表达的不可观察变量(潜变量,Latent Variable, 简称LV;Hair et al., 2016)。它也可以方便地解释观测变量中的测量误差(Chin, 1998)。SEM主要应用方式为验证性因子分析,这些应用需要清晰的初始模型以及针对模型精心设计的调查统计数据。模型假设必须清楚地概述,这构成了计算和估计的基础。结构方程模型在以上研究中被广泛接受一般认为是由于以下三个原因(McArdle and Kadlec, 2013):①SEM可以检查真实数据中的先验思想,如果提出了一些想法,这些想法超出了方差分析 (Analysis of Variance,简称 ANOVA)和所谓的通用线性模型(Generalized Linear Models,简称GLMs)框架的范围,并且需要进行验证,则SEM可以通过统计指标和总体方法拟合优度指标进行验证;②SEM可以直接估算潜变量(LV)的得分,尽管潜变量无法直接观察或测量,但在模型中包含潜变量可以提高模型的清晰度;③SEM可以帮助为数据集选择真实、正确或至少适当的模型,适当的模型基于不受样本或应用场景差异影响的固定参数,在线性回归中,解释数据中最大方差的模型并非总是可取的;相反,对于数据分析而言,更需要能够在不同的应用中复用的模型,SEM具有从数据集中找到这样的模型的能力。

检测技术和地理信息系统(GIS)近些年得到了飞跃式发展,地理数据的收集和处理变得越来越方便 (Hart and Martinez, 2006; Ali et al., 2007; Atekwana and Slater, 2009; Jensen, 2009; Del Campo, 2016; 刘江涛等, 2017; 陈国旭等, 2019; 杨峰等, 2019;刘刚等, 2020;孙东生等, 2020;吴冲龙等, 2020; 赵风顺等, 2021;辛磊等, 2021; 张迪等, 2021)。近年来,来自多源的地理数据(例如实时洪水数据、地表水和地下水数据以及与自然灾害有关的信息等)的数量迅速增加。现代网络及大数据存储技术使得地质和地理空间数据的利用日益全球化,实时便捷地访问各类地学数据成为可能。此外,全球能源和矿物危机,气候异常和自然灾害等又迫使科学家从海量数据库中能够实时筛选、提取出及时有效的信息。毫无疑问,提取和融合信息并用于解决地球科学中的各种问题是一个巨大的挑战,这可以结合使用计算机硬件 (例如云技术)、地理信息软件 (例如ArcGIS)和统计方法来实现。考虑到从海量数据库中提取有用信息的重要性,美国地质调查局在《美国地质调查局能源和矿产资源科学战略(2013—2023年) 》 (Ferrero et al., 2013) 中将地理数据处理技术列为解决全球挑战的未来方向之一。

数十年来,数学方法在地理数据处理中扮演者着举足轻重的作用。定量地质学中的大多数技术都涉及统计方法。采矿业对区域内平均或块状储量的兴趣极大地促进了20世纪50年代地质统计学的发展,其目的是对空间和(或)时间分布的自然变量进行定量描述。个人计算机的发展和扩散,统计软件和可共享地学数据在互联网上的广泛分发也极大地推动了地质统计学的进展。一些数学技术已成为某些地理数据处理中的标准实践。例如,使用主成分分析 (Principal Component Analysis,简称PCA)方法提取地球化学因子(Wang and Cheng, 2008;Cheng et al., 2011),证据权重 (Weight of Evidence, 简称WofE) 方法用于矿物勘探 (Bonham-Carter et al., 1988, 1989; Agterberg, 1989; Agterberg and Bonham-Carter, 1990; Bandeen-Roche et al., 1997; Bonham-Carter, 2014),以及浓度域频谱地域(CA或SA)方法已广泛应用于地质异常的检测(Cheng, 1994, 1999, 2007a, 2007b, 2008, 2012a, 2012b, 2014)。

1 结构方程模型的概念

SEM是基于变量的协方差矩阵来分析变量之间关系的一种统计方法,是一般线性模型的拓展,包括因子模型与结构模型,体现了传统路径分析与因子分析的完美结合。结构方程模型并非单指某一种特定的统计方法,而是包含验证性因子分析、验证性综合分析、路径分析、偏最小二乘路径建模和潜伏增长建模等一系列用以分析共变结构技术的总称,被认为是第二代统计技术(表1;Fornell and Wernerfelt, 1987; Lohmöller, 2013; Hair et al., 2016)。SEM一般使用最大似然法估计模型(Maxi-Likelihood,简称ML) 分析结构方程的路径系数等估计值,因为ML法使得研究者能够基于数据分析的结果对模型进行修正。SEM将因素分析和路径分析有机结合,相较于传统的回归分析方法,它具有能处理多个因变量、考虑测量误差影响等优势,更适合用于解决实际模型中的统计数据误差问题。结构方程模型由两部分组成,即测量模型(Measurement Model)和结构模型(Structural Model)。其变量类型有观测变量和潜变量。观测变量是指可以直接测量的变量,如阅读理解分数、造句得分、词义理解得分等。潜变量是指无法准确、直接地测量的变量,例如学生的语言能力。

表1 多元统计方法的分类 (Hair et al., 2016)Table 1 Classification of multivariate statistical methods (Hair et al., 2016)

地学数据处理中的多种多元统计分析方法,如因子分析、PCA、多元线性回归、路径分析、潜变量分析都可以看作SEM的一种特例,SEM可以看做是这些多元统计模型的组合。例如,在SEM中,测量模型类似于因子分析,结构模型可以视为类似于多线性回归。实际上,SEM在许多学科中得到了广泛研究与应用,自2000年以来,已经发表了数百篇有关SEM的论文。统计数据表明,尽管它已被深入应用于社会科学、艺术和人文科学领域;但在地球科学领域,与SEM相关的论文却相对较少(图1;McArdle and Kadlec,2013)。结构方程模型在地学数据建模中主要面临以下三个方面的挑战,一是从主要面向验证性建模分析的方式向探索性建模分析的方式转变;二是从有完整地学模型约束的建模型方式向弱模型/无模型约束的地学数据建模方式转变;三是从无空间属性的统计变量建模向空间统计变量建模的转变。这对模型本身和数据建模的方法都提出了新的要求。

图1 2000—2018年结构方程模型有关论文在期刊上的发表数量(2000—2009数据来自McArdle and Kadlec,2013;2009年后数据来自谷歌学术搜索统计)Fig.1 Number of papers about structural equation models published in journals (2000-2018). (Data of 2000-2009 comes from McArdle and Kadlec,2013, data after 2009 comes from Google Scholar)

结构方程模型被认为是路径分析的一种扩展(Hair et al., 2016, 2019),如图2所示,一个简单的结构方程模型包含m+1个测量模型(从观察变量x1—xp中提取ξ1—ξm以及从y1中提取η的因子分析过程)和1个结构模型(从ξ1—ξm到η的路径/回归分析过程),其测量模型得到的潜变量ξ1—ξm与η同时作为结构模型的输入变量。

1.1 测量模型

在实际研究中,并非所有的概念都是可以被直接观察和测量的。比如在调研买家的体验时,这里的买家体验其实就是一个抽象的概念,是买家对平台所有可观测量化指标的综合反映,这些指标可能会包括买家通过平台获得的询盘量、订单量、主要权益的满意度、接收到的服务速度和质量等等。在SEM中,如用户体验这些抽象且无法直接测量的概念,被称作潜变量 (Latent Variable),而那些能被直接观测的变量,如询盘量,则称为观察变量(Observed Variable)或外显变量 (Manifest Variable)。

测量模型表达的是观察变量和潜变量之间的关系,一个包含有q个外源观察变量x1—xq和p个内源观察变量y1—yp的测量模型,其外源观察变量建模误差为δ1—δq,内源观察变量建模误差为ε1—εp,且其外源潜变量ξ有m个,内源潜变量η有n个,则数学表达如下:

公式(1)和(2)中,X和Y分别表示外源观察变量向量和内源观察变量向量;Ξ和H分别是外源潜变量向量和内源潜变量向量;Λ和M为因子载荷矩阵,其分别表示观测变量x1—xq、y1—yp和潜变量ξ1—ξm及η1—ηm之间的关系。Δ与Ε分别为外源与内源观察变量建模误差向量:

更多参数说明见表2。

表2 文中数学符号说明Table 2 Definition of notations in the paper

通常,有两种不同的方法来测量潜变量:形成性测量或反映性测量。形成性测量模型在社会科学领域也很常见。例如,工作满意度和社会支持水平的概念。通常一个组织成员的工作满意度取决于他对薪水、工作环境、同事、上司、升职空间和个人发展等多方面的满意度,此时这些单个领域的满意度作为工作满意度的形成性指标而共同决定其整体满意度水平。社会支持水平是另外一个常见的形成性测量模型的例子。研究者将个体社会支持水平划分为不同的来源,如同事/同学、亲戚、朋友、邻居、社区、政府和教会等,这些不同来源的支持水平决定了个体的社会支持总水平,而不是个体的社会支持总水平决定不同来源的支持水平。类似的概念还有社会经济地位等。

在反映性测量模型中,箭头的方向从构造的变量到指标变量(潜变量指向观察变量),这表明假定的构造变量导致了指标变量的差异(协方差)。如图2所示,变量ξ1—ξm使用了形成性测量模型。方向箭头从指标变量x1—xp指向构造的变量,这指示该方向上的因果关系(预测性)。心理学领域的测验使用反映性测量模型多数情况是合适的,然而Bollen et al. (1991)指出,项目选择和量表评价必须考虑指标和潜变量间的方向性,应该采用形成性测量模型;而使用反映性测量模型将会严重影响量表的结构效度和潜在构念的属性。

1.2 结构模型

与检验观测变量和潜变量之间关系的测量模型不同,结构模型主要用于检验潜变量间的关系。如果单独看待结构模型,就是传统的路径分析(Path Analysis),旨在解释变量间的因果或预测关系。结构模型的含义可以通过不同的方式定义。Hair et al.(2016)将结构模型定义为几个线性模型,这些模型显示了潜在变量如何相互关联。结构模型建模可以根据理论或研究人员的经验和知识来构造不同子模型的位置和顺序。路径模型左侧和右侧的变量分别是自变量和因变量。就像线性回归一样,左侧的变量显示为顺序在前面并预测右侧的变量。但是,与单个线性回归模型不同,变量还可以同时用作自变量和因变量。当潜变量仅用作自变量时,它们称为外源性潜变量ξ1—ξm。当潜变量仅用作因变量或既是自变量又是因变量时(图2中的η1),它们被称为内源性潜变量。任何仅带有单头箭头的潜变量都是外源性的潜变量。相反,内源性潜变量可以具有单向箭头进入和退出 (η1)。

图2中结构模型的数学定义如下:

Γ和B分别为结构模型中与外源潜变量向量Ξ和内源潜变量向量H相关的系数矩阵;符号Z代表结构模型中的建模误差向量;更多参数说明参见表2。

2 结构方程模型发展历史

如今在社会学、心理学以及其他社会科学所使用的结构方程模型概念起源于Sewall Wright遗传路径建模 (Wright, 1918, 1920, 1921a, 1921b),并在20世纪60—70年代随着计算机算法的发展得到了不断地实现。这种发展大部分发生在计算机技术获得突破的时候,计算机硬件的发展为结构方程模型的发展提供了契机。

LISREL(Linear Structural Relations)和偏最小二乘路径分析PLS-PA (Partial Least Square-Path Analysis)软件都被视为迭代计算机算法,从一开始就着重于创建交互式图形和数据输入界面,其本质是Wright的路径分析算法的扩展 (Wright, 1921a, 1921b)。早期的考尔斯委员会致力于Koopman and Hood(1953)算法中联立方程求解的工作,但由于迭代求解技术在计算机出现之前不具备技术实现的可能性,因此考尔斯委员会主要专注于最大似然估计和闭式代数计算算法(Christ, 1994)。Anderson and Rubin(1949, 1950) 针对单个结构方程的参数开发了有限信息最大似然估计器,间接包括了两阶段最小二乘估计器及其渐近分布(Farebrother, 1999; Anderson, 2005)。其中,两步式最小二乘估计器最早由Theil(1953)独立于Basmann (1957)和Sargan(1958)提出。为与其他SEM迭代算法竞争,Anderson有限信息最大似然估计算法通过计算机得到了实现。其中用到的两阶段最小二乘法是迄今为止使用最广泛的结构方程算法。

计算机的进步使新手可以轻松地将结构方程方法应用到复杂、非结构化问题的大型数据集的分析中。主要包含三类算法:

①独立应用于每个路径的普通最小二乘算法,例如使用OLS(Ordinary least squares,普通最小二乘)进行估计的PLS路径分析包中应用的算法;

②由Hermann Wold和他的学生Karl Gustav Jöreskog的开创性工作演变而来的协方差分析算法,该算法在LISREL、AMOS和EQS中实现;

③由Koopmans在考尔斯委员会开发的联立方程回归算法。

随后,Pearl (2009)将SEM从线性模型扩展到非参数模型,并提出了方程的因果关系和反事实解释。Bollen et al.(2013)研究了SEM的因果解释的历史,以及为什么它成为引起混淆和争议的根源,至此,结构方程模型理论和算法的框架基本确定。

3 结构方程模型地学分析中的探索案例

结构方程型在地学数据应用中的挑战主要来自以下两个方面:一是传统结构方程的研究和应用主要是利用数据建立模型并对假设概念进行检验,而地学数据中以探索性分析为主,从丰富海量的地学数据中挖掘出有效的信息和概念,即需要从概念—数据—校正/验证概念转变为数据—建模—概念的模式转变,这使得地学数据处理中建模成为了第一个需要解决的问题;二是现有的结构方程模型软件其算法和参数求解主要是面向验证性分析,其在探索性结构方程模型分析中的应用有限,如何估计模型参数也是结构方程模型在地学数据处理中的挑战之一。文中介绍的三个案例分别从地学数据建模、模型参数求解、地学数据的非空间化三个方面剖析了结构方程模型在地学数据处理中的探索。

3.1 使用SEM识别地球化学数据中的矿化内生因子

在矿产勘察与资源定量评价中,地球化学数据通常被用来识别控矿因子,圈定找矿远景区,以及作为找矿证据。通常方法是利用地球化学数据进行主成分分析,找到和目标矿种相关的地球化学因子作为矿化内生因子。由于其算法简洁且不依赖于先验假设,主成分析方法得到了普遍应用,但其不足是主成分中提取出来的主要信息和矿化信息往往并不一致,因为矿化信息在地质数据中往往表现为一种弱缓异常。如何提取地球化学信息中代表弱缓异常的因子,是此次结构方程建模的主要目的。

此次模型可以理解为一种有结构模型回归约束的地球化学因子提取。与主成分所不同的是,结构模型综合了经典统计方法中的因子分析和路径分析方法,以与研究对象具有较好的拟合度为标准来确定最优解,并通过模型最优解来确定新的成分组合,因此结构模型所确定的成分变量不一定是具有最大变化性,而是与研究对象最接近的因子变量,该因子能够更好地反映研究对象。

该研究利用加拿大Nova Scotia省西南部湖泊沉积物地球化学数据(测量了16种元素),通过主成分分析与聚类分析初步确定地球化学数据中可能存在三个与金矿成矿密切相关的外源潜变量LV1—LV3,从而在结构方程模型中构建了三个潜变量用来代表地球化学控矿因子。由于该地区的金元素测量精度有限,内源观察变量选定为与Au分布关系密切的As,并用潜变量LV4代表砷元素中与金成矿相关的内源潜变量。除砷元素外剩余的15个元素用作外源观察变量,并选择在主成分分析中贡献最大的元素分别作为三个潜变量识别元素(LV1:Rb;LV2:Cu;LV3:Au、W),其他元素作为三个潜变量的共有观察变量。从而建立了与热液型金矿有关的地球化学元素结构方程模型,进而研究了结构方程模型所给出的组合变量空间分布规律以及与金矿床的关系,具体模型结构见图3。

图3 基于砷元素约束的地球化学内生因子识别模型Fig.3 Geochemical endogenous factor identification model based on arsenic constraints.The input external observation variables are Rb, F, Li, Nb, Sn, Zr, Ti, Cu, Pb, Zn, Th, Ag, Sb, Au, W. The latent exogenous variables are LV1-LV3. Rb, Cu, (Au, W) are the unique identification elements of the latent variables LV1, LV2 and LV3 respectively, and the other elements are the common input elements of the three latent variables. LV4 is a latent endogenous variable, and its exogenous observed variable is As. The latent variables LV1, LV2 and LV3 respectively represent the ore-forming transport channel, the stratum where the related elements of oreforming occur, and the magmatism related to ore-forming.

该模型以该地区金矿成矿具有密切联系的砷元素作为路径分析的因变量,以从其他15个地球化学元素中提取的控矿因子为潜变量,以潜变量与因变量之间的回归拟合度为约束,通过不断调整潜变量的组成(因子旋转),从而得到模型参数的最优解。

这种同时代表与内源潜变量具有最大相关性、彼此之间具有最大差异性的因子在向量空间的分布表示为图4,可以描述为以下两个特点:①提取的因子之间彼此之间尽量独立,即LV1—LV3之间尽量正交;②提取的因子和约束变量具有最好的相关性,即LV1—LV3与As的夹角尽量小。

图4 基于砷元素的三个潜变量结构方程模型的潜变量向量空间Fig.4 The latent variable vector space of SEM with three latent variables based on As. LV1-LV3 represent the exogenous latent variables that need to be estimated. Since LV4 has only one endogenous observation variable-As, As is used directly as the constraint variable in the path analysis. The ideal relationships among LV1-LV3 and As in the vector space are: LV1-LV3 are orthogonal to each other, and the angles between LV1-LV3 and As are as small as possible

潜变量LV1—LV3与As在向量空间的这种描述可以表达为估计公式(7)的极大值F:

其中,y为约束变量As;η为提取的潜变量LV1—LV3;d(y,ηi)为约束变量与潜变量之间的欧氏距离;d(ηj,ηi)为不同潜变量之间的欧氏距离。

应用结果显示,提取出来的三个潜变量分别代表了该地区与成矿事件密切相关的热液运输通道、控矿地质构造、成矿物质来源因子,其向量夹角为62°(图5),且都与约束元素砷相关,其三个潜变量包含了15个元素中所有与砷相关的变化性(图6)。与主成分分析方法所给出的计算结果进行对比发现,结构模型所计算的与金矿相关的组合变量与矿床的空间相关性较高,并且对金矿床(矿点)也具有较好的预测性,具体研究成果可查阅相关文献 (Liu et al., 2015)。

图5 基于结构方程模型提取的潜变量与约束变量砷元素的关系(Liu et al., 2015)Fig.5 The relationship between the latent variable extracted based on SEM and the constrained variable arsenic(Liu et al., 2015)

图6 基于15种地球化学元素(不含砷)和三个潜变量的预测砷元素得分与观测砷元素回归关系Fig.6 Regression relationship between observed arsenic and predicted arsenic score based on 15 geochemical elements (without arsenic) and 3 latent variables. (a) Predicted and observed arsenic based on 15 elements. (b) Predicted and observed arsenic based on extracted latent variables

3.2 基于SEM的改进证据权方法

证据权重(WofE)建模是一种基于贝叶斯规则的定量方法,该规则通过集成给定证据或一组证据层来预测事件的存在与否,是一种目前广泛应用于矿产资源定量预测与评价的信息综合方法之一。但证据层之间的条件独立性(CI)问题一直是困扰证据权方法应用的问题之一,许多学者也对该问题的解决进行了研究与讨论,结构方程模型提供了一种新的检验/校正证据权重建模中CI问题的方法。

传统的WofE包含了多个关于矿点事件在条件上彼此独立的证据层。这些证据的模式无法直接测量和观察,是一种只能从原始数据中提取的潜变量。因此建立证据的过程类似于从各种观察变量中提取潜变量的因子分析。当在WofE中用于估计矿点事件的后验概率时,它被视为自变量,这又是一个逻辑回归过程。传统的WofE是通过两个独立的建模过程实现的(图7a):从地球化学、遥感和地球物理数据中提取证据,然后通过逻辑模型结合证据。由于此方法依据源数据中主要信息估计证据,因此除非证据来源彼此独立,否则将使提取的证据难以满足WofE方法的CI假设。通过创建SEM模型可以结合因子分析和回归分析,并使用包含有回归拟合参数和矿点过估率的目标函数来估计参数,从而解决WofE应用过程中的CI问题(图7b)。

图7 传统证据权建模过程与基于结构方程模型优化的证据权方法的建模过程(Liu and Cheng, 2019)Fig.7 The classical weight of evidence modeling process (a) and the modeling process of the weight of evidence method optimized based on SEM (b) (Liu and Cheng, 2019)

此研究以加拿大Nova Scotia省西南部金成矿区为例,选择了地球化学、断裂/褶皱、地质界线、重力共四个因子为输入数据,建立了该地区金矿的评价预测模型。该地区以往的研究表明,地球化学控矿因子和该地区的断裂以及地质界线等都具有较为复杂的相关关系,重力分布也受到了岩体及地质单元分布的影响,其造成的结果就是会对该地区的金矿矿点数的估计远大于实际。通过建立结构方程模型,调整地质因子有利/不利区划分的阈值,新的模型对矿点数的过估比率由1.66(图8a)下降到1.29(图8b),在不同概率区间预测矿点数与实际矿点数的拟合度也由0.9(图8a)提高到了0.94(图8b),在评价精确度和概率分布合理性上都得到了显著的改善。具体研究成果可查阅相关文献(Liu and Cheng, 2019)。

图8 经典证据权和基于结构方程模型约束的证据权模型中预测矿点数-观测矿点数回归模型(Liu and Cheng, 2019)Fig.8 Regression model of predicted and observed deposits in the classical weight of evidence model (a) and weight of evidence model (b) based on SEM constraints (Liu and Cheng, 2019). The ordinate is the predicted number of deposits, and the abscissa is the observed number of deposits.

3.3 利用SEM研究墨西哥马格达莱纳流域森林保护策略

墨西哥生态系统状态的研究主要是一种基于描述性指标的定性分析,SEM提供了一种利用定量数据进行定性研究新的工具,其有助于理解变量之间的直接和间接相互作用,因此可以检测环境变化的根本原因。在这项研究中,通过创建结构方程模型来集成与环境压力-状态-响应模型(pressure-state-response)有关的指标,并将其应用于墨西哥城马格达莱纳流域的森林环境保护研究中。研究中使用21个环境单元(样本),17个生物多样性状态指标(评估生态系统的3个方面:结构、组成和功能),13个环境指标(非生物变量)和6个人为压力指标(表3)构建了3个生态响应模型(图9)。随后,基于多重共线性测试,消除了多余的指标,进行规范对应分析以建立不同指标与SEM可能的生态联系之间的关系。利用先前的信息,开发了压力和环境指标对生态系统的结构、组成和功能的影响的先验模型。

图9 生物多样性状态指标、环境指标、人类压力指标与森林状态关系模型(Santibáñez-Andrade et al., 2015)Fig.9 Three relationship models based on biodiversity status index, environmental index, human pressure index and forest status(Santibáñez-Andrade et al., 2015)

表3 森林单元观测指标Table 3 Indicators of biophysical units

研究结果表明,一些环境因素,例如全球场所因素、湿度、空气温度、土壤中的有机物、坡度和土壤pH值,比其他因素对流域环境单元中的结构、组成和功能指标的影响更大。对生态系统3个方面影响最大的压力因素是访客、垃圾、火灾和人类活动。其结论是尽管生态系统似乎受到某些干扰因素的影响,但这些因素尚未改变生态系统的功能。并基于该结论提出了一套管理建议和策略,这些策略可用于维持每个环境单元的生物多样性。具体研究成果可查阅相关文献(Santibáñez-Andrade et al., 2015)。

该研究利用区内研究对象的空间分布特征将研究区划分成若干单元(样本),综合这些单元的统计特征(指标),通过知识模型来构建结构方程模型进行验证/探索性的路径分析,通过数据-模型拟合后得到的路径参数,得出和数据相匹配的结论,并为环境保护决策提供支持和建议,是一种验证性结构方程模型的典型应用。

4 讨论与结论

知识驱动与数据驱动类方法的综合建模技术,被认为是解决未来地学数据分析中诸多挑战的主要研究方向,而结构方程模型作为具有知识模型和数据模型混合建模特点的多元统计方法,有望为此类问题提供一种可行的解决方案。结构方程模型可以被看作为一类方法论,它利用少量通过基础概念或理论模型定义的“结构”参数来表示关于观察数据的均值、方差和协方差的假设,从而提供一种统计方法来检验关于观察变量和潜在变量、潜变量与潜变量之间因果关系的假设。利用先验物理模型建模,通过对收集到的数据进行统计分析,自动提取潜变量的特点,用于解决地学数据处理中的多层次和多模型的潜变量提取和模型参数求解问题,是一种非常具有应用潜力的数据处理方法。

但同时也要看到,该方法在地学数据探索性分析中的应用尚不成熟,应用范围和案例并不丰富。这是由于地学数据的不确定性决定的。地学过程本身具有多过程、多期次的特征,利用有限的(时间窗口/区域窗口)地学数据来建立普适的数据-模型的匹配往往十分困难,目前有限的探索性应用主要集中于典型研究区内成矿模型分析,控矿因子提取等。在其他地学相关领域的研究也偏重于利用路径分析探索和验证不同指标之间的因果关系。

随着机器学习与大数据分析技术的完善,结构方程模型在地学数据处理中具有良好的前景。机器学习目前已成为地学数据分析与挖掘的重要手段,尤其是随着地学数据的爆炸性增长,其重要性日益突出,其计算对先验模型的依赖性较低,计算的结果可优化性好(通过提高训练数据的数量和质量),但也存在计算过程的物理意义不明确、过度拟合等缺陷。而这些恰恰也是结构方程模型的优势,如何能够利用深度学习来改善结构方程模型的建模和参数估计,使得结构方程模型在保持明确模型意义的同时,减少建模复杂度,降低计算迭代时间,优化计算结果,可能是结构方程模型在地学数据处理中发展的重要方向之一。