赵 静
(江苏省工程咨询中心有限公司 江苏南京 210003)
河流健康诊断的目的在于判别河流所患何种疾病及其产生的原因,助于有目的、有针对性的采取相关调控或管理措施,达到河流可持续发展的目标[1]。但现有对河流健康的诊断大多聚焦于对河流现状的评估,而对引起河流疾病的外部原因却涉猎较少[2]。本文在河流健康评价结果分析的基础上提出河流健康问题成因判断模型,进一步发展完善河流健康诊断方法体系,对河流管理有着重要的现实意义。
根据人体健康诊断过程,如“人体感冒”既可能是天气变化等外部自然因素导致,也可能是长时间工作造成身体过于疲劳等人为因素导致,当然一般情况下是这2 种因素共同作用的结果[3]。据此可认为,河流康所患疾病的病因也是由自然因素和人为因素共同组成,即对外源性影响因素分析可从自然因素和人为因素2 方面进行。影响河流健康的自然因素可分为2 大类,一类包含海啸、火山爆发和地震等,可极大的损害河流生态,但由于河流生物是与环境长期协同进化的产物,因而生物已经适应了自然环境的这个剧烈改变,多数情况下河流生态可自行得到恢复;另一类包含温度、降雨量、湿度等以及水域范围内的地形、地貌、植被等因素。因此,从时间尺度上看,自然因素对河流健康的影响在较长时间内才会显现出来,短时间内人为因素将占主导作用。而损害河流健康的人为因素主要包含区域内的人口状况、收入指数、人口增长率和经济发展水平,以及对河流水资源的过度开发、滩涂围垦、水利工程兴建、河水养殖以及各种污废水的超标排放等,详见图1。
图1 人为因素对河流生态的作用[4]
病因诊断是对相关因子作用于河流健康的影响规律的具体化,因此需科学、合理、客观地选取对河流健康有重要影响的因子。由于河流健康的外部影响因子众多,且与表征指标之间存在多对多的作用关系,每个因子可同步影响一或多个表征指标,为此初步确定河流健康(具体指河流水质状况)病因诊断影响因子集,且各影响因子的数据可通过查阅研究区域的水文、气象、各类统计年鉴、土地利用调查、遥感影像等资料获取,也可通过实际访谈和定点观测等方式获取。
各影响因子中,人口密度为总人口和土地面积的比值;人均GDP、人均可支配收入、第一、二、三产业产值以万元计;土地利用强度为研究区域内已利用的土地面积与总面积的比值;水域游乐活动功能主要以景观美学价值的高低、水域旅游的年总收入来衡量,以万元计;农业灌溉用水量按每亩灌溉水量计算;化肥施用强度反映河流生态系统遭受人类活动造成的面源污染的程度,以每年每公顷的化肥(以氮、磷、钾含量计算的复合肥)施用量统计;城镇工业用水量、人均生活用水量分别以每万元产值用水量和每人每天用水量计;生物入侵控制率可考虑用研究区域内一种或几种占主导优势的外来物种控制率表征;湿地保护率以研究区域内受保护湿地的面积占湿地总面积的比例来衡量;现有政策、法规及其执行力度、社区参与度和有效财政支出体现的是管理水平,多为定性因子,可通过实地调研、资料收集及专家咨询获取;科技经费支出指数反映的是通过科学研究手段和方法来降低河流污染,从而达到人们所期望的健康程度,以科技活动经费支出占GDP 比重(%)表示;污染治理投资指数反映了社会对河流生态系统修复的建设程度,通过表征生态环境治理力度来反映环境得以保护和改善的趋势,以污染治理投入占GDP比重(%)表示[5][6]。由于不同的因素都会对河流健康产生影响,因此需根据实际情形,选取重要的因素作为病因评价因子,并非每个因素都要考虑。
病因诊断模型是根据水质状态与外部影响因子之间的关联性,通过一定的数学分析方法,构建出两者之间的函数关系式,从众多的影响因子中确定河流健康问题的主要病因。解决此问题的方法主要包括主成分分析法、偏最小二乘回归法和灰关联分析法等。其中,主成分分析法是将一组新的相互无关联的综合因素来取代初始因素,同时依据实际需求从中选取几个关键因素尽可能多的映射初始因素的信息[7],但不能直接说明单个原始变量属性对主成分或因子的作用,不能完全有效地利用相关信息建立表征指标和影响因素之间的定量关系。偏最小二乘回归法是最近刚发展起来的一种新型统计方法,在常见的多影响因素对多表征指标的统计建模中,相较于其他方法有诸多优势[8],但当自变量太多时,得到的模型结果就会显得比较复杂,难以分析和解释[9]。灰关联分析法是依据各因子间的数据列的发展态势与行为做相异或相似程度的对比,以判断因子的关联与行为的趋近程度,但当评价对象为抽象系统时,只能对影响因素和表征指标之间的关系做定性分析[10][11]。
综合影响河流健康的众多外部因子,各因子之间的多维度关联性较为复杂,且水质状态与众多的外部影响因子之间也存在较为复杂的互为影响关系。加之,上述方法在实际应用中都各有优缺点,似乎选取任何一种方法都不能保证河流病因诊断结果的准确性和可靠性,因而最好联合2种及以上的方法用于河流健康病因诊断。本研究尝试选用主成分分析法与偏最小二乘回归法对河流病因进行评价。
首先,需要把数据标准化;其次,对变量的数据矩阵做主成分分析,给出其特征值与特征向量;最后,将n 个变量拟合成一个表征河流健康病症因子的综合指标[12~14]。
为了能与偏最小二乘回归法结合使用,从而使结果更为直观和精确,可用式(1)分指数公式将变量数据标准化。
式中xij—第i个样本第j种变量值;Sj—xj的标准差;—xij的标准化值;n、m—总样本数量、总变量数量。
将m个变量的标准化数据组成的矩阵记为X。
按式(2)求X的对称方阵C。
式中XT—X的转置矩阵。
用雅可比法求C的特征值与对应的向量。由特征向量可构成正交矩阵V,对X做变换,见式(3)。
使新变量y1、y2……yn互不干扰。特征值λi为yi的方差。将n个特征值按大小顺序排列λ1≥λ2≥……≥λn,其对应的n个向量组成n个新变量。方差小的变量对模型贡献小,反之贡献大。y1、y2……yn分别称为第一主成分、第二主成分……第n个主成分,前面的主成分组成了样本间最大的变异见式(4)。
前面p个主成分y1、y2……yp(p〈n)的方差占比,即为累计方差贡献率,见式(5)。
若前p个主成分的累积贡献率很大,通常是当p≥0.75 时,用这p个主成分代替原n 个变量就不会损失太多信息。这p个主成分就称为公共因子。多数情况下,取前2 个主成分y1和y2作为公共因子已能满足要求,第i个公共因子上的公共变量的荷载向量见式(6)。
第j 个变量在p 个公共因子上荷载的平方和称为变量的公共属性见式(7),从而有式(8)。
其值映射了变量j在公共属性部分的重要性。比较n个变量的公共属性,可知什么样的变量在公共属性方面更重要。可把变量的公共属性的hj视为该变量的权重,构成一个度量河流健康病症因子的综合指标,即建立了以影响因子为自变量与以河流健康病症表征因子为因变量的回归方程,见式(9)。
式中xj—某样本第j种变量的标准化值,根据式(1)给出;hj—根据式(7)给出的第j个变量的权重。
河流健康病因诊断的思路即为在分析步骤中,选择河流一个或多个病症作为Y,以其m个胁迫因素x1、x2……xm构成方阵X,收集各胁迫因素的数据资料(主要包括水域自然地理条件、社会经济条件、水域资源开采情况、土地利用情况等)作为分析基础,采用主成分分析法,构建Y与X的拟合方程。根据拟合系数的计算结果,剖析方程的拟合精度,明确河流健康的各影响因素的重要性排序,进一步提出相应的修复与调控对策。
引入偏最小二乘回归法中的变量投影重要性指标(VIPj)去测度病因影响程度。如果使用主成分分析法中的前p个主成分y1、y2……yp进行分析,并对其中的参数重新定义后得VIPj最终转换形式,见式(10)、式(11)、式(12)[15~18]。
VIPj的涵义在于自变量xj(j= 1 , … , m)对Y的诠释是经过yh来传达的,若yh对Y的诠释能力很大,而xj在建立yh时,又发挥了非常大的作用,则可以认为xj对Y具有相当大的诠释能力。
对本文尝试选用的主成分分析法与偏最小二乘回归法,先按上述建模方法利用MATLAB 7.1语言编程计算,得到因变量水质综合污染指数(Y)与自变量年降雨量(x1)、人口数量(x2)、GDP(x3)、工业废水量(x4)、农业废水量(x5)、生活污水量(x6)以及环保投资指数(x7)相关关系的回归方程式(13)。
再根据公式(10)~(12)计算得各病因的VIP值,VIP1=0.7103、VIP2=1.0673、VIP3=1.087、VIP4=1.0866、VIP5=1.0469、VIP6=1.0673、VIP7=0.9314。因此,在影响水质(Y)的7个因素中,得其重要性程度的排序为GDP(x3)>工业废水量(x4)>生活污水量(x6)=人口数量(x2)>农业废水量(x5)>环保投资指数(x7)>年降雨量(x1)。具体诊断结果见表1。
表1 诊断结果比较
由表2 可看出,本文提出的主成分分析法与偏最小二乘回归的病因诊断方法与单独使用偏最小二乘回归的评价结果较为一致。其差别主要在于自变量GDP(x3)和工业污水排放量(x4)的排序,分析其主要原因可能在于研究区域GDP 的大小将直接影响该区域工业污水的排放量,故它们对因变量水质综合污染指数(Y)的影响具有同等重要性,因此二者在影响程度排序上也较为接近;同时,人口数量的多少也将直接影响该区域生活污水的排放量,因此二者在影响程度排序上也较为接近。
综上所述,本文确定主成分分析法联合偏最小二乘回归法来判别河流健康的主要病因,以期为河流的管理和决策提供依据。
河流病因诊断过程是通过对河流健康评价表征指标与评价结果的分析,挖掘影响河流健康的各种原因,从而为河流水环境“对症下药”的治理提供合理的科学思路。本文在对河流健康的外源性影响因素分析的基础上,考虑空间尺度、地形地貌等因素,确立了用于河流健康病因诊断的影响因子。进一步,对常用的几种可能用于河流健康病因诊断的统计方法进行比较分析,针对各自的优缺点,提出了主成分分析法联合偏最小二乘回归法的河流健康病因诊断方法,并通过与传统的偏最小二乘回归法的比较,剖析了该方法的合理性,以期丰富河流健康诊断与评价方面的理论与方法体系。