周 及,关卫省,付林涛
(1.长安大学环境科学与工程学院,陕西 西安 710054; 2.长安大学旱区地下水文与生态效应教育部重点实验室,陕西 西安 710054; 3.宝鸡市生态环境局凤县分局,陕西 宝鸡 721700)
自20世纪80年代到21世纪初,西安市工业用水量和生活用水量逐年增加,水资源的储备量和需求量大大失衡,水资源的管理及合理利用显得尤为重要[1]。基于此,越来越多的水质监测项目被应用到实际生产生活中,然而水质监测中复杂冗长的检测指标给数据管理及分析工作带来很大困难。多元统计分析方法由于可以简化数据结构、提取潜在信息,被广泛应用于水质分析中[2-3]。Pati等[4-5]将多元统计技术和水质评价指数结合,确定了研究区域饮用水及农业用水的适宜程度;Zare等[6]通过研究建立了水质季节质量指数的评价模型。周丰等[7-8]提出了适用于大尺度、多断面的水质评价方法。蔡广强等[9]通过研究发现了南方某水库水质时空变化特征。利用多元统计分析的方法研究西安市及周边地区的地表河流水质,主要集中在对浐河、灞河、渭河等代表河流的水体污染特征和污染因子来源进行分析[10-13]。但是,多元统计分析样本数量越多,方法适用性越高,而相关研究受样本数量的局限,无法精确量化河流与河流之间污染的程度对比,无法判别不同年份间污染趋势的变化。
本文收集了西安市地表河流2009—2017年的监测数据,从多元统计分析的角度出发,利用因子分析法识别水中主要污染物,探究污染物的逐年变化趋势,初步分析污染物主要来源,并利用主成分综合排序对各个断面的污染情况进行综合评价,旨在为西安市地表水保护和治理提供科学依据和理论基础。
表1 西安市地表水2009—2017年水质指标统计描述Table 1 Statistical description of water quality indicators of Xi’an surface water from 2009 to 2017
通过收集《西安市水资源公报》中实测数据和调研西安市水利局统计资料,得到了2009—2017年西安市地表水近40个断面的逐月监测数据,选取CODMn、BOD、石油类、粪大肠菌群、阴离子表面活性剂、NH3-N、TN、TP等24个指标为水质指标。采样点覆盖西安市主要河流,包括灞河、渭河、沣河、浐河、黑河、皂河及各个大小渠系,共1 552个检测样本,有效个案1 221个,数据统计结果见表1。在进行因子分析与聚类分析前对数据进行标准化处理,以消除量纲的影响[14]。分析采用IBM SPSS statistics 23软件。
西安市内主要河流有渭河、泾河、灞河、沣河、涝河、黑河、石川河,均属于黄河流域渭河水系[15]。水资源总量多年平均为19.73亿m3,2017年全市水资源总量为24.45亿m3[1]。
依照GB3838—2002《地表水环境质量标准》按功能区划分类别对西安市境内河流、水库水质进行评价,结果见表2。2014年水质污染总体较为严重,2015年有所好转,但2016年综合污染指数上升了9.8%,整体上2017年西安市河流水质污染有所减轻,水质综合污染指数较上年同期下降19.9%[1]。从河流角度来说,近几年皂河、新河、浐河、临河污染情况最为严重。
1.3.1因子分析法
因子分析法是一种降低变量维数的方法,它从研究原始变量相关矩阵出发,把关系复杂的变量归结为少数几个综合因子。在水质分析中,此方法主要用来提取污染因子和识别污染源[16-17]。作为识别污染源的有效工具,因子分析还可以量化出污染源的贡献率[18]。因子分析的一般模型为
表2 2014—2017年西安市主要河流水质概况Table 2 Water quality of main rivers in Xi’an from 2014 to 2017
(1)
式中:f1,f2,…,fm(m≤p)为公因子;aij为因子载荷,反映xi和fi之间的相关程度[19,20];εi为方程误差。
1.3.2主成分分析法
主成分分析法(principal components analysis,PCA)是利用少数不相关的新变量反映原始变量,通过对新的变量进行排序、分类,解决多变量数据最佳综合简化的问题。利用主成分分析方法调查水质状况,并在此基础上对水质综合指标进行量化排序[19-21],是主成分分析法在水质评价工作中发挥的最大作用。
近年来,主成分分析法在水环境质量评价应用的原理是,把很多指标参数放入同一个系统,并对这些指标参数进行定量化的分析研究,最终得出的主成分综合得分能够反映水体的水质状况,得分越高,水质污染状况越严重[20-22]。主成分分析的基本步骤:①计算相关系数阵,检验待分析的变量是否适合做主成分分析;②根据研究问题所选定的初变量的特征判断求主成分的方法;③求协方差阵或相关阵的特征根及对应标准化特征向量;④确定主成分个数;⑤计算各个样品主成分得分。
2.1.1数据标准化
由于数据量纲和数量级的不同,利用SPSS软件分别将2009—2017年的原始数据标准化,采用Z-score法进行标准化处理:
(2)
2.1.2因子分析的适合性和相关性检验
各个年份的KMO和巴特利特检验结果见表3,KMO检验值均≥0.5,并且满足P<0.05的置信区间,达到检验要求,说明提取的主成分对于原始变量的解释程度较高且该分析是客观有效的。近似卡方、自由度和显著性的统计检验结果表示,即使球形假设被拒绝,也可以认为相关系数矩阵与单位矩阵有显著差异,即原数据适用于做因子分析。
表3 2009—2017年因子分析统计检验结果Table 3 Statistical test results of factor analysis from 2009 to 2017
相关性矩阵中各个变量间的相关系数表明了因子间的相关度,越接近1,相关度越高。9年的相关性矩阵计算结果表明,指标CODCr与CODMn、粪大肠菌群、NH3-N、BOD等指标正相关性很高,均达到0.9以上;而指标DO与NH3-N、CODCr、粪大肠菌群这些指标呈极大的负相关,其绝对值均达到0.9以上。通过各个年份的相关性矩阵可以看出因子间的相关程度很高,即适用于因子分析及降维处理。
2.1.3提取公因子
通过SPSS对各年监测数据进行降维处理,从原有个数较多的变量中提取少数几个不可观测的因子,以反映各年监测指标的基本信息。并且根据变量间的相关性进行分组,从变量组内提取少数的潜在因子来反映本组的特性,从而使这些因子能够概括和归纳原有观测变量的大部分信息,解释变量的基本结构[23]。
表4中,利用主成分分析法提取2009—2017年24个监测指标的主成分,2009年、2011年、2012年、2014年、2015年提取了4个主成分,2010年、2017年提取了5个主成分,2013年、2016年提取了6个主成分,每个主成分下因子得分较高的控制指标也具有明显的分离度。结果显示原本的24个指标可以由4~6个主成分因子所描述,方差累计贡献率均在78%以上,说明提取的主成分因子可较好地描述原本庞大的数据。
表4 2009—2017年提取的公因子Table 4 Common factors extracted from 2009 to 2017
2.1.4因子旋转
为更好地对公因子进行解释,本文对因子载荷矩阵做出正交变换,即在对应坐标系进行投影,从而使旋转后的因子载荷矩阵结构简化。利用凯撒正态化最大方差法对因子载荷进行旋转,将得到的结果由大到小进行排序,得到旋转后的成分矩阵。由于对每年的数据进行因子分析后得到的主成分含义不同,F5、F6贡献率数小,因此主要选取前4个主成分F1~F4来研究。
2.1.5污染源识别
从表4可得2009—2017年各个主成分表征的污染源:第一主成分(F1)中CODMn、CODCr、NH3-N具有较高的因子载荷,指示的是有机物污染源;氟化物、硫化物、Hg在F2中占有较大的因子载荷,即F2指示的是燃煤动力和冶金工业的污染源;F3中As、Si占比较大,指示的是电子和冶炼工业的污染源;F4则指示的是化工产业[23-24]。总体来说,西安市的地表河流受有机物污染最为严重,其次是工业生产中产生的一些对环境和人体有很大损害的有毒物质。
初始因子载荷矩阵用于表征监测水质指标与主成分的相关程度,用于解释各个主成分变量的变异情况,其绝对值越接近1,表明相关程度越高,则该指标可以作为评价水质的主要控制指标[10,24-25]。根据这一原则,并且结合指标所要表征的全面性以及避免重复,选取以下6个指标作为西安市河流的主要控制指标:CODCr、阴离子表面活性剂、NH3-N、石油类、氟化物、硫化物,并且根据这6个指标与其主成分的因子载荷值绘制图1,评价这些指标9年间对主成分因子的影响情况。
由图1可知,2009—2017年CODCr、NH3-N、阴离子表面活性剂3个指标均维持了较高的因子载荷。石油类污染物在2009—2015年间波动较小,2016年显著下降并达到最小值;氟化物基本维持较低因子载荷,在2013—2014年间波动明显。综上,西安市河流水质受有机类、NH3-N、阴离子表面活性剂污染最为严重,2011—2015年综合污染情况严重,2016年水质最好。
图1 2009—2017年污染物主要控制指标变化趋势Fig.1 Change trend of main pollutant control indicators from 2009 to 2017
2.2.1主成分得分计算
若从原P个指标中提取了m个主成分(式(1)),则主成分得分计算公式为
(3)
式中:Yi为第i个主成分得分;Xi为第i年原始变量值;li1,li2,…,lim为X协方差阵特征值对应特征向量。
将每年36~40个水质样品的原始变量值标准化处理后代入式(3),计算得出监测断面的各主成分得分,给予水质污染程度的定量化描述:各个主成分下的得分越大,说明受此主成分因子的影响越大,综合得分越高,表明水体受污染的程度越严重[26-27]。
将各个主成分的特征根作权数,对每个主成分进行加权平均即得综合得分,主成分综合评定函数Y表示每年各断面综合污染情况。
(4)
式中:Yi为各个断面在第i主成分下的得分情况;λ1,λ2,…,λn为每个主成分的特征根。
根据2009—2017年断面主成分综合得分计算结果,北石桥综合得分在2009年、2011年、2014年、2015年得分最高,其中2014年与2015年得分高达8.08、9.11。其次是丈八沟,综合得分在2017年达到最高,2009年、2014年位于第二;再次是雁秋门,综合得分在2010年、2012年达到最高。小北门在2009年、2012年得分最低,临河入渭在2015年、2017年得分最低,其中小北门断面在2009年得分最低可达0.11。
2.2.2综合评价
a. 水质空间分布特征。各断面的主成分综合得分越高、排名越靠前,代表断面污染越严重。2009—2017年主成分综合得分排名前10的断面综合得分情况见表5。
由表5可知,北石桥除2016年、2017年断流外,其余年份均为综合得分最高断面,其次,雁秋门、农场西站、丈八沟,说明这些断面综合污染最严重的,其中农场西站、雁秋门、丈八沟均属于皂河水系,北石桥属于渠系。文中未列出的断面艾蒿坪在2009年主成分综合得分最低,为-2.209,田峪口在2011年得分达到最低,为-2.191,它们均属于黑河水系。说明西安市主要地表水系中皂河污染最严重,黑河污染状况最轻。
b. 点源污染解析。北石桥、雁秋门、农场西站和丈八沟这4个主成分综合得分较高的断面,分析这几个断面第一、第二、第三等等主成分的得分,得出水质主要污染源如下:断面北石桥(2016—2017年无水)在2009—2015年在第一主成分下得分均为正值,说明与F1正相关,并且得分值较大,表明采样点北石桥的水质受F1表征的氨氮类、有机类污染物影响最为显著;F2下的得分在2009—2011年为正值,在2012—2015年为负值,说明此采样点与F2在前3年正相关,后面几年为负相关,说明北石桥2009—2011年受氟、硫化物和石油类污染物影响较为严重,而后面4年有所缓解[27]。断面雁秋门在这9年间均在F1上有较高得分,说明此采样点受氨氮和有机污染物影响严重,而在F2、F3上得分基本上为负值,因此可以看出雁秋门受氟、硫化物、砷硒、石油类污染物的影响较弱。同理,可知断面农场西站与丈八沟这两个采样点均受有机物和NH3-N污染最为严重,其他污染物影响不太显著。
a. 通过降维处理将24个水质指标综合为4~6个主成分,且降维后主成分的方差累计贡献率均在78%以上,能较好地反映原水质指标的信息,有效简化监测数据。
b. 采用因子分析法得到了因子载荷较高的7个水质指标为:CODCr、CODMn、阴离子表面活性剂、NH3-N、石油类、氟化物、硫化物。通过分析7个水质指标的变化,发现西安市地表河流2011年到2015年综合污染情况严重,2016年水质最好。
c. 通过主成分分析法,得到了35~40个监测断面的各主成分得分,其中北石桥、农场西站、雁秋门和丈八沟的综合得分最高,艾蒿坪、田峪口综合得分最低。表明西安市主要地表水系中皂河污染最严重,黑河污染程度最轻。通过分析得分最高的断面,发现有机物、NH3-N对地表河流水质影响最为显著。