基于改进的主成分分析法的地下水质量评价研究

2018-11-05 07:56张春霞许高双王向浩李成成
绿色科技 2018年18期
关键词:水质评价特征值分析法

张春霞,郑 钊,曹 震,许高双,王向浩,李成成,李 瞻

(1.河南理工大学 资源环境学院,河南 焦作 454003;3.南阳市环境监测站,河南 南阳 473000;2.南水北调中线渠首环境监测应急中心,河南 淅川 474475)

1 引言

水质评价是水环境质量评价的重要内容,可以为水环境管理和决策提供客观依据。1960年以来,针对水质评价指标的选取和评价方法的研究很多,如单因子评价法,内梅罗指数法、灰色关联度、模糊数学法、神经网络法等。由于地下水水质是一个多因子复杂系统,水质评价涉及到多个指标体系,因此在水质评价过程中要全面考虑多污染因子的影响,这无疑增加了问题的计算量与复杂性[1],传统的水质评价方法大多数是根据主观经验确定影响污染的主要指标,进而通过主观或客观设定权重值,然后与对应的指标值组合判断水质等级,使水质评价结果具有一定的主观性和盲目性。而主成分分析法可将多维因子纳入统一系统进行定量化分析,通过降维将多个变量指标压缩为能反映问题特征的几个少数综合定量指标,通过少数的综合指标对问题进行分析[2],避免了主观随意性,广泛应用于教育学、医学、社会学、环境科学等方面[3~5]。

2 水质样本和研究方法

2.1 水质样本

焦作市中站区是焦作市西部工业集中区,其地下水水质好坏直接关系到当地居民的身体健康。本文依据地下水质量标准(GB/T14848-2017),选择有代表性的8项指标和10个监测点作为评价对象,于2016年7月对中站区地下水进行采样化验,所采水样为100 m左右的深层岩溶水,具体数据如表1所示。

表1 地下水水质监测数据 mg/L

2.2 研究方法

以表1为样本,样本数为10个,每个样本8个变量组成8×10阶矩阵,记为χij,对变量χij进行标准化,以消除不同指标之间的量纲影响,在标准化数据矩阵的基础上计算原始指标的相关系数矩阵zij,确定待分析的原始变量是否适合进行因子分析,通过主成分分析抽取公因子,解出特征方程λ1、λ2……λp,依据特征根λ>1时对应的主成分确定综合因子数目,通过主成分的初始因子载荷矩阵及相对应的特征值计算其系数矩阵,写出主成分表达式Fi,以方差贡献率为权重,对提取的m个主成分通过线性加权得到综合得分F,即为水质断面的定量化描述。采用主成分分析法进行水质评价目的是分析各污染物所占综合指标的比重,选取造成污染的主要因子。通过对数据的分析,构建一个综合水质评价指标系统,对样本点污染程度进行评价[6,7]。研究数据采用社会科学统计软件SPSS20.0进行计算。

3 结果分析与评价

3.1 标准化数据

为了减少数据量纲和数量不同带来的影响,需对原始数据进行归一化整理,获得标准化数据。如表2。

表2 标准化数据

3.2 主成分分析计算

采用相关分析法对8项指标进行分析,相关系数见表3。通常两指标之间的相关系数绝对值越大,表明两指标的相关性越强,相关系数为正,表面指标间存在正相关关系,反之为负相关关系。从表3可以看出,大部分的相关系数都在0.3以上,说明各指标信息存在重叠,具有一定的相关性,说明原始变量适合因子分析。

表3 相关系数矩阵

特征值表示主成分对指标变量影响力的大小,若特征值小于1,说明主成分的解释力度不够[8],采用SPSS20.0软件对8项指标的方差通过特征值进行分析,根据特征值的大小提取主成分,特征值分析见表4。根据主成分分析法中个数的选取原则,特征值大于1的根对应第1、第2主成分,其方差贡献率分别为62.293%和18.451%,累积方差贡献率为80.744%,说明这两个主成分能够解释大部分原始水质指标信息。图1更加清楚地显示出前两个主成分的特征值大于1,且特征值曲线在主成分2出现突变点,因此选择这两项主成分作为综合指标,可较为全面地反映焦作市中站区地下水水质状况,即主成分个数m=2。

主成分个数确定后,需进一步确定各主成分的表达式和综合主成分表达式,为开展水质综合评价提供依据。主成分表达式需计算各原始水质指标的系数,即主成分荷载。它代表各指标和主成分之间的相关关系,主成分荷载矩阵见表5。表5中的数据绝对值越大,说明指标与该主成分间的相关性越强,联系越紧密。从表5可以看出,溶解性总固体、氯化物、总硬度3项指标在主成分1上的荷载较大,表示主成分1主要反映这3个指标的信息,耗氧量、氟化物和硝酸盐在主成分2上的荷载较大,表示主成分2主要反应这3个指标的信息。

表4 地下水水质主成分特征值

通过初始因子荷载矩阵除以其对应主成分特征值的平方根,可得到其对应的系数矩阵如表6。

图1 主成分分析特征值曲线

表5 主成分系统矩阵

表6 特征值对应的系数矩阵

传统的主成分表达式是将主成分特征值对应的系数矩阵数据与标准化后的监测数据一一相乘再相加,得到主成分表达式F1、F2值,这里只选择系数矩阵中筛选后的主要污染因子溶解性总固体、氯化物、总硬度、氟化物、耗氧量和硝酸盐与标准化后相对应的监测数据(表2)相乘相加,得到主成分表达式F1、F2值及综合评价函数表达式F。通过主成分和综合评价函数表达式得到各断面的主成分得分和综合分数,如表7所示。

表7 主成分和综合主成分得分排名

F1=0.438ZX2+0.439ZX3+0.431ZX4

(1)

F2=-0.534ZX5+0.501ZX6+0.572ZX8

(2)

F=[λ1/(λ1+λ2)]F1+[λ2/(λ1+λ2)]F2=0.771F1+0.229F2

(3)

从表7可以得出,东冯封在F1、F2和F综合得分都较高,说明东冯封污染较为严重,从实测数据也可以开出,东冯封主要超标因子是总硬度、溶解性总固体、耗氧量超标,超标因子远远多于其它监测点位。从表7还可以看出,污染较为严重的排在前面,F值排名居于前面的分别是东冯封、北朱村、西冯封、南朱村,影响因子主要是溶解性总固体、氯化物、耗氧量和总硬度,对这些地方要加大环境治理力度,避免水体进一步污染和扩大;排名居于后面的水质较优,如李封、春林、白门洞、王庄,应注意保持和维护目前水质。

将筛选前的8项因子与筛选后的6项因子得到的综合函数表达式与模糊综合评价法进行对比,结果见表8。

表8 不同水质评价方法对比

表8是未降维和已降维因子得到的主成分综合值,50%的排名一致,40%的排名基本一致,从降维后的结果可以看出,居于第9和第10的F值降维前的绝对值相对较高,说明水质没有降维前的好,排名靠前的水质稍差的第1和2的值比降维前的低,说明水质污染比降维前的轻,虽然采用主要污染因子进行计算,但降维后的评价结果区间缩小,所以降维后的F值在水质评价上更趋于客观性和准确性,同时减少了参与评价的因子量,避免了过多无关因子的干扰,提高了效率。

通过水质结果对比可以看出,采用主成分分析法和模糊综合法所得结果基本一致,模糊综合法在水质指标选取方面主观性较强,而且对同一级水质不能更好的区分优劣,采用主成分分析法有效地解决了这一问题,主成分分析法能有效地降低数据维度,筛选出主要污染因子,最大限度地降低了评价因子选取主观性对评价结果的不利影响,而且能对同一级水质结果按照水质污染程度进行排序,更好地对水质优劣进行区分,使评价结果更加客观合理。

4 结论

(1)本文采用主成分分析法对焦作市中站区地下水进行水质分析评价,将水质指标转化为两个综合变量,即第一主成分和第二主成分代表了原有数据80%的信息量。第一主成分贡献率为62%,第二主成分贡献率为18%,第一主成分所包含的指数溶解性总固体、氯化物、总硬度具有较强的相关性,第二主成分代表的氟化物、耗氧量和硝酸盐具有较强的相关性。所以在进行水质评价时,可通过主成分降维这一特点筛选出影响水质因素的主要因子进行评价,尽量减少主观因素对水质评价带来的不利影响。

(2)采用主成分分析进行水质评价并按照大小进行排序,排序结果表明,东冯封、北朱村、南朱村、西冯封排名在前四位,污染程度稍重,春林、西王封、白门洞、王庄排名靠后,水质较优,东冯封在F1、F2和F综合中均居于第一,远高于其它监测点,说明东冯封污染程度较重,建议当地相关部门应加大对这一区域饮用水的水质管理力度。

(3)采用主成分分析法和模糊综合评价法得到的水质评价结果基本一致,但主成分分析法能对同一级水质按照水质优劣程度进行排序,改进的主成分分析法选择系数矩阵中筛选后的主要污染因子与标准化后相对应的监测数据相乘,得到主成分表达式及综合评价函数表达式,避免了传统方法中将主成分特征值对应的系数矩阵数据与标准化后的监测数据一一相乘再相加,使水质结果更加客观合理。同时这也是模糊综合法和其它一些水质评价方法所无法比拟的[9-10],说明采用主成分分析法对水质评价具有一定的科学性和实用性,尤其适用于较复杂、多指标的水质评价体系中。

猜你喜欢
水质评价特征值分析法
异步机传统分析法之困难及其克服
宿州市河流水化学特征及水质评价
阿什河哈尔滨段水质评价
基于DEA分析法的全国公路运输效率分析
黄河玛曲至临河段硅藻群落组成及水质评价
单圈图关联矩阵的特征值
伴随矩阵的性质及在解题中的应用
基于层次分析法的智慧城市得分比较
基于层次分析法的智慧城市得分比较
电化学发光分析法测定糖尿病相关二肽