王 松,吴 彤,彭 琼
(四川省乐山生态环境监测中心站,四川 乐山 614000)
水环境污染已引起世界各国的广泛关注和研究[1~4]。然而,由于污染物标准的不同以及单一指标评价方法的局限性,仅采用单因子评价法难以全面评估水质。目前,国内外广泛采用的方法包括指数法、加权综合指数法、营养状态指数法、主成分分析法和聚类分析法等[5]。主成分分析(PCA)是一种常用的数据降维方法,通过寻找数据中变量的最大方差方向,并将数据沿该方向进行投影,从而简化数据结构并保留数据中最大的信息。PCA可以降低变量之间的相关性,减少数据噪声和冗余,提高模型的准确性。这种方法可视化结果直观,有助于发现和理解数据中的重要变量,广泛应用于统计学、机器学习和信号处理等领域。
乐山位于四川盆地东北缘地区,水资源丰富,市区内拥有四川省第二大河流岷江及其支流等多个水系,使用主成分分析方法对乐山市境内所有断面的水环境进行评价较合理。本次研究旨在使用2022年乐山市范围内设立的国家和省级自动水质监测站的月均监测数据,对乐山市2022年水环境质量进行评估和研究。
选取乐山市辖区所有国、省控水质自动监测站(下称自动站)2022年度监测数据月均值进行研究,点位信息见表1。自动站监测参数涵盖了水温、pH等常规水质五参数以及高锰酸盐指数、氨氮、总磷、总氮。自动站能够对所在断面的水质进行全天候不间断连续监测,可以每小时获取一次五参数数据,每四小时获取一次其余四参数的监测数据。相较于常规手工监测,自动监测有其独特的优势[6]:(1)实时监测:水质自动监测系统能够实时反馈水质参数,提供连续并及时地数据,相较于手工监测可以更快速地发现水质变化,减少因数据滞后而导致的误差和延误。(2)准确性高:水质自动监测系统采用高精度的传感器进行数据采集,并经过数学模型校准处理数据,相较于手工监测减少了人为误差和偏差,确保了水质监测数据的准确性和可靠性。(3)节省人力和时间:得益于自动监测系统的高度自动化及智能化,大大降低了手工操作和数据处理的工作量,节省了人力和时间成本。(4)可扩展性和灵活性强:水质自动监测系统相较于手工监测可以更加方便地对监测点位进行扩展,并且可以根据不同的监测需求进行调整。(5)实现远程监测:水质自动监测系统具有实现远程监测的优势,可以通过互联网等远程技术实现数据的远程访问和共享,方便了监测管理和数据分析。总的来说,水质自动监测系统能够实现自动化和数字化监测水质指标,减少了人为因素和误差,提高了监测数据的精确度和可信度,促进了水质的管理和保护,相较于传统手工监测具有更高的优势和价值。
表1 站点信息Tab.1 Information about stations
一般地,设有n个评价对象和m个评价指标,用评价矩阵Y=(yij)n×m表示。
将矩阵中的各指标yij通过标准化运算转换成标准化指标xij。指标标准化计算公式为:
对标准化后的数据进行KMO检验和巴特莱特球形检验(Bartlett Test of Sphercity)。KMO检验是用于评估因子分析模型适合度的统计检验工具。KMO检验的目的是测试每个观测变量与其他变量之间的相关性程度。它的检验结果为KMO取样适切性量数,介于0和1之间,值越接近1表示变量之间的相关性越高,相应的因子分析结果将更为准确。通常,KMO取样适切性量数大于0.5,则可以使用因子分析。
巴特莱特球形检验(Bartlett's test of sphericity,BTS)是一种统计检验方法,在因子分析中,我们通常需要通过将多个变量组合在一起来形成新的因子,用以解释观测数据的变异性。巴特莱特球形检验是旨在检验数据样本中变量之间相互独立性。其检验的原理是,通过计算矩阵的特征值和其特征向量来评估该矩阵是否满足球形模型,如果检验结果表明样本数据符合球形模型,那么就可以采用简单的因子分析模型来解释数据变异,否则需要采用更复杂的因子分析模型来解释数据变异。BTS检验使用卡方检验来确定变量之间是否存在相关性。当p-value小于0.001时,表明各个变量之间存在统计学上显著的相关性,即变量之间不是独立的,因此存在进行因子分析的可能。
普遍认为,当KMO 取样适切性量数大于0.5,BTS球形检验值p-value小于0.001时,进行主成分因子分析的前提条件已经满足,可以进一步进行因子分析[7]。
在标准化矩阵的基础上计算原始指标的相关系数矩阵R,即:R=[rij]m×m(i = 1,2,…,m;j = 1,2,…,m),rij为原始变量xi与xj的相关系数。解特征方程 | λi-R | = 0并求出对应的特征值 λi(i = 1,2,…,m),将λ从大到小排序,λ1≥λ2≥λ3…λm≥ 0,即为主成分的方差,λi大小的取值就是对应主成分对原始样本的累计方差贡献率。求出每一个特征值 λi对应的特征向量,通过特征向量将标准化后的指标转化成m个新的指标变量,即m个新的主成分PC1,PC2,…PCm。计算特征值 λi(i=1,2,…,m)的方差共献率及累计贡献率。其中,主成分 PCm的方差贡献率为:
一般特征值大于1的前p个主成分被选出代替原来的 m个指标变量,从而达到降维的目的。利用前p个特征值对应的单位特征向量写出主成分计算公式,计算各主成分的值 Fi(i = 1,2…,p),再以方差贡献率 bi作为权重系数,对提取的前 p 个主成分在每个单元内得分进行线性加权求和,从而得到综合评价函数并计算出主成分综合得分。
本次研究选取地表水环境质量标准(GB3838-2002)中的6个评价指标即pH、溶解氧、高锰酸盐指数、氨氮、总磷和总氮。其中仅溶解氧为逆向指标,即溶解氧值越大,水质越好,故本次研究将溶解氧进行求倒数后,再参与运算[8]。KMO和BTS检验结果详见表2。
表2 KMO和BTS检验Tab.2 KMO test and BTS
经检验,标准化数据矩阵KMO取样适切性量数为0.775,大于0.5;BTS检验显著性p-value值为0.000。符合主成分分析的要求。
根据特征值大于1的原则,提取出2个主成分,这两个主成分累计方差69.18%,反映了水质评价原始数据提供的 69.18%的信息。累计方差贡献率见表3。
表3 累计方差贡献率Tab.3 Accumulative variance contribution
在PCA(主成分分析)中,每个主成分均与原始数据的特征相关,并根据其方差大小进行排序。载荷(loading)是用于衡量每个原始特征在每个主成分中的权重,载荷越大表示该原始特征在主成分所代表的新空间中的重要性越高。因此,如果发现某个特定的原始特征在PCA分析中的载荷相对较高,这意味着该特征在解释方差的过程中起到了重要的作用,表明该特征在给定数据集中的变异性较大,或者它与其他重要特征之间存在较强的相关性[9]。主成分因子载荷结果见表4。
表4 主成分因子载荷Tab.4 Factor loadings in PCA
从表3、表4可知,通过PCA对乐山市的水环境监测指标进行标准化处理后,成功提取出了两个主成分。这两个主成分共解释了原始数据近70%的信息。其中,第一主成分(PC1)对总方差的贡献率超过50%,表明其在数据变异性中扮演着重要角色,占主导地位。在PC1上,总磷和高锰酸盐指数具有较高的正向载荷,这表明涉磷污染和有机污染是乐山市水环境污染的主要因素。
其次,第二主成分(PC2)对总方差的贡献率约为18%左右,在PC2上,pH和溶解氧表现出较高的载荷。值得注意的是,pH在PC2中呈现正向载荷,而溶解氧则呈现负向载荷。这表明水体的酸碱性(pH)以及溶解氧含量对水质有一定的影响,尽管其影响程度相较于涉磷污染和有机物污染较小。
基于以上结果,建议未来的水环境污染治理策略应重点关注涉磷污染和有机物污染的控制。可以通过实施针对性的除磷和有机污染治理措施来实现。同时,应密切关注水体的理化特性,特别是pH和溶解氧的变化,以确保水质的有效维护和改善。
对各站点主成分得分进行计算,并以各主成分的方差贡献率为权重计算出综合得分。得分结果详见表5。
表5 站点综合得分Tab.5 Comprehensive component scores
根据综合得分表,得分越高水质越差。乐山辖区的13个水质自动站,马边河河口站水质最好,茫溪大桥站水质最差。按流域划分,乐山境内大渡河水质最好,茫溪河水质最差。除茫溪大桥外,其余站点水质均达到或优于地表水Ⅲ类水质标准。其中Ⅱ类水质占比69.2%,Ⅲ类水质占比23.1%。
茫溪大桥水质明显较其他站点差可能是以下几点原因造成的:一是茫溪河是岷江的一个小支流,水量较小,水体流动性差,环境容量小;二是茫溪河上游养殖业尾水排放及周围农业面源的污染;三是周围企业的含磷污水的排放。以上三点因素的叠加,使得茫溪河总磷和高锰酸盐指数偏高,水质较差。
利用主成分分析法分析评价了乐山13个断面站点中的六项指标,结果表明涉磷污染和有机污染是乐山市水环境污染的主要因素。通过对各个站点主成分综合得分进行排名可知茫溪大桥水质最差,马边河河口水质最好。除茫溪大桥外,其余站点水质均达到或优于地表水Ⅲ类标准。
茫溪河的主要污染物为总磷,其次为高锰酸盐指数,这表明茫溪河沿线有机以及涉磷污染物较重。这与茫溪河生态水流量补给不足及沿线存在点源、面源污染密不可分。
结合茫溪河流域内污染源、水质、污染物输入量现状等信息,提出“截污控源、生态治理、清水补给,强化监管”的治理思路。