基于统计学方法的某铝矿周围地下水水质监测及评价

2023-11-15 08:48潘江勇
山西化工 2023年10期
关键词:分值聚类水质

潘江勇

(广州检验检测认证集团有限公司,广东 广州 510000)

饮用水受到金属污染后,由于其对人类健康的潜在急性和/或慢性不利影响,可导致危及生命的癌症和神经紊乱[1]。对健康的负面影响使自然水资源的金属污染成为一个持续的全球环境问题。铝(Al)广泛分布在环境中,占地球外壳的8%左右。它由人为和自然来源释放,存在于所有类型的自然水体中[2]。天然水源中Al 的质量浓度超过0.20 mg/L,在世界许多国家都被认为是一个严重的问题。越来越多的流行病学研究表明,神经系统疾病数量的增加与饮用水中Al 浓度的升高有关[3]。迄今为止,文献报道的基于实地数据集定量分析的铝矿周围地下水质量研究数量有限[4]。考虑到这一点,以及Al 浓度升高对地下水水质的有害影响,本文对某铝矿周围地下水进行了研究。将Spearman 相关性、因子分析、聚类分析等单变量和多变量统计方法以及水质指数应用于现有现场数据集,分析了Al 矿周围地下水水质,重点分析了Al 浓度升高的情况[5]。本研究的主要目的是,一是定量描述铝浓度变化与地下水水质参数之间的关系;二是评价2009—2022 年地下水水质总体变化。研究结果可用于水质管理,并开发和实施处理技术,使铝浓度保持在饮用水标准以下。

1 材料与方法

1.1 研究区环境条件及现场数据集

研究区域发达的采矿业引起了人们对当地环境安全的严重关切。工业活动加剧了空气和地表水的污染水平,使地下水资源成为该地区饮用水的替代供应。在过去的30 年里,该区域地下水含水层已成为当地家庭供水的重要来源之一。A 和B 是两个地下水取水口,为该区域周边地区提供水。来自A 进水口的水是当地供水的主要来源,具有高铝浓度和高pH 值,而来自B 进水口的水的质量在饮用水标准之内。Al对家庭用水的污染已经成为当地供水组织和管理的主要问题。这些情况使得对中央取水的可用现场数据集的分析成为解决地下水中铝浓度升高方法的主要初始阶段。分析结果有助于开发有效的水处理方法来降低地下水中的铝含量。

中央取水口包括10 口正在运行的地下水井,每口井配备离心潜水泵,平均排量为185 m3/h。作业井深为72~131 m,平均井深115.6 m。来自中央进水口的10 口运行地下水井的每口数据包括12 个地下水质量参数:质量浓度(Al、F-、NO3-、Cl-、SO42-Ca2+、Mg2+),pH、总溶解固体TDS、浊度、颜色、硬度。采用单变量和多变量统计方法对2009—2022 年各变量共462 个样本进行分析。

1.2 描述统计

计算主要描述性统计指标(平均值、标准差、最小值、最大值、四分位数25%、中位数75%)和Spearman相关系数矩阵,评价和总结各井地下水参数的基本性质,定量分析Al 浓度与其他地下水水质参数之间的关联关系。Spearman 相关系数rs是一种广泛使用的非参数度量,用于评估任意单调函数如何描述两个变量之间的关系,并在排序数据上计算。rs的应用不需要任何关于变量频率分布的假设,并且对异常值(数据集中的不寻常观测)不像Pearson 相关系数那样敏感。常用的显著性水平(α 水平)0.05 是解释计算rs值的统计学显著性的标准。以概率值(p 值)≤0.05 为有统计学意义。

将多变量统计方法应用于环境监测数据集有利于突出不容易获得的信息,特别是当单变量分析的结果显示几个数据集变量之间存在统计上显著的关联时。因子分析(FA)、主成分分析(PCA)和聚类分析(CA)是复杂环境数据集评价中最常用的多元分析方法。通过将数据集中的复杂结构简化为几个主要因素,可以在不丢失任何信息的情况下提取数据集中的复杂结构。FA/PCA 是从相关矩阵中提取特征值和特征向量的一种方便的数据约简方法。每个因素都是通过PCA 方法提取的,解释是基于旋转的因素和负荷(衡量变量对该因素的贡献)。

从多元数据对象中识别称为聚类组的一种公认的方法是聚类分析(CA)。当应用于环境数据集时,层次聚类方法允许将相似观测值的变量组合到一个组中,然后将次之相似的观测值组合到另一个组中。层次聚类分析(HCA)使用欧几里得距离作为距离(相似/不相似)的度量。将FA/PCA 和HCA 数据标准化,避免因数据维数差异较大而导致的误分类。最常用的数据标准化技术之一是对n 个变量的z 尺度变换,每个变量有n 个观测值,其计算方法如式(1):

式中:Zij是标准化变量Zi的第j 个值;Xij是第i 个变量的第j 个观测值;i=1,…,n,j=1,…,n;xm为均值;SD是标准值。对z 尺度变换后的某铝矿周围地下水数据集进行FA/PCA 和HCA,将数据集变量降维为若干因子,并将其分组。根据>0.75、0.75~0.50 和0.50~0.30的绝对负荷值,将用FA/PCA 计算出的因子负荷值分别分为强、中、弱。HCA 结果使用树状图来解释,树状图显示物体和集群合并时的距离水平。距离被重新缩放到0~25 的范围,即,到一个集群解决方案的最后一个合并步骤发生在重新缩放的距离25 处。

1.3 水质指数计算

包含多个参数的水质数据集可以用一个简单、一致的数字来概括和表示整体水质。水质指数提供环境数据的解释和交流,可用于减少水质数据的多变量性质。本文用WQI 水质指数评估与水质准则相关的水质状况。根据计算出的WQI 分值,水质可关联到以下类别之一:95~100,水质优良;80~94,水质好;65~79,水质良好;45~64,边际水质差;0~44,水质差。采用SPSS 16.0 统计软件包进行多变量数据处理。利用CCME WQI 2.0 计算器计算地下水水质监测数据的CCME WQI 分值。

2 结果与分析

2.1 描述性统计分析

计算的描述性统计分析表明,在12 个分析的地下水水质变量中,Al 质量浓度和pH 值均未达到推荐饮用水水质标准。地下水中Al 的质量浓度超过饮用水标准(0.20 mg/L)的9 倍。在0.19~1.81 mg/L 的变化范围内,在13 年的监测期内,Al 浓度只有一次低于指导值(图1)。研究区地下水根据pH 值划分为碱性地下水。地下水样品pH 值持续偏高,在8.74~9.96 之间变化。研究区地下水中TDS 质量浓度在25.20~126 mg/L 之间。阴离子Cl-、NO3-和SO42-的质量浓度相对于指导值变化较低。对地下水的颜色、浑浊度、Ca2+和Mg2+阳离子等感官和物理特征的观察主要接近难以检测的水平。此外,根据硬度和TDS 水平,地下水可分别表现为软矿化和低矿化。

采用Spearman 相关性这一单变量统计工具,揭示了Al 与其他地下水质量参数之间的关联水平。通过计算得到的Spearman 相关系数矩阵(表1),各地下水水质参数之间的相关性具有统计学意义,r 的绝对值在0.31~0.82 之间。Al 与pH 的相关系数均为0.50,与阴离子NO3-、SO42-、Cl-和TDS 的相关系数均为0.50,具有统计学意义。根据计算结果,所考虑的地下水中Al 质量浓度的升高及其与pH 值的关系可能表明Al 从含铝矿物中迁移到水相中。

TDS 与地下水离子NO3-、SO42-和Cl-之间存在显著相关性,可能与研究区地下水形成的一般过程有关。根据单变量统计分析结果,没有直接证据表明施肥(NO3-、SO42-)、污水排放(NO3-)和工业废水等人为活动对地下水质量有影响。

2.2 多元分析结果

将具有特征值>1 提取约束的FA/PCA 应用于z尺度变换后的数据集。分析的数据足以用于FA/PCA应用,因为KMO 检验的计算值等于0.82,巴特利特球度检验值小于0.001。使用筛选图来确定分析中保留的因素数量,以理解潜在的物理化学数据结构。根据结果,4 个主要影响因素占了数据集总方差的大部分(由特征值给出)。其余因素占方差的比例较小(特征值<1),未用于进一步分析。主导因素的贡献见表1。4 个因子均包含12 个地下水水质参数。然而,每个因素的单独变量的负荷有不同的量级。

总的来说,提取的4 个因素占数据集总方差的67.36%。这些因子的特征值分别为4.20、1.61、1.23 和1.04,对应的方差负荷分别为32.89%、12.88%、12.49%和9.28%。因子1 具有TDS(0.90)、NO3-(0.88)和SO42-(0.85)的强正载荷值,以及pH(-0.81)和Al(-0.77)的强负载荷值。TDS、NO3-、SO42-和Cl-之间存在强到中等的关系,证实了使用Spearman 相关性得到的结果。硬度和F-分别对因子2 和因子4 的方差贡献最大。因子3 包括颜色和浊度,其正载荷值分别为0.87和0.76(表2)。根据计算结果,因子1 有利于风化过程,pH 变化导致Al 向地下水释放。因子2 和因子3(包括硬度、颜色和浊度)代表了地下水的物理和感官特征,解释了数据集总方差的25.37%。

根据相似度将监测的地下水质量参数分组的HCA 显示了3 个聚类(图2)。距离值越小,变量之间的相似性越大。计算表明,在分析的参数中,pH 和Al这两个变量大大超过了其相应的指导值,将其合并到一个聚类(聚类2),表明强碱性水条件下的金属污染。聚类1 包括阴离子和TDS,反映了地下水的矿化含量,聚类3 主要代表了感官参数和硬度。后一组被分为两个亚组。第一个亚组包括浑浊度和颜色,它们表征了由于悬浮和胶体物质而产生的水的透明度,而第二个亚组包括F-、Ca2+、Mg2+和硬度。

图2 中部取水12 个地下水水质参数的HCA 树状图

计算结果表明,聚类1 中包含的参数与Al 浓度高度相关,而聚类3 中包含的参数与Al 浓度相关性较低。使用Spearman 相关性得到的统计学显著相关性证实了这一点(表2)。

2.3 WQI 地下水质量评价

利用10 口井的6 个监测地下水水质参数Al、Cl-、pH、NO3-、SO42-和TDS 的观测数据和相应的饮用水指南,计算WQI 分值。用于WQI 计算的地下水质量参数的选择是基于当前单变量和多变量统计分析的结果。计算出的WQI 分值显示,不同监测年份的地下水水质属于水质良好到边际水质差类别(图3),分值在监测期间由69.9 下降至64.8。与饮用水指南相关的升高的Al 质量浓度和pH 值对计算分值的贡献最大。根据计算结果,Al 质量浓度在数年内的稳定增加导致了地下水水质的恶化和WQI 值的下降。

图3 2009—2022 年CCME WQI 分值计算

3 结论

本研究描述了基于单变量和多变量统计方法以及WQI 对某铝矿周围地下水的现场数据集分析的结果。

1)分析的结果提供了对水质的评估和解释,重点是Al 质量浓度和pH 水平的升高,这使得使用地下水作为当地家庭供水复杂化。在所有考虑的理化参数中,pH 值、NO3-、SO42-质量浓度和TDS 质量浓度是与地下水中铝浓度变化相关的主要统计学显著变量。

2)采用主成分分析提取法(FA/PCA)进行因子分析,可将12 个监测地下水质量参数简化为4 个主要影响因素。四因素模型解释了原始数据集总方差的67.53%,其中因素1 包括铝,影响Al 质量浓度变化的参数[pH、ρ(NO3-)、ρ(SO42-)和ρ(TDS)]占33%。

3)根据层次聚类分析(HCA)结果,将12 个监测地下水水质参数分为3 个聚类:聚类1 代表主要阴离子和总溶解固形物;聚类2 为地下水污染物;聚类3主要由感官参数和硬度组成。CCME WQI 分值反映了2009—2022 年监测期间地下水水质的逐渐恶化,该分值将地下水水质总体描述为水质良好到边际水质差。

猜你喜欢
分值聚类水质
水质抽检岂容造假
一起来看看交通违法记分分值有什么变化
一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓
按病种(病组)分值结算:现状、做法和评价
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
宿迁城镇居民医保按病种分值结算初探
水质总磷测定存在的问题初探
水质总氮测定方法改进探究