基于主成分分析与聚类分析的水质综合评价研究

2023-09-18 10:20王照丽黄利志
科技创新与应用 2023年26期
关键词:外江南河岷江

陈 华,张 倩,王照丽,梁 晨,黄利志

(1.中煜生态环境科技(广州)有限公司,广州 510000;2.成都市环境保护科学研究院,成都 610000)

水质反映了各种自然和人为活动对自然环境的综合作用,也是生态环境部门管理核心问题,水质变化特征可以为地表水管理与治理提供有力的依据。随着近年来工农业的快速发展,快速的城镇化,城市人口剧增,地表水水质遭受严重污染。自20 世纪70 年代开始,学者们通过不同的方法来评价研究河流水质情况,如单因子评价法、综合指数评价法、主成分分析法、因子分析、聚类分析法、灰色评价法、模糊评价法和神经网络评价法等[1-6]。不同的评价方法各有不同的侧重点,具有不同的优缺点。2012 年成都市劣Ⅴ类水质占比13.3%,高于当年全国10.2%的平均水平[7],存在出境断面连续不能达标的严峻事实;2015—2020 年成都岷、沱江流域地表水环境质量明显改善,水质变化呈不同特征,总体均明显改善,其中岷江(外江)南河的老南河大桥断面仍然面临含氮磷污染物的困扰[8]。本文采用聚类分析和因子分析对岷江(外江)南河进行水质污染特征和评价水质状况分析,为岷江(外江)南河的水资源保护和水污染控制提供决策参考。

1 研究区概况

成都市地势西北高,东南低,境内河网密度大,流经河流属岷江和沱江两大水系,西南部为岷江水系,东北部为沱江水系。年平均气温在16.4 ℃左右,大于等于10 ℃的年平均活动积温为4 700~5 300 ℃,冬季最冷月(1 月)平均气温为5 ℃左右,0 ℃以下天气很少,全年无霜期大于337 d。冬春干旱少雨,夏秋多雨,雨量充沛,雨水集中在7、8 月,年平均降水量为1 124.6 mm,地域分布由西北向东南递减。研究区域南河为岷江(外江)水系,位于成都西南,跨越邛崃市、崇州市、大邑县、蒲江县和新津县,研究区域及水质监测点分布如图1 所示;区域土地利用情况数据来源于https://livingatlas.arcgis.com/landcover,研究区域上游地区主要为林地,中下游地区主要为建成区和耕地,如图2 所示。本文采用2019 年岷江(外江)南河地表水监测数据,水质监测项目为pH、溶解氧(DO)、化学需氧量(CODcr)、高锰酸钾指数(CODmn)、总磷(TP)、氨氮(NH3-N)及总氮(TN),分析2019 年岷江(外江)南河的水质污染特征和评价水质状况。

图1 研究区域及水质监测点分布

图2 研究区域土地利用情况

2 研究方法

主成分分析法采用降维的处理思想,对水质数据进行处理,将各水质参数进行标准化处理后,提取较原有指标少的重要参数,可以代表大部分的信息,并通过线性变化,将多项水质参数指标组合成互相独立的主成分。简化了数据结构,权数确定不受主观因素的影响,是基于数据分析的指标之间的内在结构关系,有较好的客观性。

主要步骤:①将原始数据标准化,建立标准化变量矩阵;②计算标准化数据的相关系数矩阵;③计算相关系数矩阵的特征根和特征向量;④计算主成分贡献率及累计贡献率,判断主成分;⑤计算主成分荷载(主成分系数矩阵);⑥计算各主成分得分。由主成分系数矩阵与标准化数据相乘,即为各项主成分得分值;⑦计算主成分综合得分值。由主成分得分值与相应权重的乘积之和,即为综合得分值。

取研究对象的n 个样本,每个样本含有m 个因子,由此建立n×m 的变量矩阵X,即

为了消除样本因子间的差异,统一量纲,简化数据,常采用Z-Score 变换对数据进行标准化处理

聚类分析采用分类的多元统计思想,是将研究对象按某些相似性进行分类,类内部个体特征具有相似性,不同类间个体特征的差异性较大。样本间的相似性,一般主要有系统聚类法和K-均值法2 种聚类方法。本文采用系统聚类法,欧式距离进行计算,采用主成分分析成果来对监测断面采用聚类分析法进行分类。

主要步骤:前两步主成分分析法一样。标准化数据,计算标准化数据的相关系数矩阵;采用欧氏距离计算不同类型的个体距离,个体与小类、小类与小类间距离采用组间平均距离计算,逐步计算至各类对象归为一类,绘制聚类分析谱系图。

采用欧氏距离d,第i 个对象和第j 个对象的距离可由下列公式计算

式中:xik为第i 个对象的第k 个属性值;xjk为第j 个对象的第k 个属性值。

3 结果与分析

利用SPSS 软件,通过主成分分析与聚类分析,对岷江(外江)南河2019 年水质污染特征和水质状况进行分析。

3.1 主成分分析

由于岷江(外江)南河水质指标的量纲和尺度不同,因此它们的浓度有一定差别,需要进行标准化处理。对原始数据进行标准化即某一水质指标减去其均值后再除以标准差以消除量纲的影响,使标准化后的数据具备可比性并遵从正态分布规律N(0,1)。各水质指标采用统计学特征统计量见表1。

表1 岷江(外江)南河水质指标特征统计量

采用标准化数据,计算水质监测点水质指标的相关系数矩阵见表2。从相关系数矩阵表可以看出,岷江(外江)南河水质指标大部分相关系数大于0.3,说明各水质指标的相关性是比较强的,水质指标间存在信息上的重叠。并从表中可以看出,水质指标CODmn 与NH3-N 的相关性最强,系数达到0.632,其次是NH3-N与TP 的,系数达到0.629,CODmn 与TP 的相关性也较强,系数达到0.608。

表2 岷江(外江)南河水质指标相关系数矩阵

通过KMO 和巴特利特检验,可以得出KMO 值为0.839,巴特利特球形度检验显著性为0.000。通常认为当KMO 检验结果在0.5~0.7,且巴特利特检验结果的显著性小于0.05,则表示原始数据适宜进行主成分分析[2],KMO 检验结果大于0.7 则非常适合主成分分析,因此岷江(外江)南河采用主成分分析来进行水质评价是比较合适的。

采用差累积贡献率超过75%的原则提取主成分,岷江(外江)南河水质指标采用前3 个主成分,概括污染状况信息,其方差累积贡献率为77.346%,见表3。

表3 岷江(外江)南河水质指标主成分提取分析

根据载荷矩阵(表4)可知,主成分F1 中最高正相载荷为TP,其次较高正相载荷为CODmn,表明主成分F1 基本反映了岷江(外江)南河水质中的有机污染指标和营养性污染指标。主成分F2 中最高正相载荷为NH3-N,其次为pH,表明主成分F2 基本反映了水质理化指标和营养性污染指标。主成分F3 中最高正相载荷为TN,其次为DO,表明主成分F3 基本反映了水质营养性污染指标,综合3 个主成分可知,对岷江(外江)南河水质影响最大的是有机物和氮素磷素营养物。

表4 岷江(外江)南河水质指标主成分载荷矩阵

岷江(外江)南河水质3 个公因子F1、F2、F3 的得分公式

根据综合评价函数,计算各采样点水质污染的主成分的综合得分,见表5,得分反映了水质污染程度的综合化定量描述,得分越低,表明水体水质越好。

表5 岷江(外江)南河水质指标主成分载荷矩阵

从表5 及图3 可知,岷江(外江)南河出江铁索桥、桑园站污染程度很轻;盐店、唐场大桥、团结桥、宝林和桂山污染较轻;黄塔、五星、老南河大桥污染相对较重。

图3 研究区域综合指数变化趋势

3.2 聚类分析

在主成分分析结果的基础上,计算出10 个采样点3 个主成分得分,代替原始水质指标,分别对各监测点按pH、DO、CODmn、NH3-N、CODcr、TN、TP 采用系统聚类法进行聚类。按照测站进行聚类,本文采用欧式距离来表示测站间综合水质相似性,结果谱系如图4 所示。

图4 研究区域聚类谱系图

从谱系图可以看出,在类间距离为10 时,出江铁索桥、桑园测站水质相似性较强,黄塔、五星、老南河大桥测站水质相似性较强,盐店、唐场大桥、团结桥、宝林、桂山测站水质相似较强。岷江(外江)南河出江铁索桥、桑园测站于岷江(外江)南河上游,主要为林地,污染程度很轻;盐店、唐场大桥、团结桥、宝林、桂山位于岷江(外江)南河上中游,主要为耕地和建成区,污染较轻;黄塔、五星、老南河大桥测站位于岷江(外江)南河下游,主要为耕地和建成区,同时作为上中游污染物累积出口,污染相对较重,聚类分析结果有着明显的空间位置特征和土地利用特征,与主成分综合得分分析结论一致。

4 结论

本文采用主成分分析和聚类分析法,对岷江(外江)南河的2019 年水质污染特征和评价水质状况进行多元统计分析,从分析结果可知。

1)将主成分分析与聚类分析相结合,能有效提高聚类分析结果的可靠性,这2 种分析结果可相互验证,科学合理地反映了不同河段水质污染状况及污染成分。

2)从主成分分析结果看,影响岷江(外江)南河水质的主控因子为化学需氧量、氨氮与总磷,说明岷江(外江)南河水质状况主要是有机物和氮素磷素营养物共同作用的结果。

3)从主成分分析与聚类分析水质综合评价结果看,岷江(外江)南河出江铁索桥、桑园站污染程度很轻;盐店、唐场大桥、团结桥、宝林、桂山污染较轻;黄塔、五星、老南河大桥污染相对较重,需重点关注周边生活污染、农业面源污染。

猜你喜欢
外江南河岷江
岷江
民国北方京剧科班的发展流向及与“外江派”关系论衡
岷江行(外一首)
伯益造井
疯狂的虫草,疯狂的松茸和疯狂的岷江柏*——专访作家阿来
南河特大桥顶升方案关键点分析与设计
区间暴雨与外江洪水的遭遇分析实例
岷江同大渡河相会乐山
自证
一切都会正常起来